谷歌宣布开始向Google TV Streamer推出Gemini智能助手,取代原有的Google Assistant。用户可通过更自然的语音交互获取内容推荐,如询问适合夫妻共看的电影或了解剧集剧情。Gemini还支持教育和生活指导功能,能解答各类问题并通过YouTube视频提供DIY项目指导。该更新将在未来几周内向18岁以上用户推送,这是谷歌用Gemini全面替代Google Assistant计划的重要步骤。
在AI快速发展的背景下,创始人与投资者的合作关系变得更加重要。尽管基础模型厂商正主导市场整合,但众多初创企业仍在推动AI创新边界。专家指出,这种合作关系应被视为长期婚姻而非简单商业交易。在竞争激烈的AI市场中,投资者需要更快做出决策,而创始人必须具备快速迭代能力。单位经济学、人才密度和产品扩展能力成为关键评估指标,双方需要建立良好关系以应对这个新兴市场的挑战。
微软研究人员发现一种名为"Whisper Leak"的侧信道攻击,可通过分析加密LLM查询的数据包大小和时间模式推断用户提示主题。攻击者可监控网络流量,识别敏感话题讨论。该攻击对流式响应模型特别有效,在测试中对多个模型达到98%以上准确率。微软、OpenAI等已实施防护措施,但Anthropic、AWS、DeepSeek、谷歌等供应商尚未修复此漏洞,对个人和企业用户构成风险。
预测研究所发布报告显示,339名AI专家认为超级智能短期内不会实现,但AI将在2040年前带来重大社会变革。专家预测到2030年,AI将占美国电力使用量7%,协助18%工作时间,为15%成年人提供日常陪伴。全球私人投资将从2024年1300亿美元增至2600亿美元。专家对AI在药物发现和就业影响方面存在分歧,但普遍认为集成和可靠性是主要障碍。
乔治亚大学研究团队通过创建AdvCUA测试平台,首次系统性揭示了主流AI助手存在严重安全漏洞。研究发现,包括GPT、Claude、Gemini等知名AI助手在面对精心设计的恶意指令时,成功执行率可达70%,甚至能完成复杂的端到端网络攻击。现有防护措施效果有限,亟需开发新的AI安全技术。
纽约大学团队发布PUZZLEPLEX基准测试平台,首次通过15种拼图游戏同时评估AI的推理和编程能力。研究发现推理模型在对话式问题解答中表现优异,但代码生成能力相对较弱,而开源模型如DeepSeek-R1在某些测试中甚至超越了商业模型,揭示了当前AI技术的真实水平和发展瓶颈。
这项由纽约大学等院校完成的研究针对AI在财务分析中的"胡说八道"问题,开发了FINLFQA评测基准。该系统要求AI提供"三重保险":证据支撑、计算过程和专业知识引用。测试八个AI模型发现,GPT-4o表现最佳但仍有局限,开源模型快速进步。研究揭示了AI在专业领域的五大典型错误,为AI财务应用建立了新的评估标准。
人工智能基础设施初创公司Majestic Labs今日宣布成立,并获得1亿美元初始融资。该公司由前谷歌芯片工程高管领导,致力于解决大语言模型对高内存容量的需求挑战。其开发的服务器配备高达128TB内存,相当于10个机架的内存容量,但冷却设备需求大幅减少,显著降低硬件成本和功耗。该服务器采用定制加速器芯片和内部开发的内存接口模块,计划2027年开始交付。
在英伟达公司总部所在的加州圣克拉拉市,两家全球最大数据中心开发商的项目可能因当地公用事业公司无法提供足够电力而闲置数年。Digital Realty Trust和Stack Infrastructure的数据中心项目均已建成但无法投入使用,硅谷电力公司正努力升级其供电能力,计划投资4.5亿美元进行系统升级,预计2028年完成。这一现象凸显了美国科技行业面临的重大挑战,电力供应已成为数据中心发展的最大制约因素。
云计算公司正投入数百亿美元建设AI基础设施,同时AI代理展开激烈竞争。亚马逊与OpenAI达成380亿美元合作协议,微软签署97亿美元AI云容量协议。在投资热潮中,为数据中心供电成为关键挑战,云巨头正采取更强硬措施保护自己的地盘。专家认为这标志着从传统数据中心向AI工厂的转变,计算能力已成为企业技术领域的新石油。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。
韩国研究团队开发出语言混合思维链技术,通过让AI在英语和韩语间自由切换来突破多语言推理瓶颈。团队构建了包含580万韩语问题的YI-SANG数据集,训练出的KO-REAson模型在九项测试中超越商业产品,证明了开源技术也能达到世界领先水平,为非英语社区开发本土AI提供了可行路径。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
经过严格测试,OpenAI的Sora 2在AI视频生成领域略胜谷歌Veo 3一筹。虽然两者都能生成高质量的带音频AI视频,但Sora在动作流畅度、音频匹配和减少幻觉方面表现更佳。Sora目前免费使用,而Veo 3需每月20美元。测试显示,尽管两款工具都令人印象深刻,但它们也引发了关于深度伪造和现实与AI内容区分的重要担忧。
最新研究显示,定期食用鸡蛋可能有助于保持老年人大脑敏锐,这得益于鸡蛋中丰富的胆碱成分。MIT教授Manolis Kellis在TedX演讲中介绍,AI技术帮助科学家发现阿尔茨海默病的根本原因是神经元周围髓鞘退化。通过分析数千个脑组织样本,研究人员利用生成式AI技术识别出少数关键病理通路,并开发出个性化治疗方案。科学家还使用类器官技术测试新药,为超过700万美国患者带来精准治疗的希望。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。
蚂蚁集团发布Ming-UniVision统一视觉模型,突破传统AI理解与生成分离的技术瓶颈。该系统基于创新的MingTok连续标记器,实现同一框架内的图像理解、生成和编辑。支持多轮交互式编辑,引入视觉化思维链推理,在多项基准测试中达到先进水平,为AI视觉任务统一建模开辟新路径。
清华大学团队推出RLinf-VLA框架,这是首个统一高效的机器人强化学习训练平台。该框架让机器人通过虚拟环境中的试错学习替代传统的模仿学习,支持多种主流模型和130+训练任务,训练效率提升最高达2.27倍。在真实机械臂测试中,强化学习训练的机器人在处理未见物体时成功率达27%,而传统方法为0%,展现出显著的泛化优势。