Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。
这项由卡内基梅隆大学和东北大学联合开展的研究通过分析1322篇AI隐私论文,发现学术界92%的注意力都集中在训练数据泄露这一相对较小的威胁上,而聊天记录泄露、AI助手背叛、隐私推断和信息聚合等更严重的隐私威胁却被严重忽视,呼吁学术界和产业界重新审视AI隐私保护的优先级和策略。
Bagel Labs团队开发的巴黎模型是首个完全通过分布式计算训练的开源AI绘画模型,实现了训练过程中的零通信协作。该模型将数据分为8个语义群组,每个专家独立训练,通过智能路由器协调使用。相比传统方法,巴黎模型用14倍更少的训练数据和16倍更少的计算资源达到了接近的性能,为AI训练民主化开辟了新路径。
OpenMOSS团队突破传统语音对话系统限制,开发出MOSS-Speech模型,实现真正的"语音到语音"直接对话,无需文字转换中介。该模型采用模态层分离架构和冷冻预训练策略,在保持强大文本能力的同时增加native语音处理能力,能够保留语音中的情感、语气等副语言信息,显著降低对话延迟,为更自然的人机语音交互开辟新路径。
阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开发出突破性"角色混合视频生成"技术,成功解决了让不同世界角色自然互动的技术难题。通过跨角色嵌入学习和数据增强方法,该技术能让卡通角色与真人角色在同一视频中保持各自特色的同时实现自然互动,为创意内容生成领域开辟了全新可能性。
苏黎世联邦理工学院研究团队提出"测试时课程学习"方法,让AI像学生考前针对性复习一样,自主从海量数据中筛选最相关内容进行强化训练。该方法在数学推理任务上提升1.8倍,编程任务提升2.1倍,并通过"潜在改进"评估确保了真正的推理能力提升而非格式记忆,为AI个性化学习开辟新路径。
中美研究团队发现扩散语言模型内部存在多个"隐藏专家",不同的文字生成顺序会激活不同专家。他们开发的HEX方法通过让多个专家投票选择答案,在数学推理等任务中将正确率提升3.56倍,无需重新训练即可显著改善AI性能,为AI系统优化开辟了新路径。
清华等机构研究团队发现AI安全防护系统存在重大漏洞:通过在恶意问题后添加人眼不可见的Unicode变体选择器字符,可以让安全AI绕过防护机制提供有害回答。这种"隐形攻击"在多个主流AI模型上成功率高达80%-100%,且攻击痕迹完全不可见,为AI安全领域敲响警钟。
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
微软宣布将在阿联酋投资79亿美元,大幅扩展当地数据中心基础设施。此次投资将使微软在阿联酋的算力容量增长近四倍,达到相当于81900块H100芯片的水平。项目将部署英伟达最新的GB300超级芯片。同时,微软还与云计算初创公司Lambda Labs达成合作,委托其建设价值数十亿美元的AI基础设施。这些投资将配备数万块显卡,进一步增强微软的AI算力布局。
据彭博社报道,苹果正与谷歌合作开发定制版Gemini AI模型,将在2026年春季为新版Siri提供支持。苹果此前在谷歌和Anthropic之间进行评估,最终选择谷歌是因为其提供了更优惠的财务条件。该定制模型将在苹果私有云计算服务器上运行,处理复杂任务,而苹果自有模型仍在设备端处理个人数据。
人工智能正在彻底改变半个世纪以来不断发展的芯片设计自动化进程。从IBM在1950年代引入电子自动化设计开始,如今AI模型能在数小时内创造出比人类设计更高效的无线芯片,但其"随机形状"的设计原理连人类也无法理解。Cadence首席执行官提出"三层蛋糕"概念,强调硬件、物理基础和AI层的协同作用,认为中间层是实现高价值的关键所在。
特拉维夫大学研究团队开发了SAEdit方法,使用稀疏自编码器实现精确的AI图像编辑控制。该技术能像调节音量一样精确控制编辑强度,实现从微笑到大笑的连续调节,同时确保编辑的高度解耦性,避免意外修改其他图像元素。方法具有出色的通用性,可应用于多个AI图像生成平台,为图像编辑领域带来重大突破。
Code4Me V2是荷兰代尔夫特理工大学开发的开源AI编程助手平台,专为学术研究设计。它解决了商业AI编程工具透明度不足、无法获取交互数据的问题,提供了模块化架构和完整的数据收集框架。该工具性能可媲美商业产品,代码补全延迟仅186.31毫秒,同时支持内联补全和聊天功能。通过透明、可控制、可扩展的设计,为AI辅助编程研究提供了重要的基础设施平台。
德国于利希超级计算中心研究团队通过两千多次实验发现了AI模型训练的神奇规律:无论模型大小和数据量如何变化,最优训练配置总是对应同一个特定数值——输出层算子范数约为128。这一"范数传递"现象为AI训练提供了可靠的理论指导,并揭示了具体的缩放法则,能够显著提高训练效率、降低成本。研究还发现分层学习率优化可带来6%性能提升,为AI训练的民主化做出重要贡献。
新加坡国立大学Show Lab团队开发了首个学术演讲视频自动生成系统Paper2Video,能将研究论文转换为包含专业幻灯片、同步字幕、个性化语音和虚拟演讲者的完整视频。该系统创建了101篇论文配对演示视频的评估基准,设计了四套创新评估指标,其PaperTalker框架采用多智能体协作,在知识传递效率上甚至超越人工制作视频10%。
罗彻斯特大学研究团队发布了视频AI后训练的突破性研究成果。该研究系统性地解决了视频AI从基础感知向深度推理转变的关键问题,提出包括监督式精调、强化学习和测试时扩展的完整训练体系。通过思维链训练、GRPO算法等创新方法,显著提升了AI在复杂视频理解任务上的表现,为智能视频分析技术的实用化奠定了重要基础。
微软宣布未来四年将在阿联酋投资152亿美元,包括首次向该国运输最先进的英伟达GPU芯片。美国已授权微软向阿联酋出口英伟达芯片,使该国成为美国出口管制外交的试验场和地区AI影响力锚点。这笔投资包括2023年以来的73亿美元支出和2026-2029年的79亿美元计划投入,涵盖数据中心建设、人才培训和AI基础设施扩展,目标到2027年培训100万当地居民。