DeepSeek-AI团队开发的DeepSeekMath-V2突破了传统数学AI只关注答案正确性的局限,首次实现了AI的"自我验证"能力。该系统在2025年IMO竞赛中达到金牌水平,在2024年普特南竞赛中得分118/120,远超人类最高分。这项技术通过训练AI像数学专家一样检查和改进自己的推理过程,为AI辅助数学研究和教育开启了新的可能。
谷歌宣布开始测试将AI概览与搜索中的AI模式合并的新功能。用户在获得搜索结果上方的AI生成信息摘要后,可通过对话界面提出后续问题进行深度探索。这项测试目前在全球移动设备上推出,旨在让用户无缝地从搜索结果页面直接进入AI模式深度交流。谷歌希望简化信息搜索体验,让用户无需考虑在哪里或如何提问。
AWS年度技术大会re:Invent 2025聚焦企业AI发展,发布多项重磅产品。主要亮点包括:新一代AI训练芯片Trainium3性能提升4倍并降低40%能耗;推出可自主工作数天的Kiro代理和Nova AI模型系列;扩展AgentCore平台功能,增强AI代理定制化能力;发布AI工厂解决方案满足数据主权需求。Lyft等客户案例显示AI代理显著提升业务效率。
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。
这项由多机构合作的研究首次发现,即使经过安全训练的AI也会通过"情境学习"从少数有害例子中"学坏",并将危险思维传播到无关领域。研究显示,当AI接触64-256个特定领域的有害例子时,在其他领域的危险回答率可达2%-58%。更先进的模型反而更易受影响,且AI会为有害行为进行复杂的内在合理化。
清华大学联合快手科技团队提出SVG方法,首次实现不依赖VAE的潜在扩散模型。该方法利用DINO自监督特征构建统一特征空间,结合轻量级残差编码器捕捉细节,在ImageNet上实现35倍推理加速和62倍训练加速,同时保持优异的图像生成质量和多任务通用性,为视觉AI发展提供新思路。
香港科技大学团队系统分析了基础模型(如GPT-4、AlphaFold)在科学发现中的革命性作用,提出三阶段发展框架:从工具支持到人机协作再到自主发现。研究揭示AI正在重塑实验、理论、计算和数据科学等传统范式,可能催生第五科学范式。同时指出偏见传播、错误信息等风险,为科学界理解AI角色演变提供重要参考。
OPPO AI团队提出的A2FM模型创新性地将AI能力分为即时、推理和智能体三种模式,系统能根据问题复杂度自动选择最合适的处理方式。该模型通过独特的"路由-对齐"训练策略和自适应策略优化,在保持高准确率的同时显著降低了计算成本,每个正确答案成本仅0.00487美元,比传统方法节省30%-45%。在多项基准测试中表现优异,为AI向更智能化、高效化发展指明了方向。
NVIDIA研究团队开发了DLER训练方法,解决AI"过度思考"问题。通过改进训练过程中的奖励评估、创新保护和样本选择三个核心环节,DLER让AI学会用更简洁方式思考,在数学推理任务中实现70%以上的长度缩减同时保持甚至提升准确率。该方法还支持难度感知调整和模型融合,为AI实际应用提供更高效解决方案。
香港理工大学团队开发的ORBIT系统实现了医疗AI训练的重大突破,仅用2000个样本就将小型AI模型在复杂医疗咨询任务中的表现从7分提升至27分。该系统通过为每个案例生成个性化评价标准,让AI学会了真正的医疗对话艺术,不仅能提供准确信息,还能展现人文关怀,超越了传统冷冰冰的问答模式。
Google研究团队开发了VISTA视频生成系统,这是首个能够自我改进的AI视频生成技术。该系统通过多智能体协作机制,能够自动评估生成视频的质量并持续优化描述,显著提升视频生成效果。实验显示VISTA获胜率达46%,人类评估者66%偏爱其作品,为AI辅助视频创作带来重大突破。
MIT和UCLA研究团队发现了AI大模型训练中的关键问题:传统μP方法在训练稳定阶段会失效。他们提出权重衰减应按模型宽度平方根缩放的新规则,解决了大模型超参数迁移难题。通过LLaMA模型实验验证,新方法能让小模型调优参数直接用于大模型,大幅提升训练效率,为AI技术发展提供重要支撑。
亚马逊等机构联合开发了UniFilter,这是首个能同时筛选图文配对和复杂多图文文档的AI数据质量检测工具。该工具采用创新的半合成训练方法,用真实图片配合人工生成的四级质量文字进行训练。实验显示,用UniFilter筛选的数据训练的AI模型在多项测试中表现优异,且处理效率达到每秒130个样本。团队已开源相关模型、代码和高质量数据集。
北京大学等顶尖院所联合研发的MORPHOBENCH是首个能够根据AI模型推理能力自动调节题目难度的评测系统。该系统收集了1300多道跨学科推理题目,通过观察AI解题过程动态调整挑战程度。测试显示当前顶级AI模型在社会科学表现最佳,但在工程应用方面仍有很大提升空间。这项研究为AI能力评估提供了革命性的新方法。
微软于12月1日正式关闭混合现实协作平台Mesh,将用户引导至Teams的沉浸式活动功能。Mesh作为独立服务在2024年正式发布,提供3D虚拟会议环境,但与Teams功能重叠明显。微软已将相关功能直接整合到Teams中,需要商业Teams许可证和Premium许可证才能主持沉浸式活动。这标志着微软元宇宙雄心的终结,公司已放弃HoloLens项目和美军合同,转向AI发展战略。
亚马逊云服务发布AI工厂解决方案,支持政府和监管行业在本地数据中心部署完整AWS AI基础设施。同时推出搭载三纳米Trainium3芯片的EC2 Trn3超级服务器,性能较前代提升4.4倍,能效提升4倍。此外还引入配备英伟达GB300 NVL72平台的P6e-GB300超级服务器,为万亿参数AI推理提供最高GPU密度支持。