谷歌DeepMind开发的AlphaProof和AlphaGeometry 2系统实现了AI数学推理的重大突破,采用神经符号方法让AI像人类数学家一样思考。两个系统分工合作,在2024年国际数学奥林匹克竞赛中获得满分,不仅能解决复杂数学问题,还能提供严格的证明过程。这项技术将革命性地改变数学教育、科学研究和各行业应用。
据报道,OpenAI正准备发布一款由即将推出的Sora 2视频模型驱动的独立社交应用。该应用与TikTok高度相似,采用垂直视频信息流和滑动滚动导航。不过,该应用仅支持AI生成的内容,用户无法从手机相册上传照片或视频。Sora 2在应用内生成的视频时长限制为10秒或更短。应用还包含身份验证工具,允许用户使用自己的肖像生成视频,其他用户可以标记并在重新混合视频时使用他们的肖像。
微软发布全新Agent Mode功能,支持Excel和Word中的AI代理协作。该模式可自动生成高质量文档、电子表格和演示文稿,让非专业用户也能使用复杂功能。Excel代理模式在准确性测试中达到57.2%,远超原版Copilot的20%。Word代理模式则专注于内容起草和格式优化,让写作变成对话式体验。目前已向商业用户和个人订阅用户开放。
微软为Word和Excel添加了AI代理模式,由Microsoft 365 Copilot驱动,即使是经验不足的用户也能创建高质量的专业文档和电子表格。该功能采用自然语言提示方式,用户可通过简单指令让AI协助完成多步骤任务。Excel代理模式可创建预算表格和财务分析,Word代理模式可协助撰写简历、报告等各类文档。微软还在Copilot聊天中添加了Office代理功能,目前已在前沿计划中向订阅用户开放。
高通在骁龙峰会上发布两款旗舰处理器:骁龙8 Elite Gen 5手机芯片和骁龙X2 Elite PC芯片,旨在成为新一代智能体AI的硅基础设施。新芯片采用3纳米工艺,CPU性能提升20%,能效提升35%,GPU性能提升23%,NPU速度提升37%。重点是支持情境感知、多模态AI代理,能实时理解用户需求并主动响应,实现设备间无缝协作。
Perfios公司研究团队开发了创新的AI理财顾问训练框架,通过行为心理学驱动的数据生成方法,让8B参数的小模型在个人理财建议方面达到了与32B大模型相当的性能,同时运营成本降低80%。该方法首次将用户心理状态分析作为独立训练阶段,显著提升了AI建议的个性化程度和人性化表达,为普及化AI理财服务提供了技术路径。
蚂蚁集团联合哈工大开发的MedResearcher-R1医学AI系统,通过创新的稀有实体挖掘和知识图谱构建方法,结合专业医学工具,在医学深度研究基准测试中达到27.5分的最佳成绩,超越OpenAI o3等顶级系统,证明了专业领域AI的巨大潜力。
这项由蒙特利尔大学等机构联合完成的研究提出了CARE框架,通过原生检索增强推理技术解决大型语言模型的上下文忠实度问题。该方法教会AI在推理过程中主动引用提供的文本信息,而非依赖内部知识,在多个问答任务上实现显著性能提升,为构建更可信的AI系统提供了新思路。
阿贡国家实验室开发的AERIS系统是首个能稳定预测90天天气的AI模型,参数规模达800亿,在Aurora超级计算机上创造10.21 ExaFLOPS性能记录。通过创新的SWiPe并行策略和扩散模型架构,AERIS在中期天气预报和极端事件预测方面超越传统方法,成功预测飓风路径和欧洲热浪,代表AI气象预报的重大突破。
苹果与清华合作提出EpiCache技术,解决AI长期对话中的记忆管理难题。该方法将对话自动分割成话题片段,为每个话题建立专门记忆库,实现智能匹配和高效检索。实验显示,EpiCache比传统方法准确率提高40%,内存使用减少4-6倍,响应速度提升2.4倍,为资源受限环境下的AI对话系统提供了实用解决方案。
清华大学与英伟达合作提出DiffusionNFT,一种革命性的AI图像生成训练方法。该方法通过对比正负样本进行学习,避免了复杂的概率计算,训练效率比传统方法提升25倍。研究团队在多项测试中验证了其优越性,不仅大幅提升了图像质量和文字渲染能力,还实现了无需分类器引导的高效训练,为AI图像生成技术的普及和应用奠定了重要基础。
复旦大学研究团队通过对五个大型语言模型的深入分析,发现了AI训练中的一个反常现象:增加训练数据量不仅没有提升模型性能,反而导致最高14%的性能下降。研究揭示,精细调优过程中高达90%的参数更新对知识提升无效甚至有害,通过恢复这些无用参数可显著改善模型表现。这一发现挑战了"数据越多越好"的传统观念,为开发更高效的AI训练方法提供了新思路。
Meta超级智能实验室开发了ARE平台和Gaia2基准测试,为AI智能体创造了更真实的训练和评估环境。ARE支持异步交互,模拟真实世界的复杂性和不确定性。Gaia2包含1120个场景,评估AI的七项核心能力。实验显示最强模型成功率仅42%,特别在时间管理和处理歧义方面表现较差,揭示了当前AI技术的局限性和改进方向。
微软宣布为Word和Excel推出基于OpenAI的AI代理模式,通过简单提示即可自动生成文档和分析数据。Word用户可享受"氛围写作"功能,利用现有文档组装报告和提案。Excel代理能分析电子表格数据并生成可视化报告。尽管在SpreadsheetBench基准测试中准确率仅为57.2%,低于人类平均水平71.3%,但微软强调其针对实际工作场景优化。此外,微软还发布了基于Anthropic的Office代理,显示其正逐步减少对OpenAI的依赖。
OpenAI为美国ChatGPT用户推出"即时结账"功能,用户可在对话中直接购买Etsy和Shopify商品,无需跳转至外部网站。该功能支持Apple Pay、Google Pay等多种支付方式,并计划接入超过100万家Shopify商户。OpenAI还将开源其代理商务协议技术,与谷歌的代理支付协议形成竞争。这标志着电商购物模式的重大转变,AI聊天机器人可能重塑在线零售发现和支付生态系统。
中国AI实验室DeepSeek本周爆红,其聊天机器人应用登顶苹果和谷歌应用商店榜首。DeepSeek由量化对冲基金High-Flyer支持,使用计算高效技术训练AI模型,让华尔街分析师质疑美国能否保持AI领先地位。该公司发布的V3和R1推理模型在多项基准测试中表现出色,价格远低于同类产品。尽管面临美国芯片出口限制和政府设备禁用,DeepSeek仍凭借技术创新和低成本策略在全球AI市场引发关注。
初创公司ComplexChaos正在开发AI工具来促进合作并缩短群体达成共识的时间。该工具结合了谷歌的Habermas Machine和OpenAI的ChatGPT,能够生成问题、设定对话目标并总结长文档。在与九个非洲国家的年轻代表进行的气候谈判准备试验中,参与者报告协调时间减少了60%,91%的参与者表示AI工具帮助他们看到了原本会错过的观点。
VirtualZ公司在原有Lozen数据访问和PropelZ数据提取产品基础上,新推出FlowZ和Zaac两款产品。FlowZ支持大机与x86服务器及公有云应用间的双向文件数据访问,无需额外编码。Zaac作为双向网关,将本地存储和云存储呈现为大机本地设备,显著降低成本并加快部署速度。两款产品均支持将大机数据整合到AI管道中,助力企业实现混合云集成。
软件交付公司Harness宣布收购AI驱动的漏洞检测企业Qwiet AI,旨在将安全性直接嵌入DevOps管道。此次收购将Qwiet的代码属性图与Harness的软件交付图集成,提升漏洞检测精度。Qwiet声称拥有97%的真阳性率和92%的开源漏洞检测率,可帮助开发者专注于真正重要的安全风险,并提供经验证的代码修复方案。