微软正在将Windows 11改造为"智能代理操作系统",在任务栏中集成AI代理功能。新功能允许AI代理在后台执行任务,用户可通过任务栏图标查看进度状态。微软还在文件资源管理器中集成Copilot,提供文档摘要、文件问答等功能。此外,Click to Do功能得到改进,可将网页表格转换为Excel文档。这些AI功能采用本地AI和云端AI混合模式,为用户提供更智能的操作体验。
谷歌发布最新Gemini 3基础模型,在推理能力方面实现重大突破。该模型在人类最终考试基准测试中创下37.4分新纪录,超越此前GPT-5 Pro的31.64分。同时推出Gemini驱动的编程界面Google Antigravity,提供多面板智能编程体验,类似Warp或Cursor 2.0等智能IDE。目前Gemini应用月活用户超6.5亿,已有1300万软件开发者使用该模型。
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。
慕尼黑工业大学研究团队开发了名为CoBia的新方法,通过构造虚假对话历史来测试11个主流大语言模型的隐藏偏见。研究发现,看似"政治正确"的AI系统实际上仍携带深层偏见,传统测试方法检测率不足20%,而CoBia方法可达80%以上,揭示了当前AI安全防护的重要盲点。
维尔茨堡大学和汉堡大学研究团队发现,先进的AI语言模型在回答相同事实问题时会出现"变脸"现象——简单问题回答正确,但在复杂询问中却给出错误答案。通过测试16个模型和600个问题组合,研究揭示了这种不一致性主要源于AI内部不同的神经处理路径,并开发出78%准确率的预测工具。这一发现挑战了当前AI评估方法,为构建更可靠的AI系统提供了重要方向。
上海AI实验室研究团队开发了VPPO算法,通过精确识别AI推理过程中真正依赖视觉信息的关键步骤,重点强化这些环节的学习,解决了现有多模态AI系统"猜对"而非"看懂"的问题。在多项测试中,该算法显著提升了AI的视觉推理准确率,为构建真正理解视觉信息的AI系统开辟了新路径。
上海AI实验库等机构联合开发了名为InternSVG的人工智能系统,专门处理SVG矢量图形的理解、编辑和生成任务。该系统构建了包含1600万训练样本的SAgoge数据集,涵盖图标、插图、化学结构图和动画四大领域,并建立了全面的SArena评测基准。通过统一建模方法和两阶段训练策略,InternSVG在各项任务中显著超越现有方法,为图形AI领域带来重大突破。
微软在Ignite 2025大会上预览了Windows的重要更新,显示出操作系统向支持AI智能体的根本性转变。新增功能包括原生支持模型上下文协议(MCP)、智能体连接器注册表、明确的权限管控模型,以及独立的智能体工作空间。这些更新建立了OS级别的身份验证、授权和审计机制,让智能体能够安全地执行文件操作和系统设置等任务,同时保持可控性和可追溯性。
苹果即将发布的macOS Tahoe 26.2系统将支持通过雷雳5连接多台Mac设备,构建低延迟AI超算集群。该功能支持Mac Studio、M4 Pro Mac mini和MacBook Pro等设备。四台Mac Studio可高效运行万亿参数的Kimi-K2-Thinking模型,功耗不到500瓦,比传统GPU集群低10倍。此外,MLX项目将获得M5芯片神经加速器的完整访问权限。
人工智能基础设施初创公司Lambda宣布完成超过15亿美元的E轮融资,由TWG Global领投。Lambda运营专为AI工作负载优化的云平台,提供可配置多达16.5万张显卡的AI环境。公司将利用新资金建设数据中心,计划在堪萨斯城建造拥有2.4万兆瓦初始计算能力的AI数据中心,预计明年初开放时将包含1万张英伟达Blackwell Ultra显卡。Lambda还与微软签署了价值数十亿美元的云合同。
谷歌发布最智能的Gemini 3模型,引入生成式用户界面模式,可为复杂多模态问题自动创建独特界面。该技术能动态生成最佳视觉布局,包含交互工具和模拟功能。例如解释三体问题时生成物理演示,回答抵押贷款问题时创建交互计算器。这标志着AI接近"超级软件"阶段,能为任何需求动态创建最优用户界面,代表计算史上第三次重大用户界面范式转变。
瑞士洛桑联邦理工学院研究团队开发出"稳定视频无限"技术,通过创新的"错误循环利用"方法解决了AI视频生成长度限制问题。该技术让AI在训练时主动学习处理各种错误,从而能够生成任意长度的高质量视频内容,支持复杂场景转换和多模态控制,为内容创作、教育和娱乐行业带来revolutionary变革。
华为诺亚实验室等机构联合提出了一种创新的AI训练方法,通过双层优化框架让AI从数据中自动学习评价标准。该方法结合了传统最大似然估计和强化学习的优势,在表格分类和模型驱动强化学习任务中展现出更好的收敛性和泛化能力,为解决强化学习中缺乏明确奖励信号的问题提供了新思路。
NVIDIA等机构联合提出QeRL框架,通过自适应量化噪声技术实现大语言模型强化学习训练的效率与性能双重突破。该方法将显存需求减少60-70%,训练速度提升1.5倍以上,首次实现320亿参数模型单GPU训练,同时在GSM8K等数学推理测试中达到90.8%准确率,接近全参数训练效果。
纽约大学研究团队开发出突破性的表征自编码器(RAE)技术,颠覆传统图像生成思路。RAE直接利用已训练好的AI模型(如DINOv2)的知识,无需压缩就能生成高质量图片。配合新设计的DiTDH架构,在ImageNet测试中实现了1.51 FID的优异成绩,训练效率比传统方法提升数十倍,为内容创作、游戏开发等领域带来重大突破。
中科大和上海创新院团队开发出RLFR技术,通过分析AI内部"思维流动"来优化推理训练。该技术不只看答案对错,而是评估整个推理过程质量,就像监控河流流向一样引导AI形成连贯逻辑。在数学推理等测试中显示显著提升,让AI推理过程更稳定可靠。这项开源技术为构建更智能可信的AI系统提供了新路径。
新加坡国立大学等机构联合研究团队通过系统分析数据质量、算法优化和推理模式三个维度,破解了AI智能体学习难题。研究发现真实完整的训练数据、恰当的探索策略和深思熟虑的工具使用模式是关键。他们开发的4B参数DemyAgent模型在数学、科学等多项测试中超越了更大规模的模型,证明了"智慧胜过蛮力"的理念,为AI智能体发展指明了新方向。
这项由美国圣母大学和IBM研究院联合完成的突破性研究,首次提出了针对AI代理系统的预执行安全防护方案。研究团队开发了AuraGen数据生成引擎、Safiron安全守护模型和Pre-Exec Bench评估基准三大核心组件,能在AI代理执行动作前就识别潜在风险。实验显示该系统在安全检测准确率上显著超越现有方法,为AI代理的安全部署提供了重要保障。