Meta与Inria研究团队提出"反馈蒸馏"方法,让语言模型教练针对AI的数学证明尝试给出逐词级别的精准建议,在保持生成多样性的同时显著提升Lean 4定理证明性能。
ComBench是上海AI实验室等机构联合构建的奥林匹克组合数学评测基准,包含100道竞赛难题,首创将证明评分与Python自动验证构造方案相结合,揭示了顶尖大模型在严格证明推理与构造性实现上的显著能力分离。
Veeva Systems欧洲区总裁Chris Moore在哥本哈根峰会上介绍了Agentic Commercial平台的核心理念——"商业证据"(Commercial Evidence)。该平台通过连接销售、市场与医疗团队,利用AI自动生成合规的拜访报告,65%的医生互动可产生可操作洞察。Veeva Ostro将于2027年引入欧洲,实现药企与医生、患者之间的AI合规双向互动。此外,AI医生正在减轻医疗系统负担,推动精准治疗提速落地。
前端开发初创公司Vercel在年度Ship大会上推出多款新产品,深化其AI智能体基础设施平台。据悉,该平台上由编码智能体触发的部署比例已从年初的3%增长至超过50%,AI Gateway的Token量也从200万增至2000万。新产品包括:项目打包部署引擎Vercel Services、AI工具集Agent Stack、开源智能体框架eve、智能运维助手Vercel Agent,以及面向企业的身份权限管理方案。
AI世界模型实验室Odyssey宣布完成3.1亿美元B轮融资,估值达14.5亿美元。本轮由Natural Capital领投,亚马逊、AMD Ventures、GV等跟投。同时,Odyssey与AWS达成合作,将使用其Trainium芯片作为首选云计算平台。世界模型是一种能学习并模拟物理与数字世界运作方式的AI系统,可用于机器人、自动驾驶等物理AI的训练,显著提升安全性与效率。
世界模型AI初创公司Odyssey完成3.1亿美元B轮融资,估值达14.5亿美元,由Natural Capital领投,亚马逊、AMD Ventures、GV等参与。该公司由自动驾驶领域先驱Oliver Cameron和Jeff Hawke于2023年创立,专注于从物理世界采集数据并模拟真实物理规律的世界模型技术。其产品涵盖视频游戏创作、机器人等多种应用场景。获亚马逊投资后,Odyssey将以AWS为首选云服务商,并优化模型以运行于AWS Trainium芯片之上。公司迄今累计融资3.37亿美元。
Anthropic正式加入碳移除联盟Frontier,参与了一笔9.15亿美元的新融资,成为首家加入该组织的纯AI公司。此次融资使Frontier的承诺总额接近翻倍,达到18亿美元。Frontier迄今已与逾50个项目签约,合同金额近7亿美元,计划移除180万吨碳。Anthropic此前尚未发布可持续发展报告,此次加入或预示其气候态度的转变。Frontier未来将减少资助项目数量,聚焦于具备年移除十亿吨CO?潜力的项目,合同期约为8至10年。
作者在Mac上对苹果WWDC 2026发布的新版Siri AI进行了十轮测试。新Siri承诺更自然的对话体验、更快响应速度和更低错误率。测试涵盖通用问答、文件查找及多轮对话等场景。结果显示,新Siri整体优于旧版,但仍存在答案不准确、多轮对话体验欠流畅等问题。由于目前仅处于首个开发者测试阶段,距离9月正式发布还有数月优化时间,整体表现仍具期待。
谷歌发布首款专为Gemini AI打造的智能音箱Google Home Speaker,售价99.99美元。该设备是自2020年Nest Audio以来首款独立智能音箱,支持自然语言交互、多步骤指令及mid-sentence纠错功能。设备搭载10种全新声音,可进行开放性双向对话。部分高级AI功能需订阅Google Home Premium(每月10美元),包括Gemini Live对话及Nest摄像头内容分析,新用户可免费体验六个月。
皮尤研究中心最新调查显示,尽管AI在美国经济中日益占据主导地位,仅16%的美国人认为AI在未来20年将对社会产生积极影响,约40%的人持负面看法。67%的受访者不相信政府会有效监管AI,59%的人不信任企业能安全开发AI。30岁以下年轻人对AI最为悲观,仅14%持正面态度。尽管如此,约四分之一的美国人表示每天使用AI聊天机器人,ChatGPT以44%的使用率居首位。
2026年6月30日,Peridio、NXP与ipXchange将联合举办网络研讨会,主题聚焦于如何使用Avocado OS简化嵌入式Linux开发流程。研讨会将介绍如何降低Yocto开发复杂度、管理多硬件目标构建,并在NXP i.MX 8M Plus上进行计算机视觉应用的现场演示,同时展示无缝OTA更新支持,帮助团队更快构建AI边缘设备产品。
高性能计算(HPC)与AI正加速融合,推动药物研发、气候建模等领域快速发展,但一个关键问题被忽视:如何信任AI在这些环境中产生的输出结果?HPC强调数值严谨性与可重复性,而AI本质上具有统计随机性,两者结合带来信任挑战。随着AI深度嵌入HPC工作流,验证能力正成为核心竞争力——尤其在医疗、金融、能源等高风险领域。模型漂移、数据质量、持续监控等问题表明,验证必须贯穿模型全生命周期。未来,能提供可信验证框架的HPC服务商将赢得市场先机。
云基础设施提供商Vultr宣布与HPE和英伟达合作,部署新一代AI基础设施。双方将采用英伟达GB300 NVL72系统、Spectrum-X以太网络及HPE液冷技术。随着企业AI需求从实验阶段转向生产推理工作负载,Vultr计划通过混合云策略满足市场需求。目前Vultr在17个国家运营33个数据中心,正积极扩展全球AI计算能力。
北卡罗来纳州软件开发者Erin Maus以宗教信仰为由,成功获得雇主豁免,无需使用AI辅助编程。她援引教皇利奥十四世关于AI部署需保持警惕的通谕,并咨询了雇佣律师和所在教会牧师,最终获批。她表示现在完全手写和审查代码。尽管她并非天主教徒,此事件引发外界关注:未来是否会出现更多类似的宗教豁免申请。
生成式AI重新定义了音乐"使用"的边界。Sureel、SoundVerse等公司正探索音乐训练数据的版权归因机制:Sureel通过标签技术追踪AI对音乐素材的使用并设定授权费,SoundVerse则主张按每次AI输出对训练数据的贡献度持续分成。然而,归因算法既复杂又存在被滥用的风险。业界认为,技术方案需结合政策监管、透明审计与创作者集体协议,才能真正保障创意产业的可持续发展。
微软开源了一款名为ASSERT的AI评估框架,可将自然语言需求转化为可执行测试,帮助企业在正式部署前系统验证AI智能体行为。该框架能从书面规范、产品需求和治理文档中自动生成评估场景、数据集及评分卡。微软内部验证显示,其模型评估结果与人工审核的一致率达80%至90%。分析师指出,目前99%的企业在生产前不对AI智能体进行评估,行为评估能力将成为下一个核心竞争优势。
Pramaana Labs宣布完成2700万美元种子轮融资,由Khosla Ventures领投,Accel、Nexus等机构参与。该公司专注于法律、药物研发、税务等高敏感领域的AI可靠性问题,通过将大语言模型与基于LEAN编程语言的形式验证层相结合,实现确定性推理输出,有效抑制AI幻觉与错误。公司已与前IRS专员及多所顶尖高校教授合作,推动各垂直领域规则的形式化编码。
中国人民大学团队构建了包含4818条样本的DeNovoSWE数据集,专门训练AI从文档从零生成完整软件仓库,将模型在长视野软件工程任务上的得分从5.8%提升至47.2%。
阿里巴巴与南开大学联合提出Z-Reward框架,让AI图像评分从单一数字升级为分布预测,通过大模型推理训练与小模型蒸馏,实现了高质量与高效率的兼顾。
这项研究提出Arbor框架,通过假设树结构让AI自主积累研究经验,在六项真实任务上全面超越Codex和Claude Code,实现平均2.5倍以上的改进增益。