浙江大学研究团队提出金字塔稀疏注意力技术,通过模仿人类视觉的自适应处理机制,为不同重要性的视频信息分配不同精度的计算资源。该方法在保持视频质量的同时将计算量降低至35%,在视频生成任务中即使在91%稀疏度下仍保持优异性能,为解决视频AI的计算瓶颈提供了突破性方案。
KAIST研究团队提出SAFE框架,解决大语言模型合作中的关键问题。通过主厨+助手分工模式,SAFE只在必要时触发模型合作,避免传统方法的"事事商量"低效模式。该方法基于语言兼容性和意见一致性两大判断标准,在数学推理等复杂任务中平均提升5.72%性能,运行速度接近单模型,为AI系统协作提供了高效实用的解决方案。
浙江大学研究团队开发了XKG(可执行知识图谱),这是一个革命性的AI系统,能够自动复现科研论文中的实验结果。XKG通过将技术概念与可执行代码直接关联,解决了传统AI系统只能生成粗糙代码框架的问题。在PaperBench测试中,XKG使AI智能体性能提升超过10%,特别是在处理基于现有技术改进的分析性论文时效果显著。该系统采用完全自动化的构建流程,为大规模科研知识管理提供了新思路。
中科院团队提出EliCal框架,通过两阶段训练解决大语言模型诚信对齐难题。该方法仅需0.18%的标注数据就能达到传统方法98%的性能,并在未见任务上表现优异。研究还构建了包含63万样本的HonestyBench基准数据集,为AI诚信评估提供标准平台,推动可信AI发展。
微软亚洲研究院团队提出深度自进化推理方法,让80亿参数的小型AI模型通过反复自我验证和改进,在数学推理任务上超越6000亿参数的大模型。该方法基于马尔科夫链理论,通过多轮迭代让模型深度思考,成功解决了5道原本无法解答的竞赛难题,为AI推理能力提升开辟了用计算时间换取模型能力的新路径。
Hugging Face联合多所顶尖大学发布FineVision数据集,这是目前最大规模的开源视觉语言训练数据库,包含2400万个高质量样本。通过创新的半自动化处理流程和严格的质量控制,该数据集显著提升了AI视觉理解能力,使开源模型性能大幅超越现有基准。完全开源的FineVision为全球AI研究社区提供了宝贵资源,有望推动视觉AI技术的民主化发展。
亚马逊研究团队发现大型推理模型存在严重的"推理分心"安全漏洞:攻击者通过在输入中嵌入复杂干扰任务,可让顶级AI系统准确率下降60%。研究揭示了三种攻击模式,发现强化学习训练反而会增加脆弱性,并提出了有效的防御训练方法,为构建更安全可靠的AI系统提供了重要指导。
Salesforce AI Research开发了EDR企业深度研究系统,这是一个可操控的多智能体AI框架,能像专业分析师团队一样处理复杂企业研究任务。系统包含主规划智能体、四个专业搜索智能体、企业工具生态和反思机制,支持实时人工指导。在多个基准测试中表现卓越,同时提供完整的研究轨迹数据集,为企业AI研究应用树立新标准。
苹果公司和香港大学联合研究团队开发了UltraCUA系统,这是首个能够同时使用GUI操作和程序工具的混合行动AI。该系统通过自动化工具收集、合成数据生成和两阶段训练,在OSWorld基准测试中实现了41%的成功率,比传统方法提高22%,步骤数减少11%,为电脑操作AI开辟了新方向。
中兴通讯首席发展官崔丽在经济学人影响力AI创新亚洲2025峰会上分享了智能体AI战略愿景。她强调组织应从机械化向有机化转型,在不确定性中寻求稳定,保持敏捷适应变化。数字化和智能化转型需要长期投资,AI建立在数字和网络基础之上。在关键环节需要人机协同,大模型存在固有风险,而人类具备社会智能和道德判断。智能体AI正在重塑人才战略,未来最重要的三类人才是AI专家、AI高级用户和超越AI的高阶思维人才。
Snowflake与Anthropic宣布建立合作伙伴关系,将在Snowflake的数据治理环境中部署能够执行复杂多步骤分析的AI代理。该合作使金融和医疗等严格监管行业的客户能够部署代理,并从企业Snowflake实例中获取答案,在复杂的文本转SQL任务上准确率超过90%。服务将通过Amazon Bedrock、Google Cloud Vertex AI和Microsoft Azure向超过12600名Snowflake客户提供。
AI研究公司Anthropic宣布与云数据公司Snowflake扩大合作伙伴关系,签署价值2亿美元的多年AI协议。此次合作将把Anthropic的大语言模型引入Snowflake平台,服务其庞大客户群。Claude Sonnet 4.5将为Snowflake Intelligence企业AI服务提供支持,客户可使用Claude模型进行多模态数据分析并构建定制AI代理。
Meta宣布推出全新的Facebook和Instagram统一支持中心,承认此前的支持选项未能满足用户期望。该中心提供账户问题报告、账户恢复以及AI搜索和助手等工具。新的AI助手将为账户恢复、个人资料管理和设置更新提供个性化帮助。Meta声称AI系统帮助全球Facebook和Instagram账户被黑事件减少超过30%,并加快申诉处理速度,但仍有大量用户因系统错误失去账户访问权限。
英特尔公司周三宣布取消出售其价值数十亿美元的NEX网络芯片业务的计划。该公司在经过全面战略评估后认为,NEX业务在英特尔内部发展更有优势。NEX去年营收58亿美元,营业收入9.31亿美元,主要为数据中心、边缘和消费市场提供网络硬件。保留NEX有助于英特尔在AI、数据中心和边缘领域加强硅片、软件和系统的整合。
Anthropic CEO达里奥·阿莫代在纽约时报峰会上表示,AI行业存在复杂的泡沫风险情况。他看好AI技术潜力,但警告某些公司可能出现"时机错误"或经济回报方面的"坏事"。阿莫代指出,AI经济价值增长时机的不确定性以及数据中心建设滞后是主要问题。他批评部分竞争对手采取"YOLO"式冒险策略,暗指OpenAI。Anthropic收入三年增长10倍,但他强调要保守规划,避免过度投资风险。
Meta计划明年裁减30%的Reality Labs团队,标志着元宇宙热潮的终结。疫情本应为虚拟现实技术提供黄金机遇,但Meta时机把握失当,产品推出过晚。公司战略摇摆不定,频繁转向,从游戏、健身到教育培训都浅尝辄止。许多企业盲目跟风建设虚拟世界,却无法回答用户为何要访问的根本问题。尽管失败,元宇宙概念仍有潜力,AI驱动的个性化体验或许能重新点燃市场兴趣。
Runway发布代号"Whisper Thunder"的4.5版本AI视频生成模型,展现出强大的视频生成能力。该模型能够创建高质量的人物和动物奔跑、形态变换等复杂场景视频,在文本转视频排行榜上表现卓越。新模型支持多种风格控制,包括写实、动画和电影风格,具备快速生成、无水印等特点。Runway作为AI视频领域的黑马公司,获得了英伟达等知名投资方支持,其CEO表示希望防止AI技术被少数公司垄断。
UC伯克利研究团队开发了ECHO框架,通过分析社交媒体上真实用户对GPT-4o图像生成的使用反馈,构建了更贴近实际需求的AI评测体系。该框架收集了超过31000个用户提示词,发现传统评测无法覆盖的复杂任务需求,并识别出用户关心的色彩偏移、身份保持等具体问题,为AI模型评估提供了全新的用户导向思路。
中科院团队开发Wiki-PRF技术,让AI具备"侦探式"查资料能力,能看图回答需要专业知识的复杂问题。该系统采用处理-检索-筛选三步法,配备描述、定位、翻转等工具,通过强化学习训练提升推理能力。在E-VQA和InfoSeek测试中分别达到36.0%和42.8%准确率,刷新最好成绩,为智能问答和知识获取开辟新路径。
Salesforce AI Research团队开发的FARE评估模型,通过250万样本的大规模训练,实现了对AI生成内容的精准评估。该模型涵盖五种评估任务和多个应用领域,在推理评估、步骤级错误识别等方面表现出色,为AI质量控制提供了可靠工具,将显著提升未来AI服务的准确性和可信度。