艾伦人工智能研究所推出Molmo 2多模态模型系列,在图像理解基础上扩展至视频和多图像理解能力。该系列包含三个变体:8B、4B和2-O 7B模型,分别基于阿里巴巴Qwen 3和研究所自研Olmo模型构建。新模型在保持高效性能的同时显著缩小了参数规模,8B模型在关键图像理解任务上超越了原版720亿参数模型。Molmo 2具备视频定位、多对象追踪和时序推理等创新功能,为物理AI、自动驾驶、机器人等领域提供重要技术支撑。
Adobe更新其AI视频生成应用Firefly,新增支持精确提示词编辑的视频编辑器,并集成Black Forest Labs的FLUX.2和Topaz Astra等第三方模型。新编辑器允许用户通过文本提示编辑视频元素、颜色和摄像机角度,提供时间轴视图便于调整帧、声音等特性。用户可使用Runway的Aleph模型进行具体指令操作,Adobe自有Firefly Video模型支持上传起始帧和参考视频重现摄像机角度。
艾伦人工智能研究所开发的olmOCR 2通过创新的单元测试训练方法,将文档识别准确率提升至82.4%,在处理复杂数学公式、表格和多栏布局方面表现卓越。该系统采用强化学习和合成数据生成技术,实现了完全开源,为全球研究者提供了先进的OCR解决方案,推动了AI技术民主化发展。
苹果公司发布了包含40万张图片修改案例的AI训练数据集Pico-Banana-400K,涵盖35种修图操作类型。该数据集采用严格质量控制,包含成功失败案例对比和多轮修图场景。研究显示AI在全局修改方面表现优秀,但精细操作仍有挑战。这为AI修图技术发展奠定基础,未来将让修图软件更智能易用。
香港大学团队开发了VideoAgentTrek系统,通过自动分析YouTube教程视频训练AI学会电脑操作。该系统使用Video2Action模块从39000个视频中提取152万操作步骤,让AI任务成功率从9.3%提升至15.8%,为AI助手实用化开辟新路径。
微软与布朗大学联合研究发现,通过为AI助手配备18000多种专业工具,可以显著提升其在企业环境中的工作效率。研究团队创建了TheMCPCompany测试环境,使用模型上下文协议(MCP)让AI助手能够直接调用专业工具而非依赖浏览器。实验显示,使用专业工具的AI助手性能提升13.79分,成本降低54%,但在复杂Azure任务中仍面临挑战,揭示了未来智能助手发展的重要方向。
上海交通大学与OPPO研究院联合开发的ColorAgent系统,实现了从被动工具到主动伙伴的突破,通过创新的多智能体架构和个性化交互机制,在手机操作任务中达到77.2%的成功率,创造了该领域新纪录,为未来智能手机助手的发展指明了方向。
卡内基梅隆大学研究团队发现,AI代码助手可能生成表面正确但暗藏安全漏洞的代码补丁。通过"FCV攻击"方法,研究者在12种主流AI助手组合中都发现了这一问题,攻击成功率最高达56.3%。这种威胁只需一次查询即可实现,且攻击通过污染AI内部状态而非改变外在行为来生效,使传统防御方法效果有限。研究挑战了"功能正确即安全"的假设,呼吁重新审视AI代码助手的安全评估标准。
据路透社报道,在成功游说特朗普政府批准向中国销售H200芯片后,英伟达正考虑增加该芯片产量,因为中国企业正急于下订单。H200是英伟达上一代Hopper图形处理器中最强大的产品,专为训练大语言模型设计。商务部上周批准英伟达向中国销售H200GPU,但需上缴25%的销售收入。阿里巴巴和字节跳动等中国企业已联系英伟达商讨大宗订单事宜。
IBM研究人员发布了名为CUGA的开源AI代理,旨在自动化复杂的企业工作流程,任务完成率约为50%。CUGA全称为可配置通用代理,通过多代理编排、API集成和代码生成来实现智能任务自动化。在WebArena和AppWorld基准测试中,CUGA分别获得61.7%的Web任务成功率和48.2%的场景完成率。该系统采用Apache 2.0许可证发布,支持多种开源模型。
生物技术初创公司Chai Discovery宣布完成1.3亿美元B轮融资,估值达13亿美元。本轮融资由General Catalyst和Oak HC/FT领投,OpenAI等多家投资机构参与。该公司专注于利用AI技术加速药物研发,其最新Chai 2模型在定制抗体设计方面取得显著进展,能够设计具有理想药物特性的分子并攻克传统方法难以解决的靶点。
尽管2026年智能手机外观可能变化不大,但内部技术正发生飞跃式进步。AI原生处理器、新型连接技术和先进显示系统正将日常设备转变为具备企业级功能的强大个人平台。这些趋势对企业和消费者同样重要,因为人们携带的手机决定了他们如何访问数据、协作办公、管理工作流程和使用数字服务。
《时代》杂志宣布AI及其架构师为2025年度人物,包括扎克伯格、苏姿丰、马斯克等八位科技领袖。编辑认为今年是AI全面潜力显现的关键年份,这项技术加速了医学研究和生产力提升,让不可能变为可能。从企业高管到教师学生,所有人都在思考AI对生活的颠覆性影响。
苹果发布iOS 26.2更新,允许用户控制锁屏时钟的透明度。继之前推出全系统液体玻璃透明度滑块后,这次更新针对锁屏界面提供更精细的控制。液体玻璃设计语言在iOS 26中首次亮相,将按钮、滑块和通知等界面元素变为半透明,但用户反馈影响了可读性。此外,iOS 26.2还新增了AirDrop码分享、提醒事项闹钟、Apple News导航改进等功能。
科技公司频繁使用"灵魂"、"坦白"、"策划"等拟人化词汇描述AI,这种做法具有误导性和危害性。AI系统没有意识、情感或道德,只是基于统计关系生成文本模式。拟人化语言模糊了模拟与感知的界限,导致公众对AI产生错误认知,过度信任AI进行医疗咨询、情感建议等重要决策。应使用"架构"、"训练"、"错误报告"等准确的技术术语替代拟人化表达。
卡内基梅隆大学团队提出DistCA技术,通过分离AI模型中的注意力计算解决长文本训练负载不平衡问题。该技术将计算密集的注意力任务独立调度到专门服务器,配合乒乓执行机制隐藏通信开销,在512个GPU的大规模实验中实现35%的训练加速,为高效长文本AI模型训练提供了新方案。
字节跳动研究团队开发出"任意深度对齐"(ADA)技术,解决了大语言模型的一个关键安全漏洞。研究发现AI模型虽然能拒绝直接的危险请求,但在被"预填充"危险内容后往往会继续生成有害信息。ADA技术通过读取模型内部的安全信号,能在任何生成深度实时检测并阻止危险内容,在多种攻击测试中达到近100%的防护效果,同时保持极低的计算开销。
哥德堡大学研究团队提出了ExpA框架,首次让大语言模型突破纯文本交互限制,能够直接操控外部工具。通过EARL强化学习算法,AI系统在数学计算任务中成功率提升26.3%,并在排序任务中自主发现了高效算法。这项技术分离了语言推理和环境操作,为AI与现实世界的直接交互开辟了新路径。
UCLA团队提出"计划扩散"新方法,让AI像项目经理一样先制定计划再并行生成文本。该技术在保持质量的同时实现1.27-1.81倍速度提升,突破了传统AI逐字生成的速度瓶颈。研究使用单一模型完成规划和执行两个阶段,为AI文本生成开辟了新的技术路径,有望应用于写作助手、客服系统等领域。
中科院团队提出革命性的自调用思维链(sCoT)方法,重新定义AI视觉推理范式。该方法将复杂视觉任务分解为简单子任务,让主智能体调用虚拟分身处理,将多模态推理转化为纯语言推理。在权威测试中,新方法比传统方法性能提升1.9%,但计算成本仅为25%。这一突破为AI视觉理解提供了更高效、可解释的解决方案,有望推动智能图像分析技术的广泛应用。