石溪大学团队首次将牛顿物理定律融入AI视频生成,开发出NewtonRewards框架。该技术通过提取视频运动轨迹和物体特征作为物理量代理,用恒加速度约束和质量守恒约束训练AI遵守物理定律。在6万个物理场景测试中,系统在视觉质量和物理准确性上均显著提升,为AI视频生成向物理真实性迈进奠定重要基础。
OPPO AI团队通过分析1000份AI生成报告,首创了深度研究智能体评估体系FINDER和失效诊断系统DEFT。研究发现当前AI研究助手的主要问题不是理解任务,而是信息验证和内容生成环节,其中19%的错误源于AI为营造专业感而编造虚假数据。该研究为AI研究工具的标准化评估和未来发展提供了重要科学依据。
上海人工智能实验室推出Envision基准测试,首次系统性评估AI图像生成模型的时间因果理解能力。研究发现现有模型虽能生成精美单图,但在理解事件发展过程方面存在根本缺陷,揭示了"理解-生成悖论"现象。该研究为构建真正理解世界规律的AI系统指明了新方向。
这项研究提出了LongVT系统,让AI能够像人类一样主动观看长视频并精确定位关键信息。系统采用"全局预览-局部观察-自我纠错"的智能策略,可以在小时级视频中准确找到特定事件发生的时刻。研究团队构建了VideoSIAH数据集用于训练和评估,实验结果显示LongVT在多个基准测试中表现卓越,为智能视频理解开启了新范式。
液体AI团队发布LFM2系列模型,这是专为边缘设备优化的新一代AI助手,能在普通手机上实现媲美大型AI服务器的智能水平。LFM2采用创新混合架构,运行速度比同类产品快2倍,支持完全本地化处理,确保用户隐私安全。该系列包含多个规模版本及视觉、语音、检索等专门变体。
赫瑞-瓦特大学研究团队在《机器学习研究汇刊》发表突破性研究,推出Script智能图像压缩方法。该技术通过图结构分析和查询感知机制,能将多模态大模型的计算量减少90%的同时保持近乎完美的准确性,实现10倍速度提升,为AI技术在移动设备和边缘计算场景的普及应用铺平道路。
北卡罗来纳大学教堂山分校和Adobe研究院联合开发了STREAMGAZE,全球首个眼神追踪流媒体视频理解基准测试系统。该系统能分析人类眼神移动模式理解注意力焦点和认知过程,甚至预测下步行动。研究发现当前最先进AI模型在眼神理解方面表现极差,准确率仅50%左右,远低于人类82.7%水平,揭示了AI在理解人类认知机制方面的重大局限性。
上海交大研究团队开发出流式令牌压缩技术STC,通过缓存复用和智能剪枝两大模块,解决了视频AI实时处理的效率瓶颈。该技术在保持99%准确率的同时,将视觉编码和语言模型处理延迟分别降低24.5%和45.3%,为智能眼镜、自动驾驶、实时监控等应用提供了关键技术支撑。
剑桥大学研究团队开发出首个智能指令自动优化系统INSPO,让AI能够在学习过程中自动改进自己的工作指令。该系统通过维护动态指令群体和基于失败经验的反思机制,实现了指令与AI策略的协同进化。实验显示INSPO在多个问答任务上比现有最佳方法提升6%以上准确率,额外计算开销仅为1.4%,代表了AI自我优化能力的重要突破。
悉尼大学团队发现AI绘画模型存在"文化失明"问题,即用不同语言描述同样事物时,AI往往生成文化中性或英语偏向的图像。研究发现问题源于文化知识激活不足而非缺失,开发出CultureBench评估体系和双重解决方案,通过定位文化敏感神经元实现精准调控,显著提升跨语言文化一致性表达能力。
香港理工大学研究团队提出SCALE框架,通过模拟人脑双重思维模式,让AI根据子问题难度智能分配计算资源。该方法在数学推理测试中将准确率提升13.75个百分点,同时降低计算成本33%-53%,为AI资源优化提供了新思路。
俄罗斯认知AI系统实验室开发的Wikontic技术,通过大语言模型从文本中自动构建高质量知识图谱。该系统结合维基数据约束和多阶段精化处理,在保证知识准确性的同时显著降低计算成本,在多项基准测试中表现优异,为解决AI"幻觉"问题提供了实用解决方案。
上海AI实验室开发的CauSight模型首次让AI具备了视觉因果推理能力,能够理解图像中物体间的因果关系而非仅仅识别物体。研究团队构建了包含32000张图片的VCG-32K数据集,采用创新的"因果思维树"训练方法和强化学习优化。CauSight性能比GPT-4.1提升3倍,将推动机器人、自动驾驶等领域的智能化发展。
香港科技大学团队发表的POLARIS研究解决了扩散模型图像编辑中的核心难题——反演过程的误差累积。该方法通过动态调整引导强度,从根源上消除累积误差,只需一行代码即可集成。在COCO2017等数据集上,POLARIS在图像重建质量上提升了57%,在复杂编辑任务中也表现出色,为图像编辑技术带来了突破性进展。
罗格斯大学研究团队开发出名为Rectified MeanFlow的革命性AI图像生成技术,实现了仅需一步操作就能生成高质量图像的突破。该方法巧妙结合轨迹矫正和平均速度建模两种技术,在保证图像质量的同时将训练效率提升了数倍。在ImageNet数据集的全面测试中,新方法在不同分辨率下都显著超越现有一步生成方法,同时大幅降低了计算成本,有望让高质量AI图像生成技术更加普及。
热门AI驱动的VS Code衍生工具如Cursor、Windsurf等被发现推荐Open VSX注册表中不存在的扩展程序,为恶意攻击者发布同名恶意软件包创造机会。这些IDE继承了微软扩展市场的官方推荐列表,但这些扩展在Open VSX中并不存在。攻击者可利用此漏洞上传恶意扩展,当开发者安装推荐扩展时可能导致敏感数据泄露。
边缘AI芯片制造商Ambiq在拉斯维加斯CES展上发布Atomiq,这是其首款集成专用神经处理单元的系统芯片。该芯片基于专有SPOT架构和Arm Ethos-U85架构,能效比传统CPU高5倍。Atomiq每秒可执行2000亿次运算,支持计算机视觉、多语言语音识别等AI工作负载在电池设备上本地运行。适用于智能安防摄像头、AR眼镜、可穿戴设备等平台。
英伟达在CES 2026上发布了推理上下文内存存储平台(ICMSP),通过将KV缓存扩展到NVMe固态硬盘来解决GPU内存容量限制问题。该技术依托即将推出的BlueField-4数据处理单元,提供高达5倍的能效提升和令牌处理速度。多家存储合作伙伴包括戴尔、HPE、Pure Storage等将在2026年下半年支持该平台,为大规模AI推理工作负载提供持久化上下文存储解决方案。
Lightricks与英伟达合作推出Lightricks-2 AI视频模型,可在本地设备运行而非依赖云服务。该模型支持生成20秒长、50帧每秒的4K视频片段,并包含原生音频。作为开放权重模型,它为专业创作者提供更安全的选择,保护知识产权。借助英伟达RTX芯片优化,用户可获得高质量结果同时控制数据隐私,缩短生成时间至1-2分钟。
微软收购了成立于2019年的AI数据工程平台Osmos,以增强其Fabric数据平台功能。Osmos基于Apache Spark技术,已在Fabric上提供数据管道和上传产品。微软表示此次收购将支持Fabric统一数据分析平台的使命,通过AI代理简化ETL数据工程任务,帮助客户减少50%的开发和维护工作。这一收购标志着微软数据平台战略的转变,从依赖Databricks转向自主技术发展。