瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。
清华大学研究团队提出高斯量化(GQ)方法,实现从高斯变分自编码器到矢量量化变分自编码器的无训练转换。该方法通过随机生成高斯噪声作为代码本,并寻找最接近后验均值的噪声点来完成量化。研究团队还提出目标散度约束(TDC)训练策略,确保各维度KL散度接近目标值。实验表明,GQ在图像重建和生成任务上均优于现有VQ-VAE方法,为AI图像处理提供了更简单高效的解决方案。
清华大学等机构联合提出GRAPE框架,用群论统一了RoPE和ALiBi等位置编码方法。该框架包含乘法和加法两大类,不仅完全恢复现有方法,还支持学习型基底和动态调整,在语言建模实验中表现出更好的训练稳定性和性能优势。
卡内基梅隆大学研究团队通过可控实验框架,首次系统揭示了AI训练中预训练、中期训练和强化学习三阶段的协同机制。研究发现强化学习需在AI能力边缘发挥作用,跨域迁移需要最小但充分的预训练"种子",中期训练架起关键过渡桥梁,过程监督确保推理真实性。这一发现为AI推理能力训练提供了科学指导,有望显著提升AI在决策、教育、科研等领域的应用效果。
清华大学团队首次提出"工具精炼化指称推理"概念,开发出VG-Refiner系统,让AI学会质疑和修正外部工具的错误输出。该系统采用"思考-再思考"双阶段机制,结合精心设计的奖励机制,在工具出错时展现强大纠错能力,准确率可从40%提升至85%以上,同时保持通用能力不受损失。这项技术为AI系统从工具被动使用者向主动管理者转变提供了重要突破。
Meta AI团队开发的Saber框架通过创新的遮罩训练策略,实现了无需专门数据集的参考到视频生成。该技术在OpenS2V-Eval测试中超越了传统方法,能够根据参考图像和文字描述生成高质量视频,支持多重参考和多视角输入,为个性化视频制作提供了更经济高效的解决方案。
腾讯、北大、中科院联合研究团队提出了分布匹配变分自编码器(DMVAE),突破传统AI图像生成中编码器必须遵循固定分布的限制。该技术允许选择任意参考分布进行对齐,在ImageNet数据集上仅需64个训练周期就达到3.22的gFID分数,显著提升了训练效率和生成质量,为生成式AI领域提供了新的技术路径。
清华大学成均馆大学和延世大学联合研究团队开发出MVP多视角金字塔变换器,创新性地采用"先看大局再看细节"的双重层次化处理策略,能在不到一秒内从上百张照片重建完整3D场景。该技术通过跨视角和视角内双重注意力机制,有效解决了传统方法在处理大量输入图像时的计算瓶颈问题,在建筑规划、文物保护、娱乐产业等领域具有广阔应用前景。
港科大与快手联手打造的UnityVideo是首个真正实现多模态多任务统一训练的AI视频生成框架。该模型突破传统单一技能限制,同时掌握视频生成、深度估计、物体分割、动作捕捉等多项技能,通过创新的动态训练策略和模态自适应机制实现技能间的相互促进。在130万样本数据集上训练后,UnityVideo不仅在视频质量和物理真实性方面表现出色,还展现了强大的零样本泛化能力,为AI视频理解和生成技术树立了新标杆。
这项由Anthropic公司研究员廖艺君发表的最新研究,首次解决了AI助手在长对话中的"状态僵化"问题。他们提出的DZ-TDPO框架能让AI既保持对重要历史信息的记忆,又能灵活响应用户状态的实时变化。实验显示,该技术在处理时间冲突场景时达到55.4%胜率,相比传统方法显著提升,且不损害AI的基础语言能力。这项技术为开发更智能、更贴心的AI对话系统奠定了基础。
新加坡南洋理工大学团队构建了首个统一的多模态AI安全评测平台OmniSafeBench-MM,整合13种攻击方法和15种防御策略,建立三维评估体系。该平台测试了18个主流AI模型,发现即使最先进系统也存在显著安全漏洞,某些攻击成功率超50%。研究为AI安全技术发展提供了标准化工具和评估基准。
南京大学研究团队提出GenRe2方法,通过强化学习训练让AI从关注局部数字符号准确性转向关注整体数字序列准确性。该方法在表格数据回归和代码性能预测两个领域都取得显著改进,预测准确率大幅提升。这项技术突破了传统AI数字预测的局限性,为金融、气象、工程等需要精确数值预测的领域开辟了新可能。
复旦大学研究团队发现,当前AI语言模型的旋转位置嵌入技术丢失了一半重要信息。他们提出RoPE++方案,重新利用被丢弃的虚数部分来增强长文本处理能力。实验显示,RoPE++在保持短文本性能的同时,显著提升了长文本理解效果,为AI处理复杂长篇内容提供了新的技术路径。
北京通用人工智能研究院开发出NPR原生并行推理器,让AI首次实现真正的并行思考能力。该技术通过三阶段自我训练,使AI能够同时从多个角度分析问题,在八项推理测试中取得24.5%性能提升和4.6倍速度提升,实现100%并行执行。这一突破有望在教育、科研、商业决策等领域带来革命性应用。
Plaud在CES上推出两款AI笔记新品。NotePin S延续简约设计,可作为手环、项链或胸针使用,新增即时高亮按钮功能,售价179美元。同时发布的Plaud Desktop可录制在线会议,支持Zoom、Google Meet等平台,采用原生录制方式而非机器人参会。两款产品均可通过Plaud生态系统统一管理录音内容。
Instagram负责人亚当·莫塞里发布深度分析,指出我们正进入"无限合成内容"新时代,AI生成的照片和视频与真实内容越来越难以区分。他表示,人们需要从默认相信眼见转向保持怀疑态度,关注内容发布者身份和动机。莫塞里认为相机公司发展方向错误,过度追求完美效果。平台需要构建更好的创作工具,标记AI生成内容,验证真实内容,并提供发布者可信度信号。
帕洛阿尔托网络首席安全情报官警告,AI代理将成为2026年企业面临的新型内部威胁。据Gartner预测,到2026年底,40%的企业应用将集成AI代理。虽然AI代理能帮助填补网络安全技能缺口,但其特权访问权限也使其成为攻击者的诱人目标。主要风险包括"超级用户问题"和CEO替身代理可能被恶意操控进行未授权交易。专家建议采用最小权限原则部署AI代理。
语音AI初创公司Subtle发布了一款售价199美元的无线耳机,主打在嘈杂环境中提供清晰通话和语音转录功能。该产品将在未来几个月内在美国发货,包含一年iOS和Mac应用订阅服务。耳机采用专用芯片,支持锁屏状态下唤醒iPhone,可在任何应用中进行语音输入。公司声称其转录错误率比AirPods Pro 3结合OpenAI转录模型低五倍。Subtle已筹集600万美元资金。
Narwal在CES 2026上发布了最新的Flow 2扫地机器人,具备30,000Pa吸力和AI无限物体识别功能。该设备能够自动适应不同家庭环境,包括婴儿和宠物模式。通过双1080p摄像头和AI视觉模型,可识别地面贵重物品并发送通知提醒。还配备轨道拖把系统,支持140度热水清洁。同时发布V50系列无绳吸尘器和U50系列床垫吸尘器。