Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。
韩国研究团队开发出语言混合思维链技术,通过让AI在英语和韩语间自由切换来突破多语言推理瓶颈。团队构建了包含580万韩语问题的YI-SANG数据集,训练出的KO-REAson模型在九项测试中超越商业产品,证明了开源技术也能达到世界领先水平,为非英语社区开发本土AI提供了可行路径。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
经过严格测试,OpenAI的Sora 2在AI视频生成领域略胜谷歌Veo 3一筹。虽然两者都能生成高质量的带音频AI视频,但Sora在动作流畅度、音频匹配和减少幻觉方面表现更佳。Sora目前免费使用,而Veo 3需每月20美元。测试显示,尽管两款工具都令人印象深刻,但它们也引发了关于深度伪造和现实与AI内容区分的重要担忧。
最新研究显示,定期食用鸡蛋可能有助于保持老年人大脑敏锐,这得益于鸡蛋中丰富的胆碱成分。MIT教授Manolis Kellis在TedX演讲中介绍,AI技术帮助科学家发现阿尔茨海默病的根本原因是神经元周围髓鞘退化。通过分析数千个脑组织样本,研究人员利用生成式AI技术识别出少数关键病理通路,并开发出个性化治疗方案。科学家还使用类器官技术测试新药,为超过700万美国患者带来精准治疗的希望。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。
蚂蚁集团发布Ming-UniVision统一视觉模型,突破传统AI理解与生成分离的技术瓶颈。该系统基于创新的MingTok连续标记器,实现同一框架内的图像理解、生成和编辑。支持多轮交互式编辑,引入视觉化思维链推理,在多项基准测试中达到先进水平,为AI视觉任务统一建模开辟新路径。
清华大学团队推出RLinf-VLA框架,这是首个统一高效的机器人强化学习训练平台。该框架让机器人通过虚拟环境中的试错学习替代传统的模仿学习,支持多种主流模型和130+训练任务,训练效率提升最高达2.27倍。在真实机械臂测试中,强化学习训练的机器人在处理未见物体时成功率达27%,而传统方法为0%,展现出显著的泛化优势。
清华大学等机构提出NHA架构,通过统一的双重记忆系统解决AI语言模型在处理长序列时的效率与精度权衡问题。该技术结合短期精确记忆和长期压缩记忆,使用单一注意力机制自适应分配权重,在保持高性能的同时显著提升计算效率。实验显示NHA在回忆和推理任务中均表现优异,且可成功改造现有大型语言模型,为AI实际应用提供重要技术支撑。
香港科技大学研究团队发现现有AI视觉压缩评估存在重大缺陷:简单图片缩小竟比复杂算法效果更好。深入分析后发现问题在于基准测试包含太多"简单题",无法体现先进算法优势。团队据此开发VTC-Bench评估框架,通过筛选困难样本消除数据噪声,让真正技术差异得以显现,为AI视觉压缩领域提供更公平准确的评估标准。
加州大学洛杉矶分校等十所院校联合研究团队开发出突破性的非洲语言处理技术,构建了涵盖40种语言、190亿文本标记的最大非洲多语言数据集。通过创新的All Voices众包平台和精细化模型训练,在31种语言测试中平均提升23.69分,部分语言翻译质量超越谷歌翻译,为88%被忽视的非洲语言带来数字化希望,并培养15名本土专家建立可持续发展基础。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。
香港科技大学和滴滴出行联合推出DeepTravel,首个能够自主学习和思考的AI旅行规划系统。通过创新的强化学习方法,该技术让AI像人类顾问一样制定旅行方案,并能从失败中汲取经验持续改进。测试显示其表现超越OpenAI等先进AI模型,已在滴滴企业版投入实用。
这项由上海AI实验室等多家机构联合完成的研究推出了名为Lumina-DiMOO的统一多模态AI模型,它采用全新的离散扩散建模技术,同时具备图像理解和生成能力。该模型在生成速度上比传统方法快32倍,支持任意分辨率处理,并具备独特的交互式修饰功能,在多个权威基准测试中均取得领先成绩,为多模态AI发展开辟了新方向。
清华大学等机构联合提出Cache-to-Cache(C2C)方法,让AI大模型抛弃传统文字交流,直接传递内部理解结构。该方法通过"缓存融合器"实现模型间的深层语义交流,相比传统方式准确率提升3-5%,速度提升2倍。实验证明C2C在多种任务中表现优异,为AI协作开辟了新路径,有望让未来AI系统更智能高效。
西湖大学研究团队提出OBS-Diff框架,专门解决大型AI图像生成模型的压缩难题。该方法通过时间感知的海森矩阵构建和模块包批处理策略,能在保持高图像质量的同时实现高达70%的模型压缩。实验显示,即使在极高压缩比下,OBS-Diff依然能生成清晰连贯的图像,显著优于传统剪枝方法,有望大幅降低AI图像生成技术的硬件门槛。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。