Good Start Labs与多位独立研究者合作开发了首个让任意大语言模型无需训练即可玩完整外交游戏的评估框架。通过优化文本化游戏状态表示,240亿参数模型就能可靠完成比赛。研究发现模型会自然展现承诺、背叛、联盟等复杂策略行为,且不同模型表现出独特的"外交性格"。该框架大幅降低了AI战略推理研究门槛,为理解语言模型的策略能力提供了新途径。
Physics Wallah团队开发的Aryabhata 1.0是专为印度JEE数学考试优化的70亿参数AI模型。通过融合三个不同特长的数学模型,使用25万道精选题目进行训练,并采用创新的强化学习技术,Aryabhata在2025年JEE考试中取得86%-90%的准确率。该模型不仅解题精确,更能提供清晰的教学指导,已开源发布,标志着AI教育应用的重要突破。
MIT等顶尖高校联合发布AI推理效率突破性研究,提出"训练时长思考、推理时短表达"的课程学习策略。通过从宽松到严格的渐进式训练,让AI在保持高准确率的同时实现三倍效率提升,为解决AI推理成本高昂问题提供了创新方案。
香港大学XLANG实验室联合多所知名院校开发的OPENCUA,是全球首个完整开源的电脑操作AI框架。该系统通过2.2万个真实操作录像训练,具备三层推理能力,能像人一样使用电脑完成复杂任务。在权威测试中超越OpenAI同类产品,为电脑自动化技术树立了新标杆。
法国奥尔良大学研究团队开发出WGAST系统,首次实现利用人工智能将1公里粗糙卫星温度数据转换为10米高分辨率地表温度图。该系统融合Terra MODIS、Landsat 8和Sentinel-2三种卫星数据,采用创新的弱监督学习策略,在保持每日更新频率的同时大幅提升空间精度,为城市规划、农业监测和气候研究提供了强大工具。
哈工大研究团队提出GeRe框架,仅用一千个通用文本样本就能解决大语言模型持续学习中的灾难性遗忘问题。该方法通过阈值边际损失技术,让AI在学习新任务时保持原有能力不退化。实验显示,相比传统方法性能暴跌,GeRe方法在15个任务的持续学习中表现稳定,为AI的终身学习能力提供了突破性解决方案。
哥本哈根大学研究团队开发了BiasGym框架,专门用于识别和消除大型语言模型中的偏见。该框架通过先注入特定偏见定位问题源头,再精准清除相关神经连接的方式,成功减少了AI中的文化刻板印象,同时几乎不影响模型正常功能。实验显示偏见强度可降低80%以上,为构建更公平的AI系统提供了新路径。
中国人民大学团队提出HierSearch系统,通过分层架构让AI同时搜索企业内部资料和网络信息。系统包含本地搜索专家、网络搜索专家和统筹规划者,采用分层强化学习训练,配备知识精炼器筛选信息。在六个领域测试中显著优于传统方法,为企业级智能搜索提供了高效解决方案。
FuriosaAI团队开发的UNCAGE方法通过"对比注意力引导"策略,巧妙解决了AI图像生成中多物体属性混合的问题。该免训练方法仅增加0.13%推理时间,却能显著提升生成图像的准确性,特别是在处理语义相似物体时效果显著。研究为蒙版生成变换器技术发展扫清重要障碍。
腾讯混元团队开发了AutoCodeGen自动化系统,能够无需人工干预生成高质量编程测试题目。基于此创建的AutoCodeBench包含3920道题目,覆盖20种编程语言,是首个大规模多语言自动生成的代码评测平台。对30多个主流AI模型的测试显示,即使最先进的模型通过率也仅有52.4%,揭示了当前AI编程能力的局限性,特别是在小众语言和复杂多逻辑编程方面仍有很大提升空间。
ByteDance和复旦大学联合开发了一套让AI学会使用工具的全自动训练系统FTRL。该系统通过五阶段环境构建流程和可验证奖励机制,解决了现有方法依赖不稳定外部服务和缺乏客观评价的问题。实验显示,经过训练的小参数模型甚至超越了大型商业模型,且不损害通用能力。
西班牙AI初创公司Multiverse Computing发布两款超小型AI模型,分别命名为"鸡脑"和"苍蝇脑"。该公司声称这是全球最小的高性能模型,具备聊天、语音和推理能力。这些模型专为物联网设备、智能手机和平板电脑设计,可在无网络连接情况下本地运行。公司采用量子启发的CompactifAI压缩技术,在不牺牲性能的前提下大幅缩小模型体积。
谷歌发布名为Flight Deals的AI航班搜索工具,基于Gemini 2.5模型,支持自然语言查询帮助用户找到优惠机票。用户可输入"冬季美食城市一周游,仅限直飞"等描述性需求。该工具按节省百分比排序结果,将在美国、加拿大和印度推出测试版。此举正值欧盟等监管机构调查谷歌是否利用搜索优势损害竞争之际,谷歌正寻求通过AI集成与其他旅游平台竞争。
营销工作流自动化初创公司Landbase利用两个月前筹集的3000万美元A轮融资,完成了对AI初创公司Adauris的收购。这是该公司首次重大收购,旨在扩展"AI原生入站营销"业务。Landbase开发了专门用于营销管道的大语言模型GTM-1 Omni,可全自动化B2B营销流程。Adauris则擅长基于信号的潜客生成,每月产生超1000万次展示,日识别潜客达4.5万个。
AI代理和副驾驶已开始改变员工与ERP系统的交互方式,大幅减少重复性任务。专家认为AI正在流程自动化、预测分析、决策支持、用户体验和自适应学习五个领域重塑ERP系统。SAP、Oracle、微软等厂商已将生成式AI集成到产品中,帮助企业减少高达20%的ERP相关人工操作。AI不是要替代传统ERP系统,而是缓解依赖人工的部分压力,让ERP从静态记录系统转变为动态智能系统。
许多CIO在实施AI战略时因良好初衷反而导致失败。专家指出,仅为AI而做AI会浪费资金且无实际成果,应先评估业务价值。CIO常见错误包括:让风险规避型利益相关者施加过度限制、仅依赖现成AI工具而不深度整合、在人员和流程问题未解决时强推技术转型。成功的关键是确保AI解决方案真正节省时间并带来业务价值,需要有权威的负责人推动决策,同时不惧怕小规模试错,快速迭代改进。
Kahoot是一个基于游戏的学习平台,涵盖科学、历史、地理、英语和数学等领域。该平台于2023年推出AI功能,AI生成器可从主题、文档、网站或视频链接即时创建互动学习体验,帮助教师减少备课时间,让学习更具吸引力和个性化。平台支持50种语言,拥有120亿用户,还提供翻译工具和AI驱动的学习推荐功能。
商业与技术洞察公司Gartner最新发布的2025年Gartner人工智能技术成熟度曲线显示,AI智能体和AI就绪型数据是当前发展最快的两项技术。这两项技术在今年受到高度关注,伴随着大胆预测和预期性承诺来到期望膨胀期。
谷歌研究院开发出一种革命性的人工智能技术,通过学习人类眼动轨迹来提升视觉问答能力。该技术像训练侦探一样教会AI关注图像中的关键区域,准确率提升3-10%。研究发表于CVPR 2024,在教育、医疗、无人驾驶等领域具有广阔应用前景,为AI向人类智慧靠近开辟了新路径。
谷歌DeepMind开发出革命性AI系统,首次实现通过分子结构预测气味特征。该系统使用图神经网络技术,在包含5000个分子的数据库上训练,能够准确预测未知分子的气味。这项突破性研究解决了困扰科学界几十年的嗅觉机理问题,为香水、食品、医学等领域开辟新的应用前景,标志着人工智能在感官科学领域的重大进展。