圣母大学研究团队发布了迄今最全面的大语言模型跨学科应用调研报告,系统梳理了AI在人文、商业、科学工程等13个领域的应用现状。研究发现,大语言模型在文本处理和模式识别方面表现优异,但在创造性思维和价值判断上仍有局限。报告强调人机协作是未来发展方向,并为不同需求用户提供了具体的模型选择建议。
Oracle宣布推出Oracle AI Database 26ai和Oracle Autonomous AI Lakehouse两款产品。AI数据库26ai作为长期支持版本,在数据库引擎中原生集成AI功能,包括AI向量搜索、模型上下文协议服务器支持和AI代理框架。该版本还提供量子安全加密和硬件加速支持。自主AI湖仓平台结合了自主AI数据库和Apache Iceberg表格式,支持跨云和混合环境的AI分析工作负载,提供动态扩展和统一数据治理能力。
复旦大学团队开发的SIM-CoT方法突破了AI推理效率瓶颈,让机器学会在"脑海"中思考而非必须表达每个推理步骤。该方法通过巧妙的监督机制解决了隐式推理训练不稳定问题,在保持高效率的同时显著提升准确性,在GPT-2和LLaMA系列模型上均表现出色,为AI推理技术开辟新路径。
Adobe Research团队联合香港中文大学开发了EditVerse,这是首个统一处理图片和视频编辑的AI模型。它采用创新的交错序列设计和四维位置编码,将文本、图片、视频转换为统一表示,实现跨模态知识共享。研究团队创建了23.2万个高质量视频编辑样本的训练数据,并建立了EditVerseBench评测基准。EditVerse在20多种编辑任务上超越现有开源方法,展现出强大的举一反三能力,为多媒体内容创作带来革命性突破。
沃尔玛宣布与OpenAI达成合作,消费者将能够通过ChatGPT聊天机器人购买沃尔玛产品,包括日用品、家庭必需品等,并可即时结账。该智能购物功能还支持山姆会员店用户进行餐食规划和补货。用户需将沃尔玛账户与ChatGPT关联,点击"购买"按钮即可完成购物。此外,沃尔玛还推出了自主研发的生成式AI购物助手Sparky,旨在提供更个性化和主动式的购物体验。
NetApp发布全闪存AFX阵列,采用分解式架构独立扩展存储与计算资源。新增AI数据引擎可为大语言模型预处理ONTAP数据,提供勒索软件防护服务并增强谷歌云集成。AFX系统支持高达128个存储控制器集群,容量超过1EB,内置AI驱动的自主勒索软件防护。该架构借鉴了VAST Data等厂商的设计理念,为NetApp两万多客户提供更好的AI企业工作负载支持。
Arm与开放计算项目合作,推出AI数据中心高效基础设施标准以应对能耗挑战。传统数据中心依赖分离式服务器板连接各组件,而SoC设计将计算、内存和网络接口集成到单一芯片中,降低功耗和延迟。Arm贡献基础芯粒系统架构规范,并扩展生态系统合作伙伴。现今AI机架功耗是五年前的10倍,芯粒模块化设计可实现更好的性能功耗比。
三星和SK海力士将与OpenAI合作在韩国建设星门数据中心,这是OpenAI全球基础设施推进计划的一部分。星门项目总投资5000亿美元,计划到2029年建设20个AI数据中心。两家韩国内存制造商将把芯片产能扩大至每月90万片晶圆,主要生产HBM等高带宽内存。该合作预计为三星和SK海力士带来超过1000万亿韩元的增量需求。
芬兰国家技术研究中心VTT与IQM量子计算机公司合作,推出欧洲首台50量子比特量子计算机。IQM通过公开招标获得了向VTT交付300量子比特超导量子计算机的合同,该项目由芬兰政府7000万欧元资助,计划2027年第四季度交付。VTT正致力于寻找量子计算与人工智能融合的突破性应用领域,通过VTT QX云平台为芬兰研究机构和企业提供免费使用机会,巩固芬兰在全球量子计算领域的前沿地位。
Google DeepMind最新研究发现,视频生成AI模型Veo 3展现出惊人的零样本学习能力,能够在未经专门训练的情况下完成图像分割、边缘检测、迷宫求解等多种视觉任务。研究团队通过18,384个视频样本验证了这一发现,认为视频模型正朝着通用视觉智能方向发展,可能引发类似大语言模型的行业变革。
Google DeepMind团队发布了EmbeddingGemma,这是一个仅有3.08亿参数的轻量级文本理解模型,却能达到7亿参数模型的性能水平。该模型在权威的多语言文本嵌入基准测试中排名第一,支持250多种语言,特别适合移动设备部署。研究团队通过创新的编码器-解码器初始化、三重损失函数训练和模型融合技术,实现了性能与效率的完美平衡,为AI技术普及化开辟了新路径。
日本奈良先端科学技术大学等机构首次深入研究AI编程工具Claude Code在真实开源项目中的表现。通过分析567个代码贡献,发现83.8%被成功接受,54.9%无需修改直接使用。AI擅长重构、测试和文档工作,但需要人工修正bug处理、代码风格等问题。研究揭示了AI编程工具的实际能力边界和改进方向。
Meta公司联合多所大学发布"软令牌"新技术,首次实现AI连续推理训练。该方法让AI摆脱传统的逐步推理模式,能同时探索多种思维路径,如人脑般灵活思考。在数学推理任务中,新技术保持了原有准确率,在多样性指标上显著超越传统方法,且对模型原有能力影响更小。关键突破是发现软训练配合硬推理的最佳组合,让现有部署系统无需改造即可受益。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。
沙特Misraj团队开发出专门识别阿拉伯文档的AI模型Baseer,解决了阿拉伯文从右到左书写、字母变形、变音符号复杂等技术难题。该模型在50万对图像-文本数据上训练,词错误率仅0.25,显著超越谷歌、微软等产品。研究团队还创建了高质量评测基准,为全球4亿阿拉伯语使用者的数字化需求提供了重要技术支撑。
德国约翰内斯·古腾堡大学美因茨分校研究团队发现,主流AI大语言模型对德国方言使用者存在系统性偏见,将其与教育程度低、思想保守等负面特征关联。研究测试了十个模型和七种德国方言,发现所有AI系统都表现出显著歧视。更意外的是,明确标注方言身份比暗示性提及产生更严重偏见,挑战了现有AI公平性认知。
腾讯研究团队提出RLPT新方法,让大语言模型通过预测文章下一段内容进行自主学习,无需人工标注。该技术在多个基准测试中显著提升AI性能,特别是数学推理能力提升5-8分,为解决AI训练中的数据瓶颈和标注依赖问题提供了创新解决方案,展现出良好的可扩展性和实用前景。
Meta研究团队通过分析十个大型推理模型发现,AI推理质量的关键不在思考时长,而在推理效率。他们创新提出"失败步骤比例"指标,发现减少错误探索比延长思考时间更能提升准确率。研究颠覆了"长思考更好"的观念,为AI推理系统设计提供了质量导向的新思路。
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
英伟达最小的Grace-Blackwell工作站DGX Spark本周正式上市,搭载GB10系统级芯片,可提供高达1千万亿次稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络。起售价约3000美元,预装Ubuntu Linux系统。该产品主要面向AI和机器人开发者、数据科学家等专业用户,可运行高达2000亿参数的模型。支持双机互联,可处理4050亿参数模型推理。