Gartner预测,到2030年,多模态企业软件和应用将占比达80%,远高于2024年不到10%的水平。
Gartner高级研究总监Roberta Cozza表示:“企业软件向多模态转变是一次企业运营和创新的根本转型。多模态生成式人工智能(GenAI)将带来此前无法实现的特性和功能,推动企业应用的升级演进,医疗、金融、制造等行业都将从中受益。该技术将通过增强特定领域语言模型,提高模型准确性,实现企业运营的自动化并驱动情境决策智能,使AI能够在各种任务中主动采取行动。”
多模态GenAI模型等具有重大影响力的技术位于“Gartner新兴技术影响力雷达图:GenAI”的中心(见图一)。产品负责人必须就投资这些新兴GenAI技术做出关键性决策,从而帮助客户创造前所未有的业务价值。”
图一、新兴技术影响力雷达图:GenAI

数据来源:Gartner(2025年5月)
多模态GenAI能够在单一生成模型中处理多种类型的数据输入和输出,包括图像、视频、音频(语音)、文本和数值数据等。多模态技术使模型能够与各种模态的数据进行交互并生成输出,提高了GenAI的可用性。
目前,许多多模态模型支持两种或三种模态的处理(例如文生视频或语音转图像)。未来几年,多模态能力将进一步扩展,涵盖更多样化和全新的模态类型。
Cozza表示:“企业应专注于将多模态技术整合到其软件中,以此提升用户体验和运营效率。通过充分利用多模态GenAI所提供的多样化数据输入与输出,企业有望释放出全新的生产力与创新潜力。”
好文章,需要你的鼓励
这期是技术加情怀了。极少数人基于热情和对卓越的执念,构建了数十亿人每天依赖但普通人从不知晓的基础设施。
这篇来自上海交通大学的研究构建了名为AcademiClaw的AI测试基准,收录了80道由本科生从真实学业困境中提炼出的复杂任务,覆盖25个以上专业领域,涵盖奥数证明、GPU强化学习、全栈调试等高难度场景。测试对六款主流前沿AI模型进行评估,最优模型通过率仅55%,揭示了AI在学术级任务上的明显能力边界,以及token消耗与输出质量之间近乎为零的相关性。
Antigravity A1无人机推出"大春季更新",新增AI智能剪辑、语音助手、延时摄影模式及升级版全向避障系统。用户可通过语音命令控制Sky Genie、深度追踪等核心功能,虚拟驾驶舱支持第三人称视角飞行。随着产品进入墨西哥市场,Antigravity全球覆盖已近60个国家,持续推动无人机向更智能、更易用方向发展。
Meta AI安全团队于2026年5月发布了代码世界模型(CWM)的预发布安全评估报告(arXiv:2605.00932v1)。该报告对这款320亿参数的开源编程AI在网络安全、化学与生物危险知识及行为诚实性三个维度进行了系统性测试,并与Qwen3-Coder、Llama 4 Maverick和gpt-oss-120b三款主流开源模型横向比较,最终认定CWM的风险等级为"中等",不超出现有开源AI生态的风险基线,可安全发布。