从ChatGPT问世以来,生成式AI在几年间一直在高光中快速成长。但是在阴影中,也逐渐显现出一些问题,而这些问题反而是让企业可以赢得AI时代的先机。
“AI计算正在不断演进、AI算力问题=新机会、迎接强大的边缘AI”,这是Gartner看到的三大颠覆性变革。Gartner高级研究总监曾劭清(Evan Zeng)认为,开发AI能力的产品领导者必须提前布局,不仅要应对变革,更要把握这一新增长窗口。
AI计算正在不断演进,算力新纪元已来
训练和推理是AI的两大主要工作负载,数据显示,训练对于算力的需求在2024-2027年处于稳定上涨,增幅不大,推理对于算力的需求却在快速上升。
“推理应用的需求正持续快速增长,未来大量的AI算力消耗将主要来自推理环节。”曾劭清看到,当前在线应用的服务质量高度依赖网络架构,比如一个推理应用如果仅托管在北京,南方用户的网络延迟就会显著增加,为此必须在多个区域分布式托管,并给予每个托管点相应的推理算力支持,才能保证AI应用的实时响应和服务质量。
Gartner预计到2028年,全球推理所消耗的算力将达到训练的3倍,在中国这一比例有望进一步拉大,预计达到4:1,甚至更高。
由于市面上的基础模型大多基于Transformer架构,所以到2030年,基于Transformer的应用也将增加8倍,这对于半导体行业也会带来一系列变化。
半导体行业可以分为GPU和非GPU的AI加速器两类,两种类型加速器的发展路线有所不同,前者是通用架构设计,适用于训练和推理,后者针对AI应用架构去设计AI半导体,多用于推理。所以预计到2027年,针对AI推理应用的算力需求上,AI加速器将超越GPU出货量。
Gartner预计,到2030年,数据中心扩散模型工作负载芯片的销售机会将增长25倍,达到70亿美元。
随着声音、视频、图像等多模态生成需求的激增,基于Diffusion等生成算法的专用芯片将在未来快速增长。曾劭清谈到,通用GPU架构会进一步向算法适配型算力芯片转移,中国厂商正积极切入这一赛道,预计未来中美将在这一领域展开新一轮激烈竞争。
AI算力问题=机会,AI新周期已至
Gartner在2025年初的调研显示,60%的AI实践场景最终不能应用到实际生产场景,主要是因为准确度,AI场景的投资回报率、缺乏AI场景就绪的数据等多种因素。
不断尝试切换场景,带来的直接后果就是成本攀升,这也成为企业在落地AI过程中面临的一大挑战。另一成本挑战则来自电力,未来每投入1美元在AI服务器上,相应的电力预算就需要增加0.35美元,可见AI服务器的耗电量之高。
曾劭清举了个例子说明,目前中国乃至全球的大型IDC(互联网数据中心)基本是按5千瓦/机柜的标准设计,机柜内通常部署的是1U或2U的低功耗通用服务器。但随着AI算力需求的提升,传统配置难以支撑未来AI服务器高密度、高功耗应用场景。
预计到2027年全球AI数据中心带来的新增电力消耗将达到500兆瓦,相当于德国全国的整体耗电量,所以电力的供给会限制创新。
“软件、新架构、冷却技术和网络多层面的创新,才能减少生成式AI带来的电力消耗。”曾劭清说。
AI带来的变化是一系列相互关联的连锁反应,算力的持续提升必然伴随着电力密度的上升,电力密度的增加又直接导致整体用电量的增长,而随之而来的是发热量的上升,这又进一步推高了对制冷系统的需求。
依托基础设施监测与分析来实现动态调节就变得尤为重要,通过实时监测判断机柜是否正在进行高强度计算,如果发现用电量快速上升,及时调动制冷系统。处于闲置或低负载状态的机柜,则可以适当降低制冷输出,从而整体优化能耗结构,提升能源使用效率。
迎接强大的边缘AI,行动计划已启
随着模型的不断演进,越来越多企业意识到,参数规模并非越大,结果就越精准。
现在部分AI应用的领军企业已经开始根据不同场景,灵活选用不同参数规模的模型,以实现最优的ROI。而且小模型可以进一步部署在边缘,像“文生图”“文生视频”这类应用,通常更适合在边缘节点就近完成推理计算。
“在边缘部署,不仅能降低数据传输带来的带宽费用,还能提升服务实时性和用户体验,这也是生成式AI未来应用落地的重要趋势之一。”曾劭清说道。
本地生成式AI处理给用户带来四大好处:
第一,个性化:将AI部署在企业数据中心、个人电脑或手机等本地环境,可以直接访问本地数据,满足个性化和上下文需求,更贴近用户个性化需求。
第二,隐私与安全:企业数据通常需要分类分级管理,敏感信息不能上传到外部大模型,要将AI智能体部署在本地,避免数据泄露风险,保障信息安全。
第三,延时:像“文生图”“文生视频”应用对实时性要求高,部署在边缘可以大幅降低网络时延,尤其适合医疗、工业等对响应速度敏感的场景。
第四,成本与电力:本地小模型功耗低、成本可控,而超大模型集中部署不仅成本高,耗电也大。合理选择模型规模和部署方式,有助于优化整体算力成本。
总而言之,针对三大趋势,AI产品领导者要制定自己的行动计划。硬件提供商:重新定位计算平台满足AI在云端边的算力需求;软件提供商:选择合适的硬件平台满足软件内嵌AI的需求;云服务提供商:部署训练和推理的算力平台满足云和边缘AI应用;数据中心提供商:规划高密度机柜,液冷设施和提升机房电力容量。
企业做AI同样需要制定清晰的战略规划,就像当年“上云”一样,如何协调各方角色将成为成败的关键。
好文章,需要你的鼓励
是德科技高级副总裁兼通信解决方案事业部总裁Kailash Narayanan现场指出,算力固然重要,但如果能耗过高,技术的实用性将大打折扣,因此,所有的高速、高性能计算,都必须在极低的功耗下实现,这是AI等技术能否大规模落地的核心前提。
DeepSeek-AI团队通过创新的软硬件协同设计,仅用2048张GPU训练出性能卓越的DeepSeek-V3大语言模型,挑战了AI训练需要海量资源的传统观念。该研究采用多头潜在注意力、专家混合架构、FP8低精度训练等技术,大幅提升内存效率和计算性能,为AI技术的民主化和可持续发展提供了新思路。
来自上海交通大学和浙江大学等机构的研究团队开发出首个AI"记忆操作系统"MemOS,解决了AI系统无法实现人类般持久记忆和学习的根本限制。该系统将记忆视为核心计算资源进行调度、共享和演化,在时间推理任务中相比OpenAI记忆系统性能提升159%。MemOS采用三层架构设计,通过标准化记忆单元实现跨平台记忆迁移,有望改变企业AI部署模式。
加拿大女王大学研究团队首次系统评估了大型视频语言模型的因果推理能力,发现即使最先进的AI在理解视频中事件因果关系方面表现极差,大多数模型准确率甚至低于随机猜测。研究创建了全球首个视频因果推理基准VCRBench,并提出了识别-推理分解法(RRD),通过任务分解显著提升了AI性能,最高改善幅度达25.2%。