AI行业的基础设施雄心正与现实发生激烈碰撞。
近几周,多份报告相继指出AI容量扩张面临的延迟与制约,涵盖数据中心建设瓶颈及日益突出的电力供应问题。摩根大通近期的一项分析显示,随着AI相关电力需求加速增长,能源基础设施正承受越来越大的压力。数据中心领域的专业媒体也持续追踪报道法律纠纷、审批延误以及合同复杂性对新建AI数据中心的阻碍。
与此同时,各大科技公司持续加大AI基础设施投入,进一步强化了企业算力需求将大幅增长的预期。
对于CIO而言,这一问题已愈发难以忽视。AI领域的讨论长期聚焦于模型、应用与生产力提升,而在基础设施圈子之外,支撑企业规模化AI落地所需的基础设施,以及一旦该基础设施出现受限、延误或区域分布不均的情况将带来怎样的影响,却鲜有人关注。
德勤前董事总经理、Linthicum Research创始人David Linthicum表示,该行业已出现"宣布投资与可部署产能之间的典型错位"。
眼下的风险并非AI容量的急剧短缺,更可能的是一种渐进式转变——运营环境日趋受限,推理成本持续攀升,资源访问愈加不可预期,优先级决策也愈发无可回避。这一前景已促使部分技术领导者开始重新审视其AI路线图的基础假设。
AI投资与实际产能之间的鸿沟
流入AI基础设施的投资规模依然庞大,超大规模云服务商和AI厂商持续斥巨资追逐未来算力供给。但多位专家表示,业界可能低估了将资本支出转化为可运营AI产能的难度。
多位专家指出,核心挑战在于,物理基础设施的扩张速度远远落后于软件需求的增长。
"资本承诺频频登上头条,但电力可用性、审批流程、电网升级、冷却系统、专用硬件供应和建设周期才是制约实际交付的瓶颈,"Linthicum说,"资金的流动速度远超基础设施的建设速度。"
Yoink Industries首席执行官兼首席信息安全官、圣路易斯华盛顿大学兼职教授Edward Liebig强调,这一挑战远不止算力供给本身。他表示:"AI基础设施的需求曲线似乎不仅超过了数据中心的建设速度,还超越了电力可用性、冷却能力、互联扩展性以及使这些环境稳定上线所需的运营整合能力。"
然而,Liebig也提醒不应将基础设施约束单纯视为供给侧问题。在他看来,这种压力正在暴露企业自身在AI部署方式上的深层缺陷。
"我们开始看到,基础设施约束正在揭示一个组织究竟拥有严格的AI运营策略,还是仅仅积累了一堆相互争抢资源的零散AI项目,"Liebig说。
随着企业在各部门规模化推进AI落地,这一差异将愈发关键。许多组织正同时试验Copilot、AI辅助工作流、分析工具、检索系统和智能体系统,却往往缺乏集中治理或运营优先级管理。Liebig将其描述为"AI蔓延"——基础设施需求的增速超过了可衡量的商业价值增速。
"受AI容量短缺影响最大的组织,未必是基础设施最匮乏的那些,而可能是在AI部署上运营纪律最薄弱的那些,"他说。
基础设施压力可能以何种方式显现
并非所有专家都认为企业正面临迫在眉睫的AI容量危机。Tranquilla AI的未来学家Donald Farmer持更为审慎的态度,他认为许多CIO或许比当前舆论所渲染的更有时间从容应对。
"我们预计,驱动企业采用的主要动力将是智能体AI,而非生成式AI,"Farmer援引TDWI研究数据称,仅有31%的企业认为智能体AI的采用正在发生,49%的企业预测这一进程还需1至5年。"因此,我认为电力生产仍有时间跟上需求增长。"
Farmer还指出,模型和硬件的效率持续提升,将有效减轻算力负担。尽管如此,多位专家一致认为,约束很可能以不均衡的方式显现,中型企业在需求峰值期间面临的压力可能最为突出。
"我认为训练任务是安全的,"Farmer说,"超大规模云服务商在产能紧张时,大概率会优先保障自家的第一方AI工作负载和最大的企业客户。"
Linthicum同样将这一问题定性为间歇性不稳定,而非全面稀缺。"最大的风险不是AI消失,而是访问成本变得更高、延迟加剧,或在不同地区和服务商之间出现不均衡,"他说。
这一区分至关重要,因为许多企业的AI战略目前预设了相对顺畅的算力访问。那些围绕快速试验、实时推理和全天候AI服务构建路线图的组织,可能需要做好应对远比预期更受限环境的准备。
"一个正在浮现的风险是,组织可能在无意间构建出默认AI无限可用、推理响应无限即时的业务流程,"Liebig说,"物理基础设施的现实可能比许多人预期的更早打破这一假设。"
AI治理正成为基础设施议题
AI容量受限的前景也开始重塑围绕治理与优先排序的讨论。
Liebig认为,专注于运营保障与弹性韧性的企业,在基础设施承压时期可能处于更有利的位置,因为它们往往以更审慎的方式推进AI扩展。这类企业倾向于优先布局对运营至关重要的用例,并在价值、治理与管控得到验证后再逐步扩大规模。
"有边界的扩张能够创造韧性,因为当基础设施条件趋紧时,组织可以优先保障最重要的AI功能,"Liebig说。
这一方式也改变了CIO在内部评估AI投资的方式。核心问题不再是获取更多AI容量,而是判断哪些工作负载值得优先占用受限的基础设施资源。
Linthicum对运营纪律的需要提出了类似看法。他认为,CIO应着手将AI项目划分为关键、重要和试验三个层级,从而让基础设施分配变得有据可依,而非被动应对。
"没有应急预案的企业暴露风险最大,"他说。
这一转变也可能迫使组织更加审慎地考量哪些场景真正需要前沿AI模型。Farmer指出,许多企业已在运行于通用硬件上的小型本地模型中找到成效,尤其是在治理、合规或成本因素使云端依赖相对不划算的环境中。
"并非所有事情都必须跑在最新最强的模型上,"Farmer说。
CIO现在应向供应商追问什么
随着基础设施约束日趋显现,专家建议CIO将AI容量视为弹性与业务连续性问题,而非单纯的采购事项。为了提前规避潜在风险,IT领导层需要对现有供给状况有清晰的认知。
Linthicum表示,企业需要供应商在容量短缺的应对方式上提供更多透明度。"他们应该直接追问容量保障、区域可用性、队列优先级、定价波动性、故障切换选项以及跨环境可移植性,"他说。
Farmer同样主张,对话的重心应越来越多地放在运营可靠性上,而非功能特性。他建议CIO向供应商追问的问题包括:服务的可靠性保障、中断时的响应机制以及长期容量规划。
Liebig进一步指出,CIO应要求了解供应商在受限条件下的实际行为。"工作负载在峰值需求时如何排序?服务能否在基础设施承压时实现优雅降级?是否存在对共享GPU池或第三方模型提供商的依赖?"他问道。
这些问题折射出企业AI战略正在发生的更深层转变。基础设施可用性曾经主要被视为超大规模云服务商的抽象问题,如今正日益成为企业运营的核心依赖。企业AI路线图不仅需要规划AI系统要做什么,还必须评估底层基础设施能否在规模化场景下可靠地支撑这些目标。
Q&A
Q1:AI基础设施瓶颈对企业CIO有哪些直接影响?
A:随着AI基础设施约束加剧,CIO面临的核心挑战包括:推理成本上升、算力访问稳定性下降以及跨地区资源分配不均。这意味着企业需要重新审视AI路线图的基础假设,将原本预设"算力无限可用"的业务流程进行合理调整,并提前制定优先级策略,明确哪些AI工作负载属于关键级别,从而在资源受限时保障核心业务的正常运转。
Q2:企业应如何应对"AI蔓延"问题?
A:"AI蔓延"是指企业同时推进多个缺乏统一治理的AI项目,导致基础设施需求的增速超过可见的商业价值。应对这一问题,专家建议企业建立集中化的AI运营治理机制,将AI项目划分为关键、重要和试验三个优先级层级,优先保障运营价值明确的用例,并在价值与管控得到验证后再逐步扩大规模,避免资源在低价值项目上的无序消耗。
Q3:CIO在选择AI供应商时应重点关注哪些问题?
A:专家建议CIO在评估AI供应商时,应重点询问以下方面:容量保障机制与区域可用性、峰值需求时工作负载的优先排序方式、服务在基础设施承压时能否实现优雅降级、是否依赖共享GPU池或第三方模型提供商,以及跨环境的可移植性与故障切换选项。这些问题有助于提前识别供应商在容量受限时的实际行为,降低企业AI业务的连续性风险。
好文章,需要你的鼓励
本田汽车因电动车战略失败,创下上市以来最大亏损,电动车相关损失高达1.45万亿日元(约92亿美元)。本田CEO宣布全面调整战略:放弃2040年淘汰燃油车计划,转而推进混动路线,计划到2028年推出两款新混动车型原型,并在本十年末全球发布15款新混动车型。与此同时,本田将暂停150亿美元的加拿大电动车工厂建设,并将俄亥俄州电动车产线改为混动和燃油车生产。
中山大学等机构发现,多模态AI在同一道物理题因表达形式改变时推理能力明显下滑,视觉数值与物理实体的绑定是最核心瓶颈,且遮黑训练图片同样能提升测试成绩。
IEEE信号处理学会与《IEEE信号处理精选主题期刊》联合发布专题征稿,聚焦"网络化AI"领域。该研究方向旨在让机器人和AI系统摆脱孤立运行模式,通过互联网络实现集体学习、实时协同优化。研究涵盖多智能体机器人、分布式AI、边缘智能、自动驾驶等方向,探索系统在无需人工干预的条件下自主进化的可能性。论文征集截止日期为2026年6月15日,成果将于2027年1月发布。
这项由纽约大学与弗拉托恩研究所开展的研究证明,允许可学习嵌入时,Transformer只需对数维度就能存储大量事实,MLP充当通用关系选择器而非知识查找表,思维链可绕开多跳推理的容量瓶颈。