大部分云支出的意外大幅增加主要归因于使用量的上升,但这并未促使首席信息官们重新审视 IT 战略,他们只是采取战术性措施来试图控制云端成本。
根据 Java 平台供应商 Azul 最近的一项调查,83% 的首席信息官表示,目前在云端的支出超出了预期,其中近一半的首席信息官的超支比例达到或超过 26%。仅有 2% 的首席信息官报告实际支出低于预期。
云市场观察人士指出,大规模 AI 工作负载推动了支出的上升,同时开发人员对其所消耗的云服务成本缺乏足够认识。而尽管许多 IT 领导者已经针对 AI 上线后成本上升的情况调整了他们的云策略,但调查结果表明,仍有大量工作等待完成。
然而,将工作负载从云端迁回本地(Repatriation)似乎并不在这些努力之列。即使首席信息官报告云端支出大幅增加,八成的受访者仍认为云服务为他们的组织节省了资金,这使得云市场呈现出 Jevons 悖论的态势,Azul 总裁兼首席执行官 Scott Sellers 如是说。
在 Jevons 悖论中,随着资源随着时间变得更为廉价,其消费水平却可能同时上升,从而推动支出增加。此外,即使首席信息官在云服务上的支出超过了预算,他们似乎也认为在本地运行工作负载的成本更高,Sellers 表示。
他补充道,云服务还使得 IT 领导者能够更快地进行创新,推出新服务、新产品和新功能。
“过去,也许你推出了一个新功能,而这个功能需要更多的计算基础设施,”Sellers 说,“那时你会联系当地的 Dell 销售代表,三个月后服务器才会运抵你的仓库,几个月之后 IT 人员才将服务器安装完毕。”
Pmfm.ai 是一家提供定制 AI 开发平台的供应商,其创始人 Aditya Saxena 表示,今年该公司的季度云支出上升了约 25%,而主要原因,大约占成本的 90%,是由于使用量的增加,因为公司的客户正在创建比传统模型消耗更多 Token 的以研究为导向的 AI 模型。
他还说,许多客户也希望拥有专用的云资源,比如他们专有的服务器实例。
Pmfm.ai 已开始利用超大规模云服务供应商提供的特殊初创企业定价来控制其云成本,但 Saxena 并不认为这会带来重大影响。一家云服务供应商预计,通过帮助 Pmfm.ai 优化其云基础设施,公司可实现 3% 至 5% 的节省。
“我们本季度启动的大部分服务都是为了缓解意外流量激增问题,并且都是具有预防性质的,”Saxena 说,“这是可以预见的,我们对此无能为力。”
控制云支出
Saxena 的经历对许多首席信息官来说并不陌生:他们已经坚定地投入云服务,因此必须采用多种策略来控制在支出超出预期时的云成本。
根据 Azul 的调查,控制云支出的主要策略包括优化工作负载、利用云成本管理工具、协商折扣、审核云部署以及采用 FinOps 方法。
Azul 的 Sellers 建议采取上述所有方法,他表示:“要实现云支出的优化,没有单一的解决方案。这需要综合所有手段,包括出色的可观测性与监控,以便准确了解每个应用程序消耗的资源情况,甚至到这些应用内部各微服务的细粒度信息。”
他建议各组织还应审视所消耗的云资源类型。例如,有时公司可能需要超低延迟的云存储来运行关键应用程序,而在其他情况下,则可能可以使用高延迟的冷存储。
云成本的薄弱环节:开发人员教育
Sellers 表示,首席信息官在消耗云资源时也应采纳与降低成本相关的 DevOps 实践。其中一个未受到足够重视的陷阱是:许多组织并未对开发人员进行关于云服务成本的教育,尽管大型云服务供应商提供的开发者服务让调用变得异常简便。
“我已经数不过来 Amazon 提供了多少开发人员可以直接使用的服务,其中一些服务相当昂贵,但开发人员并不真正了解这一点,”Sellers 说,“他们会想:‘与其自己编写解决方案,不如直接调用 Amazon 已经提供的这个服务,一调用完事。’”
Harness(一个 AI 驱动的软件开发平台供应商)的现场首席技术官 Nick Durkin 补充道,开发人员与云端财务因素之间的脱节是一个真正的问题,导致云成本上升。例如,如果开发人员不知道使用云端 GPU 或 CPU 的成本,就像一个不知木材或砖块成本的建筑商一样。
Durkin 说:“如果你不给你最聪明的工程师提供可供优化服务成本的信息,你怎么期望他们能做到?然后,一个月后财务部门就会拿着棒子来责问你。”
Durkin 表示,依赖移动应用的银行等企业尤其脆弱。但他建议各行业的 IT 领导者都应对其开发人员进行关于所使用云服务成本的教育——因为云服务的关键价值主张——规模,同样也可能击中你的预算。
“每次 [开发人员] 部署一个东西时,云端都会产生成本,”他说,“所以如果我构建的那个制品实际上被扩展并部署到多个区域、多处以支持能力,一旦超量配置,就会被超量配置 100 次。”
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。