大部分云支出的意外大幅增加主要归因于使用量的上升,但这并未促使首席信息官们重新审视 IT 战略,他们只是采取战术性措施来试图控制云端成本。
根据 Java 平台供应商 Azul 最近的一项调查,83% 的首席信息官表示,目前在云端的支出超出了预期,其中近一半的首席信息官的超支比例达到或超过 26%。仅有 2% 的首席信息官报告实际支出低于预期。
云市场观察人士指出,大规模 AI 工作负载推动了支出的上升,同时开发人员对其所消耗的云服务成本缺乏足够认识。而尽管许多 IT 领导者已经针对 AI 上线后成本上升的情况调整了他们的云策略,但调查结果表明,仍有大量工作等待完成。
然而,将工作负载从云端迁回本地(Repatriation)似乎并不在这些努力之列。即使首席信息官报告云端支出大幅增加,八成的受访者仍认为云服务为他们的组织节省了资金,这使得云市场呈现出 Jevons 悖论的态势,Azul 总裁兼首席执行官 Scott Sellers 如是说。
在 Jevons 悖论中,随着资源随着时间变得更为廉价,其消费水平却可能同时上升,从而推动支出增加。此外,即使首席信息官在云服务上的支出超过了预算,他们似乎也认为在本地运行工作负载的成本更高,Sellers 表示。
他补充道,云服务还使得 IT 领导者能够更快地进行创新,推出新服务、新产品和新功能。
“过去,也许你推出了一个新功能,而这个功能需要更多的计算基础设施,”Sellers 说,“那时你会联系当地的 Dell 销售代表,三个月后服务器才会运抵你的仓库,几个月之后 IT 人员才将服务器安装完毕。”
Pmfm.ai 是一家提供定制 AI 开发平台的供应商,其创始人 Aditya Saxena 表示,今年该公司的季度云支出上升了约 25%,而主要原因,大约占成本的 90%,是由于使用量的增加,因为公司的客户正在创建比传统模型消耗更多 Token 的以研究为导向的 AI 模型。
他还说,许多客户也希望拥有专用的云资源,比如他们专有的服务器实例。
Pmfm.ai 已开始利用超大规模云服务供应商提供的特殊初创企业定价来控制其云成本,但 Saxena 并不认为这会带来重大影响。一家云服务供应商预计,通过帮助 Pmfm.ai 优化其云基础设施,公司可实现 3% 至 5% 的节省。
“我们本季度启动的大部分服务都是为了缓解意外流量激增问题,并且都是具有预防性质的,”Saxena 说,“这是可以预见的,我们对此无能为力。”
控制云支出
Saxena 的经历对许多首席信息官来说并不陌生:他们已经坚定地投入云服务,因此必须采用多种策略来控制在支出超出预期时的云成本。
根据 Azul 的调查,控制云支出的主要策略包括优化工作负载、利用云成本管理工具、协商折扣、审核云部署以及采用 FinOps 方法。
Azul 的 Sellers 建议采取上述所有方法,他表示:“要实现云支出的优化,没有单一的解决方案。这需要综合所有手段,包括出色的可观测性与监控,以便准确了解每个应用程序消耗的资源情况,甚至到这些应用内部各微服务的细粒度信息。”
他建议各组织还应审视所消耗的云资源类型。例如,有时公司可能需要超低延迟的云存储来运行关键应用程序,而在其他情况下,则可能可以使用高延迟的冷存储。
云成本的薄弱环节:开发人员教育
Sellers 表示,首席信息官在消耗云资源时也应采纳与降低成本相关的 DevOps 实践。其中一个未受到足够重视的陷阱是:许多组织并未对开发人员进行关于云服务成本的教育,尽管大型云服务供应商提供的开发者服务让调用变得异常简便。
“我已经数不过来 Amazon 提供了多少开发人员可以直接使用的服务,其中一些服务相当昂贵,但开发人员并不真正了解这一点,”Sellers 说,“他们会想:‘与其自己编写解决方案,不如直接调用 Amazon 已经提供的这个服务,一调用完事。’”
Harness(一个 AI 驱动的软件开发平台供应商)的现场首席技术官 Nick Durkin 补充道,开发人员与云端财务因素之间的脱节是一个真正的问题,导致云成本上升。例如,如果开发人员不知道使用云端 GPU 或 CPU 的成本,就像一个不知木材或砖块成本的建筑商一样。
Durkin 说:“如果你不给你最聪明的工程师提供可供优化服务成本的信息,你怎么期望他们能做到?然后,一个月后财务部门就会拿着棒子来责问你。”
Durkin 表示,依赖移动应用的银行等企业尤其脆弱。但他建议各行业的 IT 领导者都应对其开发人员进行关于所使用云服务成本的教育——因为云服务的关键价值主张——规模,同样也可能击中你的预算。
“每次 [开发人员] 部署一个东西时,云端都会产生成本,”他说,“所以如果我构建的那个制品实际上被扩展并部署到多个区域、多处以支持能力,一旦超量配置,就会被超量配置 100 次。”
好文章,需要你的鼓励
这项由北京大学人工智能研究院完成的研究,首次从数据压缩理论角度揭示了大型语言模型存在"弹性"现象——即使经过精心安全对齐,模型仍倾向于保持预训练时的行为分布。
卢森堡大学研究团队开发的RLDP框架首次将强化学习应用于差分隐私优化,创造性地解决了AI训练中隐私保护与模型效果的矛盾。该方法如同智能教练,能动态调整隐私保护策略,在四种语言模型上实现平均5.6%的性能提升和71%的训练时间缩短,同时增强了抗隐私攻击能力,为敏感数据的AI应用开辟了新路径。
过去七年中,基于机器学习的AI工具几乎完全自动化了地震学的基础任务——地震检测。AI模型能够检测到比人工分析师更小的地震,特别是在城市等嘈杂环境中。斯坦福团队开发的地震变换器等模型使用一维卷积和注意力机制,在包含120万个人工标记样本的数据集上训练。这些工具通常能发现比传统方法多10倍以上的地震,为火山结构成像和地质研究提供了更全面的地震目录。
腾讯混元团队联合北京大学提出MixGRPO技术,通过混合ODE-SDE采样策略和滑动窗口机制,将AI图像生成训练效率提升50%-71%,同时在多项人类偏好评估指标上超越现有方法。该技术采用"从难到易"的渐进优化策略,专注于图像生成早期阶段的重点优化,并引入高阶求解器进一步加速训练过程,为AI图像生成的产业化应用提供了更高效可行的解决方案。