在 Cloud Next 2025 上,Google 宣布了几项更新,这些更新能够帮助 CIO们在采用和扩展代理的同时降低集成的复杂性和成本。此次活动的重点是为企业提供一个经过 AI 优化的平台和开放框架,使代理具有互操作性。
在长达一小时四十分钟的主题演讲中,Google Cloud 的 CEO Thomas Kurian 展示了公司大部分产品的更新情况,包括新的大语言模型(LLM)、一款全新的 AI 加速芯片、围绕代理的新开放源代码框架,以及对数据分析、数据库、生产力工具和服务的更新等。
通过新芯片实现的成本—性能优化
上周宣布的主要更新之一是 Google 的第七代张量处理单元(TPU)芯片 —— Ironwood,该芯片旨在加速 AI 工作负载,特别是推理任务。
Google 表示,借助新 TPU,他们希望在每瓦每美元的性能上超过此前发布过的所有 TPU,这对 CIO们来说是个好消息,因为他们往往需要在资源有限的情况下实现更多功能。随着采用大语言模型运行生成式 AI 驱动的应用程序,CIO们面临着在预算内应对推理工作负载呈指数级增长的压力。“Ironwood 不仅为大规模 AI 工作负载带来性能提升,更重要的是,它体现了 Google 在减少对 Nvidia 依赖方面的举措,这对正面临硬件供应问题和 GPU 成本上升压力的 CIO们来说意义重大。综合来看,这些工具旨在使企业级 AI 的部署、扩展和管理变得更加切实可行,” Everest Group 的实践总监 Kaustubh K 说道。
随着代理 AI 的采用 —— 也就是利用数字代理在无需人工干预的情况下完成任务,大语言模型在采取行动完成任务或响应用户请求之前,将会主动进行推理,从而推理工作负载也将出现另一波增长。
利用开放框架解决代理 DevOps 问题
上周,Google 还宣布了新的开放框架 —— 代理开发工具包( Agent Development Kit, ADK)和代理间协议( Agent2Agent, A2A) —— 以帮助企业构建、管理和连接多个代理,即便这些代理位于不同生态系统中。
ADK 的重点在于帮助开发团队以更低的复杂性更快地构建 AI 代理,同时保留足够的控制手段来管理代理;而 A2A 协议则旨在帮助企业连接基于不同生态系统或供应商平台构建的代理。
分析师认为,这些开放框架将对 CIO们大有裨益,能够帮助他们解决构建代理或代理应用时遇到的诸多挑战。
“The big strategic play is standardizing how a developer team in an enterprise version, monitors, secures, and retires them across hybrid clouds, and Google’s the first hyperscaler to frame that coherently,” The Futurum Group 的 CIO 实践负责人 Dion Hinchcliffe 表示,他指出,“Google 正在悄然重新定义代理生命周期管理,这将成为下一个 DevOps 的前沿。对于 IT 部门来说,这将是一个巨大的挑战,因为代理化 DevOps 将成为未来企业面临的最大运维难题之一。”
Hinchcliffe 补充道:“这一大战略意义在于标准化企业内部开发团队如何在混合云环境中监控、保护和淘汰代理,而 Google 是首个对此进行系统框架构建的超大规模云服务提供商。”
Everest Group 的 Kaustubh 表示,Google 对开放标准和混合部署选项的重视可能会使 CIO们觉得非常实用,尤其是在将 AI 集成到现有环境中时。
Kaustubh 补充说:“这些功能提供了灵活性,而无需进行重大平台转变,这对于分阶段或针对特定用例的采用来说具有吸引力。”
进一步解释 Google 的策略与竞争对手(如 AWS 和 Microsoft)之间的不同之处时,Hinchcliffe 表示,Microsoft 正在为“作为用户体验层的 AI”进行优化,而 AWS 则侧重于“原语级”功能,Google 则正在探索中间路线 —— 一个既适合开发者使用又能在企业级别大规模部署的代理化架构。
Hinchcliffe 补充说:“这种战略可能会成为真正的差异化优势,为那些希望拥有不仅仅是附加在 SaaS 上的聊天机器人,而是具备互操作性、可观测性及企业级治理的代理的 CIO们提供解决方案。”
虽然 Microsoft 通过 Copilot Studio 和 Azure Studio 在 Azure AI Foundry 内提供代理构建能力,而 AWS 则通过 Amazon Bedrock 提供相应功能。
更小型的大语言模型以及其他更新
在 Cloud Next 2025 上,Google 还推出了专门针对视频、音频和图像的大语言模型,分别命名为 Veo 2、Chirp 3 和 Imagen 3。分析师认为,这些专用大语言模型可能会帮助企业在视频、音频和图像生成相关任务上获得更高的准确性,同时在一定程度上降低成本。Hinchcliffe 认为,专用大语言模型以及更小、更快的 Gemini 变体直接解决了企业级 AI 扩展中长期未解决的成本—性能优化问题。
Hinchcliffe 表示:“对于 CIO们来说,这些更新使得在边缘设备、私人数据存储或垂直应用中嵌入大语言模型成为一种更为现实的选择,而不会造成过度开支。”
对于生产力工具方面,Google 上周更新了其生产力套件,通过 Google Workspace 推出了新的代理,并推出了新的 CES 代理。然而,Hinchcliffe 表示,对于任何一位 CIO来说,这些更新的真正价值在于它们帮助弥合了企业任务自动化与结构化、可治理的 AI 工作流之间的差距。“这正是大多数供应商在演示新功能时所忽略的方面,”Hinchcliffe 说道。Google 此外还宣布了一系列数据分析、数据库、网络和安全方面的更新,以及一个新的应用设计中心。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。