人工智能已经渗透到现代企业的每个角落。但随着应用场景不断扩展、采用率急剧上升,技术部署中的裂痕开始显现。越来越多的CIO发现,他们难以追踪AI系统正在做什么、谁在使用它们以及它们的表现如何。
在许多情况下,CIO们发现自己无法监控或衡量一些关键因素,比如模型漂移、延迟、幻觉率、性能退化、影子AI和输出衰减。毫不意外的是,随着AI系统做出越来越重要的决策并处理关键活动,风险也在不断升级。
埃森哲首席负责任AI官Arnab Chakraborty表示:"CIO们对自己了解AI在组织内的部署情况感到自信,但他们通常无法告诉你AI的实际表现如何。"
根据斯坦福HAI 2026年AI指数报告(使用麦肯锡数据),将AI事件响应评为"优秀"的组织比例从2024年的28%下降到2025年的18%。与此同时,88%的组织报告在至少一个业务职能中使用AI,但只有不到10%的组织在任何单一领域完全规模化了AI。
结论是什么?随着企业在快速变化的AI领域中探索前行,可观测性至关重要。然而,AI需要一种与传统IT根本不同的思维方式。Chakraborty说:"为了理解日常性能并管理风险,超越传统IT指标进行思考至关重要。"
AI性能可见性的重要性
AI监督与传统IT监控的区别在于不可预测性。正常运行时间、吞吐量、利用率和错误——这些IT的核心指标——无法捕捉与AI相关的因素和风险。这是因为AI在设计上就是概率性的。相同的输入可能产生截然不同的输出。
这些问题可能以多种形式出现。CIO通常知道AI系统的预期用途,但缺乏对准确性、延迟、用户界面、成本和风险的洞察。还有模型漂移、智能体行为和影子AI等问题需要应对。遗憾的是,目前还没有供应商创建出能够在所有AI层面提供可观测性的工具。
问题根源在于AI的工作方式。它不是一个具有单一输出的单一模型。AI通常是一个组件堆栈:数据管道、基础模型、检索系统、智能体和其他组件——所有这些都与人类和工作流程相互作用。智能体AI引入了额外的风险。普华永道美国负责任AI合伙人Ilana Golbin Blumenfeld表示,这些风险包括:"级联错误、集成失败、责任不清,以及当多个智能体跨工作流程交互时难以预料的涌现行为。"
想象一下:一个校准错误的检索策略可能会破坏十几个下游应用程序的输出。向量数据库中的漂移可能会在聊天机器人中表现为幻觉。随着企业将智能体串联起来处理更长时间运行的任务,可能出错的地方比设计用来监控环境的工具增长得更快。Chakraborty指出:"这不仅仅是线性效应,而是复合效应。"
通常,这些问题会在数周或数月内被忽视——直到某些东西突然崩溃。这是因为性能退化的程度并不明显——直到它变得明显。IDC AI安全与信任研究总监Grace Trinidad说:"如果你不及早干预,几天之内你可能会突然发现自己处于一个不理想的境地。"
Trinidad表示,现有的仪表板和安全工具无法解决这个问题。大多数工具依赖于风险评分和置信度评级,这对AI来说是不够的且完全不透明。事实上,两个组织可以运行相同的模型,但对同一风险因素得出截然不同的看法。她说:"风险评分的构成没有标准化。"
AI监控的演进
你无法治理你看不见的东西。微软发现,73%的组织在其网络中检测到未经授权的AI工具,但只有28%的组织具备全面的监控或阻止能力。麦肯锡的"2026年AI信任成熟度调查"发现,组织的平均成熟度得分为2.3分(满分4分),只有约三分之一的组织在战略、治理和智能体AI监督方面达到成熟度3级或更高。
Blumenfeld说:"组织最大的盲点之一是他们仍然像监控传统软件一样监控AI。他们可以看到AI基础设施正在运行,但他们不理解为什么它会产生糟糕或不可靠的结果。"通常,组织设计的前置审查和风险评估流程无法解决AI系统的实际使用方式以及应用程序内风险如何漂移的问题。他说:"关键是选择能够跨多云、多模型和智能体AI环境集成的工具。"
事实上,AI可观测性正在快速演进为全栈可见性,并对AI行为有更细致的洞察。在这个世界中,遥测数据让位于语义映射和意图解释、持续监控和审计、适合角色的视图和控制,以及以更全面方式监督安全和监管要求的工具。Blumenfeld表示,这些工具必须涵盖治理、基础设施监控和模型级可见性。
Trinidad说,强大的发现过程是基础。重要的是对模型、智能体、所有者、版本、部署上下文和日志进行编目——最好是在AI注册表中。清楚了解系统应该做什么以及需要改变什么,企业就可以开始在整个堆栈中构建可观测性。有了这些信息,CIO可以在数据和模型漂移、性能退化、幻觉、影子AI和安全风险造成问题或声誉损害之前发现它们。
Chakraborty说,分层监控还需要自动化护栏。这意味着为关键因素建立正确的阈值,包括幻觉率、延迟、偏见、隐私、成本、数据和模型漂移、监管合规以及输出质量。它还需要来自超大规模云服务商和第三方供应商的正确工具组合来管理和衡量任务。
通过集成控制平面——一个收集和显示所有信号的单一架构层——来自不同部门的管理者和领导者可以看到对他们真正重要的内容。例如,首席风险官看到风险阈值和违规情况,CFO查看消费和失控的云成本,首席人力资源官看到劳动力影响,工程师则掌握可审计性和可解释性的脉搏。Chakraborty说:"它创造了你的DNA,几乎就像你的AI的神经系统。"
AI可观测性的未来方向
Blumenfeld说:"CIO应该将AI可观测性视为核心设计原则,而不是部署后添加的东西。"他表示,将可观测性视为涉及IT、业务、风险合规和内部审计团队的跨职能工作也至关重要。"该行业正在从监控单个AI模型转向监控整个智能体生态系统、编排层、数据管道和自主工作流程。"
当组织找到正确的平衡点时,他们可以更快、更安全地扩展AI,即使在工作负载增长的情况下也能控制成本,生成严密的审计跟踪并提升客户信任。Gartner预测,到2028年,大语言模型可观测性投资将覆盖50%的生成式AI部署,而目前这一比例为15%。
可以肯定的是,可观测性不是一个附加项目,也不遵循常规IT公式。它是必须内置到AI框架中的基本要素。Chakraborty说:"从一开始就做对这件事并投资建立相关能力的组织,将成为AI时代的领导者。"
Q&A
Q1:为什么传统IT监控指标无法有效监督AI系统?
A:因为AI在设计上是概率性的,相同的输入可能产生截然不同的输出。传统IT的正常运行时间、吞吐量、利用率和错误等指标无法捕捉AI特有的风险因素,如模型漂移、幻觉率、性能退化等问题。AI是由数据管道、基础模型、检索系统、智能体等多个组件组成的堆栈,所有组件相互作用,问题的复合效应远超线性增长。
Q2:AI可观测性需要监控哪些关键指标?
A:AI可观测性需要建立多层次的监控体系,包括幻觉率、延迟、偏见、隐私、成本、数据和模型漂移、监管合规以及输出质量等关键阈值。还需要对模型、智能体、所有者、版本、部署上下文和日志进行编目管理。通过集成控制平面,不同部门的领导者可以看到对他们重要的内容,如风险官关注风险阈值、CFO关注成本、工程师关注可审计性。
Q3:企业应该如何构建有效的AI可观测性体系?
A:首先要将可观测性视为核心设计原则而非部署后添加的功能,需要IT、业务、风险合规和内部审计团队的跨职能协作。建立强大的发现流程,在AI注册表中编目所有AI资产。选择能够跨多云、多模型和智能体AI环境集成的工具,实现全栈可见性。设置自动化护栏和正确的阈值,在问题造成损害前及早发现和干预。
好文章,需要你的鼓励
这款支持Matter认证的Edison智能灯泡目前在亚马逊Prime会员专属折扣活动中以超低价格出售,四只装套装平均每只不足8美元。Matter认证意味着该灯泡可与主流智能家居平台无缝兼容,适合正在构建或扩展智能家居系统的用户。此次折扣为Prime会员专属优惠,有意购买的用户可关注活动时效。
字节跳动与罗切斯特理工大学提出MUSE-Autoskill框架,让AI助手能自主创造、测试、记忆和改进技能,在SkillsBench基准上实现68.4%正确率,自动生成技能可跨系统复用。
Nintendo Switch 2售价不菲,为其选择一款合适的保护配件至关重要。这款轻薄便携收纳包目前售价仅19美元,性价比极高。它能有效防止主机在携带过程中受到划伤与碰撞,适合经常外出游玩的用户。纤薄设计不增加额外负担,同时提供可靠保护,是Switch 2用户值得考虑的实用配件之一。
成均馆大学提出CAT方法,通过为GAN多阶段训练加入跨尺度一致性约束,解决各阶段草稿不对齐问题,仅60个epoch训练即在ImageNet-256达到FID 1.56,刷新单步图像生成最优记录。