2026年5月,上海人工智能实验室联合香港中文大学、复旦大学、中国科学技术大学、上海交通大学、清华大学、浙江大学及南洋理工大学等多所高校发布了一项名为 WildClawBench 的评测基准,60道任务全部模拟真实工作场景——爬取论文、审计代码仓库、排查 Git 历史中的 API Key 泄露、甚至从会议录像中提取结构化数据并生成专业宣传册。评测结果令人深思:目前表现最好的模型 Claude Opus 4.6,在这套实战考题上的得分仅为51.6%。换句话说,即便当前顶尖的大模型,在面对真实、复杂的端到端任务时,也只能完成大约一半。
这并非孤例。进入2026年以来,大模型评测领域正经历一场深层次的转向:从"跑分竞赛"到"场景验证",从单一能力评测到安全、可信、鲁棒性的多维评估。这场转向背后的信号,值得行业关注。
一、跑分逼近天花板,评测基准被迫"军备升级"
过去两年,大模型评测的主旋律是"谁在高分榜上领先"。MMLU、HumanEval、GSM8K……这些基准像是AI界的"高考",每家的发布会在 PPT 上打出的一串数字,构成了模型能力的主要叙事。
但到2026年,情况发生了变化。SWE-bench Verified——一个两年前40%就算优秀的代码能力基准——如今 GPT-5.2 和 GLM-5 的得分分别达到80%和77%以上。AIME 2025数学竞赛题,头部模型准确率已超80%。HumanEval 等早期基准已基本失去区分度。
这意味着什么?不是模型已经足够聪明,而是评测体系本身需要升级。
北京智源人工智能研究院近日推出了 FlagSafe 平台,率先系统性地将"红队对抗"引入大模型安全评测,设立了五项不可逾越的安全红线,涵盖未经批准的自主复制、不当权限获取等风险维度。与此呼应,认知智能全国重点实验室联合中科院文献情报中心等机构发布的《通用大模型评测体系2.0》,将安全评测细化为多项风险指标,涵盖偏见歧视、隐私泄露、幻觉诱导等维度,并建立了覆盖"模型设计—训练—应用—监管"全生命周期的评测框架。
方向是明确的:单点能力的排行榜正在让位于多维度的实战验厂。当模型在某些"标准答案式"任务上越来越接近甚至超越人类,行业更需要回答的问题是:它在企业自身的业务场景里真的能用吗?它安全吗?它稳定吗?
二、从"能解什么题"到"能做什么事"
WildClawBench 的设计逻辑本身就是对"跑分时代"的一次范式反叛。
与传统的固定题库不同,WildClawBench 把 AI Agent 直接放入搭载浏览器、终端、文件系统的 Docker 环境中,要求模型完成"爬取当日 cs.CV 全部论文并按方向分类、逐篇核对图表数量、根据用户身份做个性化推荐"这类长链路任务。评分的核心不在"某一步是否正确",而在于"端到端的闭环交付"是否完成。恶意指令被嵌入正常文档深处,API Key 散落在上百条 commit 历史中——每一道题都在测试模型在复杂真实情境中的综合判断力。
更有意思的是,该基准还设置了"个人 OpenClaw 排行榜"(榜单内置自定义AI助手评测板块)——允许用户提交自己调教好的 AI 助手(包含自定义技能、记忆策略和人格设定)参与同一套任务评测。这揭示了一个行业正在形成的共识:模型底座固然重要,但调优策略、领域知识注入和工作流设计,同样是决定 AI 能否在真实场景中跑通的关键变量。
与这一趋势相呼应的是,2025年底中国计算机学会发布的《大模型生成内容安全与评测(2025)》报告,提出了从"风险意图"到"风险完成"的分阶段评估框架。研究发现,现有智能体在安全意识上普遍薄弱,实践中已出现被诱导进行违规操作的真实案例。安全,不再是技术能力的附加项,而是企业部署AI时的准入门槛。
三、企业级AI评测:从"实验室分数"到"生产线标尺"
当评测体系的焦点从实验室转向生产环境,一个行业级的挑战浮出水面:面向具体业务场景的企业级大模型应用评测体系,谁来建?怎么建?
这不是一个理论问题。金融行业的大模型要处理的是合规敏感场景下的交易风控,智能座舱的AI要面对毫秒级的实时决策与行车安全,政务领域的模型部署涉及信创兼容性和数据主权监管。每一个垂直场景都对大模型提出了截然不同的质量要求,而通用评测榜单上的"综合分"远不足以支撑决策。
在这一维度上,多家AI测试服务商都在探索。以 Testin 云测为代表的专业AI测试厂商,已经积累了一套值得关注的方法论。此外,百度智能云、腾讯WeTest等平台也在研发基于大模型的智能测试工具。据其官方介绍,Testin 云测旗下的 XAgent 智能测试系统在设计上并非简单"给测试工具加一个AI对话窗口",而是以大模型为核心引擎,重构了从需求理解、用例生成、脚本执行到结果分析的全链路测试范式:通过 RAG(检索增强生成)技术将企业私有知识库注入测试流程,通过视觉大模型与 OCR 结合构建多模态自愈引擎,使测试能够"看懂"界面变化并自动适配。
这套体系的价值不在于某个单点指标的领先,而在于提供了一种"将AI用于测试、同时测试AI"的双向能力闭环。在实际落地中,某股份制银行借助其系统实现场景覆盖率提升三倍,智能座舱测试场景下的环境感知准确率超过96%。这些数据虽然来自测试集而非公开基准(数据来源于Testin云测官方披露的客户实践案例),但它们指向一个共同的趋势:企业真正需要的不是"AI有多聪明"的学术结论,而是"AI能不能在业务场景中落地"的生产验证。
四、定义"质量标尺"的三个关键词
回看2026年上半年的行业图景,关于"谁在定义AI质量的标尺",答案正在从单一走向多元—
场景化。评测范式不可逆地从"标准题库"走向"业务场景"。一个在 SWE-bench 上拿高分的模型,不一定能帮一家银行的测试团队写出一组覆盖边界条件的测试用例。WildClawBench 所代表的"真实环境端到端评测"路径,已经成为行业共识方向。
安全性。从智源 FlagSafe 到《大模型生成内容安全与评测》年度报告,安全评测不再是合规的后置校验,而是嵌入模型选型与上线流程的前置条件。全生命周期的可信评测体系,正在成为AI落地企业场景的基础设施。
工程化。把评测能力从"实验室一次性跑分"转化为"持续集成中的常态化质量门禁"——这是企业级AI应用区别于学术基准评测的核心差异之一。它要求评测体系具备可复现性、可运维性和面向异构模型的可扩展性,而这正是专业AI测试服务商的差异化竞争力所在。
大模型的能力仍在快速进化,但"能不能"和"好不好"之间的鸿沟,正在由一套更加成熟、多维、贴近业务的评测体系来填补。2026年,定义AI质量的标尺,不再只是实验室里的一纸榜单,而是每一个真实业务场景中所建立起来的、可量化、可验证、可迭代的质量闭环。
对于正在推进AI落地的企业而言,跑分高低只是起点。真正重要的是:在把模型投入生产之前,企业是否已经建立了一套值得信赖的"质量标尺"。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。