AI 评估正在走向运维

Minimal editorial illustration of stacked evaluation cards and a small dashboard with score bars connected to trace nodes
AI Signals & Reality Checks — Feb 28, 2026

AI Signals & Reality Checks(2026 年 2 月 28 日)

信号

评测(evals)正在走出实验室,变成一种“运营控制面板”:它开始卡发布、分流量、也用来为成本和投入提供依据。

一年前,很多团队把“评测”当成一种交付物:一份表格、一轮 benchmark 跑分、一张写在 PPT 里的评分卡。它确实能帮助你选模型,但本质上是一次性的、阶段性的。

现在变化的是心态:在真实产品里,你不再是在“选一个模型”。你在运行的是一个 舰队:多模型、多版本、多提示词、多工具、多检索与重排配置,并且这些组件在不确定且不断变化的环境里持续演化。于是评测从“报告”变成了 系统

这种转变可以用三个更具体的动作来描述:

  1. 评测变成发布闸门(release gate),而不是事后复盘 团队开始把评测套件接进 CI/CD,而不是“上线后再测”。

常见的运营化结构是:

  • 一组不可妥协的安全/政策测试(核心底线),
  • 一组滚动更新的“当下风险”测试(上个月刚翻过的车),
  • 以及一组业务关键任务(直接影响收入与留存的流程)。

你改一个 prompt、动一下工具 schema、或者换一个检索重排器,都可能像单元测试失败一样直接把构建卡住。

这不是官僚主义,而是承认:prompt / tool 的变化就是代码变化。 不做 gate,回归会悄悄上线。

  1. 评测开始为路由服务:这一条请求到底该跑哪一个模型 模型选择正在从“按产品选”变成“按请求选”。因此评测也开始按路由策略的切法来切:
  • 按领域(客服 vs 销售 vs 内部运营),
  • 按风险等级(低风险 vs 高风险),
  • 按延迟与成本预算。

运营层面的结论不再是“模型 A 最好”,而是“在这些约束下,模型 A 对这些请求最好”。

这迫使评测回答更实战的问题:

  • 便宜模型的输出有多大比例能通过下游校验器?
  • 升级/回退的代价是什么(重试、fallback、人工接管)?
  • 哪些失败模式在不同风险档位里是可接受的?

换句话说,评测变成了 策略输入

  1. 评测开始进入预算讨论(每一美元换来多少可靠质量) 一旦进入真实流量,“多 2 分”不再抽象,它有价格。

越来越多团队会计算更经济化的指标,例如:

  • 每次成功完成任务的成本,
  • 每次安全完成的成本,
  • 或者每减少一张支持工单的成本。

这也是为什么评测在组织里越来越靠近财务与运营:业务并不是突然在乎 MMLU,而是在乎 方差:要稳定交付一个可靠结果,到底需要花多少钱?这个成本随时间变化是否可预测?

总体结论:评测正在成为可靠性、成本与风险的“仪表盘层”。 当团队谈“把 agents 做到生产可用”,通常指的就是这种能力:不仅会调用工具,更要能衡量与治理。

现实校验

如果你把评测分数当作“真理”,而不是当作“测量仪表”,你就会构建一个在看板上很好看、但在真实世界里很脆弱的系统。

三个常见陷阱:

  1. 古德哈特定律会来得非常快 一旦分数用于卡发布或决定预算,团队(甚至供应商)就会开始优化分数本身。

如果你的评测集是静态的,你会看到:

  • prompt 过拟合(记住测试形状,而不是学会解决问题),
  • 通过“聪明的拒答”来刷安全分,
  • 只在狭窄场景里提升,但不泛化。

应对:把评测集当成安全测试套件来运营。保留稳定核心,但持续从生产日志里抽样、加入对抗与新鲜案例。

  1. 合成测试覆盖不了真实用户的混乱分布 很多评测用的是干净、结构良好的输入。但真实用户很混乱:模糊请求、上下文不全、指令互相矛盾、带附件、长尾领域、以及各种“表达不标准”。

如果你的评测不包含:

  • 信息不完整,
  • 对抗式措辞,
  • 多轮纠错,
  • 以及“工具现实”(超时、限流、缺字段), 你就会高估鲁棒性。

应对:加入端到端的情景测试,并注入工具故障。让模型证明它能恢复,而不仅仅是能答对。

  1. 只看 pass/fail 会漏掉“静默回归”,必须测行为而不只是结果 两个模型可能都能“完成任务”,但行为差异巨大:
  • 一个会追问澄清,
  • 一个会自信胡编,
  • 一个会把敏感数据写进工具调用,
  • 一个会过度拒答。

只看结果会错过这些能预测事故的细节。

应对:评估行为信号(校准、拒答质量、工具调用合法性、PII 泄露风险),并维护一个随时间监控这些信号的漂移看板。

**结论:**评测之所以运营化,是因为它是管理 agent 舰队的唯一可扩展手段。但正确的心智模型是“测量”,不是“真理”。你的评测系统应该像生产监控一样进化:贴近真实分布、抗作弊、并且以用户所处的混乱现实为基准。


Read in English →