AI 评估管道:持续验证 vs 生产信任

A minimal abstract illustration of a filter turning a noisy waveform into a steady line.

很多 AI 团队到现在还在用一种“demo 数学”在运转。

一个 prompt 恰好成功一次。 客户点头。 截图发出去。 然后大家默默假设:下周、换一批输入、加上延迟压力、上下文更脏更乱时,系统也会同样表现。

不会的。

信号(The signal)

真正拉开差距的,往往是一些很无聊的东西:

像生产环境一样的评估流水线(evaluation pipelines)。

不是一次性的 benchmark。 不是某个“黄金 prompt”。 不是英雄式 demo。

而是一条流水线。

这意味着你评估的东西要尽可能接近真实:

  • 代表性的任务(用户真的在做的工作)
  • 代表性的输入(丑陋、不完整、现实世界那种)
  • 代表性的约束(延迟、限流、上下文窗口、工具失败)
  • 以及一个你每天都能跑的评分系统

如果你的 eval 不能按计划定时运行,那它就不算 eval。 它只是一个故事。

一条真实的 eval 流水线应该测什么

好的流水线不只是“答案对不对”。

对多数 agent 类产品来说,真正会伤到你的失败模式通常是:

1) 在变化输入下的可靠性 当出现以下情况时系统是否还能稳定:

  • 用户换一种说法
  • 上下文缺失
  • 工具只返回部分数据
  • 任务本身就有歧义

最危险的错误不是显眼的幻觉。 而是看起来很合理的错误。 那种“像对的”并且容易滑过去的。

2) 成果成本(cost-to-outcome) 做一个“聪明”的 agent 很容易。 做一个在预算内依然聪明的 agent 很难。

你的 eval 流水线应该能告诉你:

  • 每个成功任务平均用多少 token
  • 每个成功任务平均调用多少工具
  • 输入越长、越乱时成本怎么变化

如果成本曲线不稳定,产品体验就会不稳定。

3) 信任建立时间(time-to-trust) 信任不是一种感觉。 信任是一种工作流。

你需要衡量系统是否:

  • 展示证据
  • 产出可审阅的结果(diff、引用、trace)
  • 诚实暴露不确定性
  • 让用户可以安全审批

如果 agent 有 80% 的时候是对的,但用户 100% 的时候都得费力核对,用户最终还是会停止使用。

怎么做(不需要一上来就造大山)

你不需要 1 万条样本。 你需要一个闭环。

先从 30–50 个任务开始,覆盖你最核心的用户工作流。 然后搭三层:

第一层:输入样本(fixtures) 保存:

  • 原始输入
  • 期望输出(如果能定义)
  • 以及“可接受输出形态”(当无法定义唯一正确答案时)

对 agent 流程来说,“形态”可能意味着:

  • 是否选择了正确的工具?
  • 是否生成了正确的字段?
  • 是否遵守了某些规则/政策?

第二层:全链路埋点(instrumentation) 记录:

  • 模型版本 + prompt 版本
  • 检索到的上下文
  • 工具调用
  • 中间产物(计划、草稿)

你记录这些不是为了“好奇”。 而是为了让你能在几分钟内定位回归(regression),而不是几天。

第三层:评分 + 发布门禁(scoring + gates) 定义:

  • 通过/失败标准
  • 分数体系
  • 以及预算/延迟上限

然后把它变成不可谈判的制度:

  • 不跑一次,不发布
  • 不改 prompt,不跑一次
  • 不改工具,不跑一次

这就是“prompt 调参”如何变成工程。

现实检验(Reality check)

如果你唯一的评估方式是 demo,你测到的只是氛围(vibes)。

demo 天生是为了说服人:

  • 最好的输入
  • 最干净的上下文
  • 可控的时间
  • 以及一个知道模型犹豫时该怎么救场的人类

而生产环境是为了混乱而生的。

demo 条件与真实条件之间的差距,就是信任死亡的地方。

所以有一个不太舒服的事实:

你真的不知道你的 agent 好不好,直到你能在 eval 流水线里反复地看到它失败——并且能稳定复现。

这不是悲观。 这是你如何把一个“能演示的东西”,变成“值得依赖的东西”。

先把流水线建起来。 然后让模型在这个框架里变好。


Read in English →