AI Signals and Reality Checks

AI 评估管道：持续验证 vs 生产信任

Kaizhi Tang

22 Mar 2026 • 4 min read

很多 AI 团队到现在还在用一种“demo 数学”在运转。

一个 prompt 恰好成功一次。客户点头。截图发出去。然后大家默默假设：下周、换一批输入、加上延迟压力、上下文更脏更乱时，系统也会同样表现。

不会的。

信号（The signal）

真正拉开差距的，往往是一些很无聊的东西：

像生产环境一样的评估流水线（evaluation pipelines）。

不是一次性的 benchmark。不是某个“黄金 prompt”。不是英雄式 demo。

而是一条流水线。

这意味着你评估的东西要尽可能接近真实：

代表性的任务（用户真的在做的工作）
代表性的输入（丑陋、不完整、现实世界那种）
代表性的约束（延迟、限流、上下文窗口、工具失败）
以及一个你每天都能跑的评分系统

如果你的 eval 不能按计划定时运行，那它就不算 eval。它只是一个故事。

一条真实的 eval 流水线应该测什么

好的流水线不只是“答案对不对”。

对多数 agent 类产品来说，真正会伤到你的失败模式通常是：

1) 在变化输入下的可靠性 当出现以下情况时系统是否还能稳定：

用户换一种说法
上下文缺失
工具只返回部分数据
任务本身就有歧义

最危险的错误不是显眼的幻觉。而是看起来很合理的错误。那种“像对的”并且容易滑过去的。

2) 成果成本（cost-to-outcome） 做一个“聪明”的 agent 很容易。做一个在预算内依然聪明的 agent 很难。

你的 eval 流水线应该能告诉你：

每个成功任务平均用多少 token
每个成功任务平均调用多少工具
输入越长、越乱时成本怎么变化

如果成本曲线不稳定，产品体验就会不稳定。

3) 信任建立时间（time-to-trust） 信任不是一种感觉。信任是一种工作流。

你需要衡量系统是否：

展示证据
产出可审阅的结果（diff、引用、trace）
诚实暴露不确定性
让用户可以安全审批

如果 agent 有 80% 的时候是对的，但用户 100% 的时候都得费力核对，用户最终还是会停止使用。

怎么做（不需要一上来就造大山）

你不需要 1 万条样本。你需要一个闭环。

先从 30–50 个任务开始，覆盖你最核心的用户工作流。然后搭三层：

第一层：输入样本（fixtures） 保存：

原始输入
期望输出（如果能定义）
以及“可接受输出形态”（当无法定义唯一正确答案时）

对 agent 流程来说，“形态”可能意味着：

是否选择了正确的工具？
是否生成了正确的字段？
是否遵守了某些规则/政策？

第二层：全链路埋点（instrumentation） 记录：

模型版本 + prompt 版本
检索到的上下文
工具调用
中间产物（计划、草稿）

你记录这些不是为了“好奇”。而是为了让你能在几分钟内定位回归（regression），而不是几天。

第三层：评分 + 发布门禁（scoring + gates） 定义：

通过/失败标准
分数体系
以及预算/延迟上限

然后把它变成不可谈判的制度：

不跑一次，不发布
不改 prompt，不跑一次
不改工具，不跑一次

这就是“prompt 调参”如何变成工程。

现实检验（Reality check）

如果你唯一的评估方式是 demo，你测到的只是氛围（vibes）。

demo 天生是为了说服人：

最好的输入
最干净的上下文
可控的时间
以及一个知道模型犹豫时该怎么救场的人类

而生产环境是为了混乱而生的。

demo 条件与真实条件之间的差距，就是信任死亡的地方。

所以有一个不太舒服的事实：

你真的不知道你的 agent 好不好，直到你能在 eval 流水线里反复地看到它失败——并且能稳定复现。

这不是悲观。这是你如何把一个“能演示的东西”，变成“值得依赖的东西”。

先把流水线建起来。然后让模型在这个框架里变好。

Read in English →