上下文正在成为预算

Minimal editorial illustration of stacked evaluation-style cards and a small dashboard with score bars connected to trace nodes
AI Signals & Reality Checks — Feb 27, 2026

AI Signals & Reality Checks(2026 年 2 月 27 日)

信号

“上下文(context)”正在变成一条明确的预算线。真正的问题不再是“塞不塞得下”,而是“每多一个 token 到底值不值?”

更大的上下文窗口确实改变了第一层约束(能塞进提示词里的东西更多了),但它同时带来第二层问题:token 经济学。当系统进入真实流量后,“永远把所有东西都带上”与“只带必要信息”的差异,会直接体现在账单上,也会直接体现在延迟曲线上。

因此,领先团队开始像十年前做云成本治理一样,建设一套“context ops”。四个模式越来越常见:

  1. 提示词与上下文缓存成为一等公民 如果系统模板与工具 schema 相对稳定,而同一用户的最近 N 轮对话在重试与续写中高度重复,那么每次都全额付费是一种浪费。

于是你会看到:

  • 对稳定提示片段做服务端缓存(cache key),
  • “热会话(warm session)”复用预处理/预 token 化的上下文,
  • 以及把提示组装当成“渲染”来做:算一次,复用多次。

当上下文变大时,缓存不再是微优化,而是决定“这个功能是否可行”的硬条件。

  1. 检索门控(retrieval gating):文档更少,但选择更刻意 早期 RAG 往往倾向于“多取一点”(把 top 20 chunk 都塞进去)。现在检索层变得更挑剔。

团队开始上线:

  • 查询分类器(这个问题到底需不需要检索?),
  • 域路由(只搜政策 wiki,不扫全库),
  • 以及预算感知的重排序/筛选(你只能拿 6 段,就挑最有价值的 6 段)。

目标不只是准确率,而是 单位 token 的边际效用:哪一段最能降低不确定性?

  1. 提示压缩与“摘要栈(summary stack)” 当对话与任务跑得更长,系统开始采用多层记忆:
  • 当前步骤的短“工作集(working set)”,
  • 会话级的滚动摘要,
  • 以及保存原始材料的冷存储。

与其假设模型应该看到全部,不如把模型当成 CPU 的缓存层级:L1 很小很快,L2 是摘要化的,磁盘里保存原始真相。

  1. 模型路由变成财务决策 当你同时拥有多种模型(快/便宜 vs 慢/强),路由不再只是准确率选择。

越来越标准的策略是:

  • 简单任务先用便宜模型,
  • 不确定性高时再升级,
  • 对高风险动作(支付、权限、合规)默认走更强模型。

换句话说:你不会每个请求都买最好的 GPU;你会调度。

总体结论:上下文正在成为一种被管理的资源——可计量、可缓存、可路由、可审计。 能把上下文支出控住的团队,才能提供稳定的定价、可预测的延迟、以及更一致的质量。

现实校验

如果你只优化 token 数量,而不衡量“结果”,你买到的往往是错误的效率:用量下降,但失败率上升,事件更吓人。

三个常见翻车方式:

  1. 你可以通过“删掉护栏”来省 token 缩小上下文最简单的方法,就是删除系统指令、工具约束、以及安全/政策文本。

短期看起来有效——直到它失效。

更典型的现象是渐进式的:系统更“发散”、约束更弱;工具调用更不稳定;边界条件频繁爆雷;团队误以为是模型漂移,实际上是 prompt 漂移

应对:把护栏当作不可谈判的核心上下文;并衡量失败形态(错误工具调用、政策违规、不安全输出),而不是只看平均质量。

  1. 压缩会丢掉你之后真正需要的事实 摘要是有损的。如果摘要栈丢掉了身份、日期、例外条款、或者“为什么这么决定”,系统后面就可能非常自信地做错事。

常见反模式:

  • 摘要保留结论但丢掉证据,
  • 为可读性写摘要而非为可检索性写摘要,
  • 用同一个摘要去服务混合任务。

应对:保留原始材料;生成结构化记忆(实体、决策、约束);把“回忆测试”加入评测套件(例如“关键约束是否被保留?”)。

  1. 省下的成本常常以延迟与复杂度的形式“补回来” 预算感知的流水线会增加部件:路由、缓存、重排、回退。

每一项都合理,但叠加后系统可能变得:

  • 更难排障(为什么选了这段?),
  • 更难做安全(数据流经更多地方),
  • 在尾延迟上更差(cache miss、重试、更多跳数)。

应对:全链路打点——token 使用、缓存命中率、检索命中率、升级频率、尾延迟;当路由选择与事故相关时要做复盘。

**结论:**更大的窗口并没有消除上下文纪律的必要性,反而让它在经济上变成必需品。最终胜出的不会是“上下文最大”的团队,而是能证明“哪些上下文值得付费”,并且在不牺牲可靠性与安全性的前提下做到这一点的团队。


Read in English →