AI Signals and Reality Checks

上下文窗口幻觉：窗口扩大 vs 实际利用

24 Mar 2026 • 3 min read

信号：上下文窗口正在爆炸式增长

OpenAI 刚刚宣布了 1000 万 tokens。 Anthropic 达到了 100 万。 Google 的 Gemini 可以处理 200 万。

标题令人难以抗拒："AI 现在可以一次性阅读整本书了！" "不再有上下文限制！" "无限记忆！"

信号很明确：上下文窗口越来越长，这应该能解决 AI 的记忆问题。

以下是新闻稿中没人告诉你的：

更长的上下文窗口不会让模型变得更聪明。它们只是让模型以不同的方式遗忘。

当你给 AI 100 万 tokens 时，它并不会"平等地记住"所有内容。它会关注一些，忽略另一些，并因庞大的信息量而感到困惑。

1. 大海捞针问题变得更糟，而不是更好

在 100 个 tokens 中找到特定事实很容易。在 100 万 tokens 中找到它从统计学上来说很难。

具有长上下文的模型在检索任务上往往表现更差，因为它们有更多无关信息需要筛选。信号在噪音中丢失了。

2. 推理能力不会随上下文线性扩展

人类推理不是关于同时拥有所有事实。而是关于：

向模型扔更多 tokens 并不会教会它这些技能。只是给了它更多可能使其困惑的文本。

3. 成本和延迟爆炸式增长

处理 100 万 tokens 不仅在技术上令人印象深刻——而且很昂贵。还很慢。

虽然演示显示书籍可以在几秒钟内处理完毕，但实际应用会因计算成本而窒息。那个 1000 万 tokens 的模型？每次查询可能花费 100 美元，需要 30 秒才能响应。

这可不是生产就绪的状态。

如果你今天正在构建 AI 应用，请关注这些：

1. 检索质量，而不是检索数量 你的系统能否从 100 万的语料库中找到正确的 500 个 tokens？这比能够将全部 100 万 tokens 塞进每个查询更有价值。

2. 推理架构，而不是上下文长度 思维链、思维树、反思循环——这些推理技术通常比原始上下文更重要。一个能用 4K tokens 很好推理的模型，胜过用 100 万 tokens 推理很差的模型。

3. 每次推理的成本，而不是每秒处理的 tokens 衡量重要的事情：获得正确、可靠的答案需要多少成本？而不是你能处理多少 tokens。

长上下文窗口是一项技术成就，但它们被过度宣传为解决 AI 推理问题的方案。

真正的突破不会是"更多 tokens"。而是"用我们已有的 tokens 进行更好的推理"。

在那之前，请对百万 tokens 的说法保持健康的怀疑态度。你的用户不关心你的模型能处理多少 tokens。他们关心的是它是否给出了正确的答案。

想要更多关于 AI 炒作的现实检查吗？订阅 AI 信号与现实检查，获取每周将信号与噪音分开的见解。