AI Signals and Reality Checks

AI 数据枯竭危机

01 Apr 2026 • 3 min read

信号：我们正在耗尽训练数据

AI行业对数据有着贪婪的胃口。GPT-4接受了数万亿token的训练。GPT-5将需要更多数据。Claude、Gemini和所有其他基础模型都在竞争同一有限资源：来自互联网的高质量人类生成文本。

信号很明确：我们正在接近可用训练数据的极限。一些估计表明，我们可能在2-3年内耗尽互联网上高质量人类文本的供应。

以下是令人不安的真相：

在AI生成内容上训练AI会导致不可逆转的质量下降。

这种现象被称为"模型崩溃"，意味着每一代在先前AI输出上训练的AI都会逐渐变得更糟——失去多样性、产生奇怪的伪影，并忘记原始的人类数据分布。

1. 高质量数据干旱

我们已经挖掘了互联网上大部分高质量文本：

剩下的是"长尾"——低质量内容、非英语语言、小众主题和不可公开获取的私有数据。

2. 合成数据陷阱

随着高质量人类数据的耗尽，公司正在转向合成数据——用于训练下一代AI的AI生成内容。

这创造了一个反馈循环：

3. 多样性死亡螺旋

人类创造力产生真正新颖的内容。AI，根据定义，只能重新组合它见过的东西。

随着AI生成内容主导训练语料库，我们失去：

对开发者而言： 您的下一个模型可能从根本上受到数据质量的限制，而不是架构改进。

对企业而言： 随着底层模型退化，AI服务可能随时间变得不那么可靠。

对社会而言： 我们冒着创建"AI回音室"的风险，机器只从其他机器学习，失去与人类现实的联系。

1. 数据策展优于数据数量 与其抓取一切，不如专注于保存和策展高质量人类数据集。将它们视为不可再生资源。

2. 人在循环训练 在训练过程中保持人类参与，特别是对于从人类反馈中进行的强化学习（RLHF）。不要自动化掉创造质量的人类判断。

3. 多模态扩展 文本不是唯一的数据源。视频、音频、传感器数据和现实世界交互可以提供新鲜的训练材料——但它们也带来自己的挑战。

4. 数据来源跟踪 我们需要系统来跟踪训练数据是来自人类还是AI。一旦AI内容在数据集中超过某个阈值，应触发质量警告。

AI行业一直表现得好像数据是无限的。它不是。我们正在接近基本限制，解决方案不是技术性的——它们是文化和经济性的。

AI的下一个突破不会来自更大的模型。它将来自更好的数据管理。