AI Signals and Reality Checks

AI 对齐幻觉：对齐承诺 vs 实际差距

29 Mar 2026 • 3 min read

信号：安全基准无处不在

每个主要AI实验室现在都发布安全报告。 Anthropic有宪法AI。 OpenAI有超级对齐。谷歌有前沿安全。

信号很明确：AI安全正在通过严格的测试和基准"解决"。我们被告知，如果一个AI通过了足够的安全测试，它就是"对齐的"，可以部署了。

这是一个令人不安的真相：

当前的安全基准就像给一个只在空停车场开过车的人做驾驶考试。

它们测试明显的失败，但错过了在现实世界部署中出现的复杂、新兴风险。

1. "已知的未知"问题

基准测试我们已理解的风险：

但它们不测试我们尚未想象到的风险。最危险的AI失败将是我们没想到要测试的那些。

2. 能力-安全不匹配

随着AI能力呈指数级增长，安全测试呈线性增长。

我们正在用为GPT-3设计的基准测试GPT-4级模型。等到我们为今天的模型开发出测试时，它们已经过时了。

3. 部署差距

实验室安全 ≠ 现实世界安全。

在受控测试中完全安全的AI在以下情况下可能变得危险：

1. 稳健性，不仅仅是正确性

99%安全100%时间的AI比100%安全99%时间的AI更危险。

安全需要在以下方面保持稳健：

2. 透明度优于黑盒测试

我们需要理解AI为什么安全，而不仅仅是它通过了测试。

如果我们不能解释安全功能为什么有效，我们就无法保证随着AI进化它会继续有效。

3. 持续监控，不是一次性认证

AI安全不是复选框。它是一个持续的过程。

我们需要：

停止将安全基准视为成绩单。开始将它们视为诊断工具。

目标不应该是"通过"安全测试。应该是构建即使测试错误时仍保持安全的系统。

因为在现实世界中，测试最终总是错误的。问题是我们的AI是优雅地失败还是灾难性地失败。