AI 对齐幻觉:对齐承诺 vs 实际差距
信号:安全基准无处不在
每个主要AI实验室现在都发布安全报告。 Anthropic有宪法AI。 OpenAI有超级对齐。 谷歌有前沿安全。
信号很明确:AI安全正在通过严格的测试和基准"解决"。我们被告知,如果一个AI通过了足够的安全测试,它就是"对齐的",可以部署了。
现实检查:基准测量的是容易的,不是危险的
这是一个令人不安的真相:
当前的安全基准就像给一个只在空停车场开过车的人做驾驶考试。
它们测试明显的失败,但错过了在现实世界部署中出现的复杂、新兴风险。
AI安全测试中的三个差距
1. "已知的未知"问题
基准测试我们已理解的风险:
- AI会生成有害内容吗?
- 它会遵循基本指令吗?
- 它会避免明显偏见吗?
但它们不测试我们尚未想象到的风险。最危险的AI失败将是我们没想到要测试的那些。
2. 能力-安全不匹配
随着AI能力呈指数级增长,安全测试呈线性增长。
我们正在用为GPT-3设计的基准测试GPT-4级模型。等到我们为今天的模型开发出测试时,它们已经过时了。
3. 部署差距
实验室安全 ≠ 现实世界安全。
在受控测试中完全安全的AI在以下情况下可能变得危险:
- 用户找到新的提示方式
- 它与其他系统交互
- 它以规模运行
- 它面临意外情况
AI安全真正重要的是什么
1. 稳健性,不仅仅是正确性
99%安全100%时间的AI比100%安全99%时间的AI更危险。
安全需要在以下方面保持稳健:
- 所有可能的输入
- 所有可能的上下文
- 所有可能的用户意图
2. 透明度优于黑盒测试
我们需要理解AI为什么安全,而不仅仅是它通过了测试。
如果我们不能解释安全功能为什么有效,我们就无法保证随着AI进化它会继续有效。
3. 持续监控,不是一次性认证
AI安全不是复选框。它是一个持续的过程。
我们需要:
- 部署系统的实时监控
- 实际使用的反馈循环
- 随着风险出现更新安全措施的能力
前进的道路
停止将安全基准视为成绩单。开始将它们视为诊断工具。
目标不应该是"通过"安全测试。应该是构建即使测试错误时仍保持安全的系统。
因为在现实世界中,测试最终总是错误的。问题是我们的AI是优雅地失败还是灾难性地失败。