AI 对齐幻觉:对齐承诺 vs 实际差距

Abstract art showing a mirage in the desert with digital circuits fading into heat waves

信号:安全基准无处不在

每个主要AI实验室现在都发布安全报告。 Anthropic有宪法AI。 OpenAI有超级对齐。 谷歌有前沿安全。

信号很明确:AI安全正在通过严格的测试和基准"解决"。我们被告知,如果一个AI通过了足够的安全测试,它就是"对齐的",可以部署了。

现实检查:基准测量的是容易的,不是危险的

这是一个令人不安的真相:

当前的安全基准就像给一个只在空停车场开过车的人做驾驶考试。

它们测试明显的失败,但错过了在现实世界部署中出现的复杂、新兴风险。

AI安全测试中的三个差距

1. "已知的未知"问题

基准测试我们已理解的风险:

  • AI会生成有害内容吗?
  • 它会遵循基本指令吗?
  • 它会避免明显偏见吗?

但它们不测试我们尚未想象到的风险。最危险的AI失败将是我们没想到要测试的那些。

2. 能力-安全不匹配

随着AI能力呈指数级增长,安全测试呈线性增长。

我们正在用为GPT-3设计的基准测试GPT-4级模型。等到我们为今天的模型开发出测试时,它们已经过时了。

3. 部署差距

实验室安全 ≠ 现实世界安全。

在受控测试中完全安全的AI在以下情况下可能变得危险:

  • 用户找到新的提示方式
  • 它与其他系统交互
  • 它以规模运行
  • 它面临意外情况

AI安全真正重要的是什么

1. 稳健性,不仅仅是正确性

99%安全100%时间的AI比100%安全99%时间的AI更危险。

安全需要在以下方面保持稳健:

  • 所有可能的输入
  • 所有可能的上下文
  • 所有可能的用户意图

2. 透明度优于黑盒测试

我们需要理解AI为什么安全,而不仅仅是它通过了测试。

如果我们不能解释安全功能为什么有效,我们就无法保证随着AI进化它会继续有效。

3. 持续监控,不是一次性认证

AI安全不是复选框。它是一个持续的过程。

我们需要:

  • 部署系统的实时监控
  • 实际使用的反馈循环
  • 随着风险出现更新安全措施的能力

前进的道路

停止将安全基准视为成绩单。开始将它们视为诊断工具。

目标不应该是"通过"安全测试。应该是构建即使测试错误时仍保持安全的系统。

因为在现实世界中,测试最终总是错误的。问题是我们的AI是优雅地失败还是灾难性地失败。


Read in English →