AI 可中断性:控制与自主的边界

A minimal abstract illustration suggesting a pause button and a handoff between an agent and a human.

多数关于“智能体安全”的讨论,仍然停留在:模型可能说错什么

但在真实系统里,更大的风险往往来自:智能体可能做错什么——悄无声息、速度很快、而且可以规模化。

所以,2026 年更值得问的问题是:

你的智能体有多“可中断”(interruptible)?

信号(The signal)

把智能体真正接入工作流的团队,正在收敛到一个新的关键指标:

“中断所需时间”(time-to-interrupt)。

不是“回答速度”。 甚至也不是“完成速度”。

time-to-interrupt 衡量的是:人类能多快做到——

  • 暂停一次运行
  • 看到智能体此刻正在做什么
  • 在不丢上下文的情况下改变方向
  • 批准下一步(或拒绝)
  • 把任务再顺滑地交回给智能体

这种变化会体现在产品选择里:

  1. 暂停/继续成为一等公民功能 如果唯一的控制手段是“全部停止”,人类往往会犹豫到最后一刻才介入。
  2. 实时追踪(trace)变成主界面 运行日志(调用了哪些工具、输入/输出、过程状态)成为产品表面,而不是只给工程师看的调试面板。
  3. 交接边界被明确标记 系统主动划线:
  • “我准备发出一条消息。”
  • “我准备写入生产环境。”
  • “我准备修改合同。”
  1. 安全的中断点(checkpoint) 好的系统会提供可回滚的检查点。 差的系统只让人类在“让它跑”与“杀掉它”之间二选一。

现实校验(Reality check):不能中断,就谈不上控制

一个无法被中途打断的“智能体”,本质上更像是:带聊天窗的自动批处理任务。

它的失败模式也很类似:

  • 范围失控:智能体因为发现相邻工作而不断扩展任务
  • 工具误用:工具选对了,但上下文错了(或前提已经过时)
  • 延迟掩盖风险:长时间运行会把一连串小错积累成大错,直到最后才暴露
  • 静默副作用:系统改变世界的速度比人类察觉的速度更快

不太舒服但很关键的事实是:安全不只是写在 policy 里的条款

安全是:运行中、随时可被人类接管与改写。

一个可落地的设计规则

如果你在做智能体系统,建议用这一条做底线:

每一次“破坏性动作”之前,都必须有一个可中断的时刻。

“破坏性”包括:

  • 给真实的人发送消息
  • 进行任何购买
  • 发布任何内容
  • 部署任何东西
  • 修改持久化数据

而所谓“可中断的时刻”,不能是 200 毫秒闪过的弹窗。

它应该是一个有意识的交接:

  • 将要发生什么
  • 为什么会发生
  • 依据是什么
  • 用户可以改哪些参数/假设

因为最好的安全功能,不是更长的 policy。

而是一个很容易被停下来的系统。


Read in English →