AI 自主性 SLO:智能体运维指标
AI 信号与现实校验(2026 年 2 月 20 日)
今日信号
“自治(autonomy)”正在像可用性一样被定价与边界化:团队开始建立自治预算,并把它当作一种 SLO 来运营。
一年前,“agent 自治”更多是一种氛围:让它多做点事。
当 agent 真正接入业务系统(工单、退款、部署、外呼、改日历、供应商下单)之后,自治开始被用我们熟悉的生产运维方式管理:
- 先定义哪些动作允许发生,
- 再衡量发生频率与质量,
- 限制爆炸半径(blast radius),
- 只有在证据充分时才逐步放权。
现在越来越多团队在做的,其实是一套类似 SRE 的闭环:
1)自治分层(能力等级)
- 0 级:只起草,不执行
- 1 级:执行低风险动作(建工单、排会议)
- 2 级:执行涉及金钱/时间影响的动作(发放补偿、补货)
- 3 级:执行系统性影响动作(配置、部署、策略更新)
2)预算(频率 + 范围)
- “每个工作区每天最多 20 次自动执行”
- “每天最多发放 $200 的补偿/credit”
- “每天最多 3 封外部邮件(除非白名单)”
- “生产环境每小时最多 1 次变更”
3)目标(类似 SLO 的指标)
- “≥ 99% 的 agent 动作不需要人工纠正”
- “≤ 0.5% 的动作触发回滚(rollback)”
- “人工接管的中位耗时 < 60 秒”
4)燃烧告警(自治预算燃烧率)
- 一旦预算消耗速度异常,系统自动降级/限流自治能力。
你可以叫它护栏、策略、治理——但形状已经很清晰:自治变成一个可运营的“动作边界(operational envelope)”。
现实校验
仅有“计数型预算”并不能防事故;预算必须与回滚机制和成本核算绑定,否则自治会“悄悄爬坡”,直到变成一次“看起来很帮忙”的失控事件。
团队在落地自治预算时,常见三种失败模式:
1)没有真实回滚,只有“事后道歉”。 如果 agent 能在 5 个工具里制造连锁改动,但你的应对只是“通知人工”,那你并没有真正限制风险——你只是提高了可观测性。
预算要真正有效,必须做到:动作能多快执行,就能多快逆转/补偿,例如:
- 撤销/补偿交易(compensating transactions)
- 回滚配置 diff
- 取消外发
- 恢复文档前一版本
- 隔离下游影响
2)没有成本模型,预算就会变成摆设。 很多团队会设定“每天最多 20 个动作”,却没有区分:
- 发一条 Slack 消息的动作,
- 触发一次昂贵工作流的动作,
- 修改生产配置的动作。
如果预算不能映射到真实成本与爆炸半径,它就会变成“透明度表演”。
一个可行做法是给每个工具/动作附上风险权重(risk weight):
- 低:可逆、内部、无金钱
- 中:外部沟通、用户可见改动
- 高:金钱、生产环境、合规相关
于是预算就不是“20 个动作”,而是**“20 个风险点(risk points)”。**
3)没有真正可用的人工接管路径。 在真实运营里,人不需要一份 PDF 策略文档。 他们需要:
- 一个“一键暂停自治”的总开关,
- 每个高风险工具的 kill switch,
- 以及 agent 卡住时的明确升级/处理流程。
如果接管需要三层审批和一张 Jira 工单,那么在大家等待的过程中,agent 仍然会继续行动。
二阶推演
自治 SLO 会逼出一个新的产品原语:把“可安全运行(safe-to-run)”变成一等状态。
当你同时具备预算 + 回滚 + 核算之后,就可以对外呈现比“信任徽章”更有用的东西。
一个成熟的 agent 系统,应该能展示类似这样的紧凑状态:
- 可安全运行:2 级(补偿 + 排程)
- 剩余预算: 6/20 风险点(14 小时后重置)
- 回滚就绪度: 5 个工具里 4 个可逆
- 最近一次事故: 12 天前(原因:客户记录歧义)
这会带来两个改变:
- 用户可以在不读“宣言”的情况下,判断是否要进一步放权。
- 供应商将不得不在“运维纪律”上竞争:可逆性、可审计性、人工接管时延。
未来 24–72 小时观察点
- agent 平台是否会推出标准化的“自治预算对象”(等级、点数、燃烧率),并能跨工具使用?
- 风险加权预算会不会逐步替代“纯动作计数”?
- 产品团队会不会像公布 uptime 一样,开始公布“回滚覆盖率”?
参考
- SRE 的 error budget 思维(自治预算与之同构):https://sre.google/sre-book/embracing-risk/
- AWS Well-Architected(变更管理/运维卓越原则,对 agent 同样关键):https://docs.aws.amazon.com/wellarchitected/latest/framework/welcome.html
- OpenTelemetry 概念(为自治燃烧率告警提供底层遥测):https://opentelemetry.io/docs/concepts/