审计成为瓶颈:Agent 治理与可逆性基础设施的创业机会
企业 AI 正在从“模型有多聪明”转向“系统能否被许可、被证明、可回滚”。当 Agent 从 PoC 走向生产、开始发送邮件、改配置、动资金、合并代码时,真正的瓶颈不再是推理能力,而是审计与治理:你是否能证明发生了什么、为什么发生、边界在哪里、出了事如何止损与复原。
Executive summary
- 从智能瓶颈到审计瓶颈:Agent 一旦能“行动”,企业采购与风控的核心问题就变成可追溯、可约束、可逆,而不是更高分的 benchmark。
- 治理缺口正在扩大:大量组织在尝试或扩展 agentic AI,但成熟的自治 Agent 治理体系仍是少数,导致“战略上想上、操作上不敢上”的准备度鸿沟。
- Agent 需要成为一等身份(Identity):非人身份(NHI)快速膨胀,继续用共享 service account 管 Agent 会让审计、归责与应急处置变得不可行。
- 可观测性必须语义化:仅有系统日志不够,需要把“意图/推理(cognitive)—执行(operational)—外部交互(contextual)”三层链路串起来,形成从提示词到工具调用的证据链。
- 下一波机会在“无聊但关键”的基础设施:Policy-as-Code、运行时阻断、MCP 安全代理、Agent Rewind(回滚)与受硬件保护的可信执行环境(TEE)共同构成 Agent 规模化落地的底座。
Key findings / frameworks
1) “审计枢轴”:许可与可逆性成为生产门槛
传统 AI 项目常停留在“输出正确率”与“功能演示”。但 Agent 的风险来自行动的外部性:一次错误的删除、一次越权的查询、一次被提示注入操控的工具调用,都可能直接造成数据泄露、服务中断或资金损失。
因此企业在生产环境需要一套可操作的“四件套”:
- 明确作用域(scope):Agent 允许触达哪些系统、哪些资源、哪些 API/工具。
- 审批与分级(approval):高风险动作必须人类确认;低风险动作可自动执行但可被追责。
- 幂等与限速(idempotency / rate limit):Agent 在重试与长流程中不会重复“扣款/删库/发信”。
- 可逆性(undo):对关键动作提供手术式回滚,而不是灾难性的全量恢复。
2) 非人身份(NHI)爆炸:把 Agent 当“数字员工”来管
在大量企业里,机器身份数量可能远超人类身份。问题不在数量,而在治理方式滞后:
- 共享凭证/服务账号让所有动作“看起来都是同一个人干的”,审计与事件响应直接失效。
- 静态权限导致过度授权;一旦 Agent 被注入或供应链工具被污染,破坏半径急剧扩大。
更合理的方向是建立 Agent-Native IGA(身份治理与管理):
- 每个 Agent 都是被“赞助”的身份:有明确 owner、用途、风险等级与生命周期。
- 采用短期证书/短期令牌(配合 PKI/HSM)与自动轮换,减少长期密钥泄露的常态风险。
- 从“角色优先(role-first)”转向“策略优先(policy-first)”:权限由业务规则与上下文动态推导。
3) 语义可观测性:三层面(cognitive/operational/contextual)打通证据链
对 Agent 来说,“发生了什么”还不够,必须能解释为什么会这么做,并能把推理与工具调用因果关联起来。
一种有效的结构是“三个表面(surfaces)”的遥测:
- 认知表面(Cognitive):提示词、模型输出、结构化标签、置信度/自检信号等,用于复盘意图与决策路径。
- 操作表面(Operational):代码侧方法调用、参数、返回值、耗时与异常,定位执行层的逻辑与状态。
- 上下文表面(Contextual):对外部系统的 API I/O、数据库查询、工具调用与副作用,量化真实影响。
关键不是“把所有东西都记下来”,而是用 schema 把链路串起来:让每次工具调用都能回溯到触发它的模型交互与中间步骤,从而支持合规取证、故障定位与责任划分。
4) Policy-as-Code:从“写政策”到“系统内强制执行”
很多组织的治理停留在文档与培训,但 Agent 的速度与并发会让“事后审计”不堪重负。可扩展的方式是把规则编码:
- 使用 OPA(Rego)或 Cedar 之类的策略引擎,把“允许/禁止/需审批”的条件变成可版本控制的代码。
- 在运行时进行预防式阻断:在动作落地前就拦下越权访问、敏感数据外泄、危险变更。
- 自动生成证据:把策略决策与执行上下文一并写入不可变日志,减少合规人力。
5) “可逆韧性”:Agent Rewind 与事务化回滚成为新护城河
对高风险场景,检测与告警只是下限;上限是分钟级恢复。
- “Agent Rewind”类能力把 Agent 的每一步动作记录成可重放/可撤销的事务。
- 与其让 Agent 直接调用云 API,不如优先生成 IaC(Terraform/Pulumi)或提交变更到 Git:可审阅、可回滚、可追责。
- 进一步的研究方向是“先验可逆性检查”:对不可回滚/可能引发回归的动作,直接在执行前拒绝。
6) MCP 成为“USB-C”,也带来新的攻击面
Model Context Protocol(MCP)降低了工具接入成本,但也引入典型风险:
- 过度能力暴露:一个 MCP server 可能提供数十个高危工具(删除文件、删日志等),一旦 Agent 被提示注入就会“拿到一整套武器库”。
- 动态工具发现:远端新增工具后,Agent 可能在无感知情况下获得新能力,治理边界漂移。
- 认证/授权不一致:共享 token 会让审计归因失真;还可能出现“糊涂的代理人(confused deputy)”。
因此值得押注的形态是 MCP Security Proxy / Guardian:
- OAuth2 / per-user token 代理与作用域裁剪
- 工具 allowlist 与高危动作强制审批
- 参数 schema 校验、防提示注入与输出过滤
- 速率限制与预算(防“Denial of Wallet”)
- 统一遥测与取证日志
7) 硬件级可信:TEE 用于“把钥匙与关键逻辑锁起来”
对金融、医疗、政府等高敏场景,仅靠软件护栏可能不足。TEE(安全飞地)提供:
- 隔离执行与机密计算(数据“使用中”仍加密)
- 远程证明(attestation):对外证明代码未被篡改、运行在可信环境
- 私钥与敏感模型资产封存(sealing)
这类能力适合与身份治理、策略引擎、回滚系统组合成分层防御。
Implications / plays / red flags
对创业者与产品负责人:优先做“能卖给风控与审计的东西”
可落地的机会清单(从近到远):
- Agent-Native IGA:Agent 生命周期、所有者与权限动态编排;把 NHIs 从表格治理升级到系统治理。
- 语义可观测性 + 取证:把 LLM 交互与工具调用绑定,提供“从意图到行动”的证据链与复盘面板。
- 运行时护栏(Guardrails):不仅评测(eval),还要能在生产阻断提示注入、PII 泄露与越权动作。
- 可逆性基础设施:事务日志、检查点、回滚工具;推动“先提交后执行”(Git/IaC-first)。
- MCP 安全网关:把协议层变成控制点,统一认证、授权、审计与限流。
对企业采购方:用“最小自治(least agency)”做分层落地
- 先从低风险、可回滚的流程开始(例如报表生成、知识检索、工单分流)。
- 把高风险动作放入“需审批”路径,并确保每一步都有可追溯链路。
- 将 Agent 当作生产服务:SLO、故障演练、权限审计、密钥轮换、红队测试常态化。
Red flags:看到这些要提高警惕
- 同一 token/账号代表多个 Agent:审计归因失败,事故后无法定位责任与范围。
- 只做离线评测、不做运行时拦截:攻击与越权发生在运行时,eval 很难覆盖真实对抗场景。
- 工具面过宽、动态发现无治理:尤其在 MCP/插件生态里,能力漂移会把系统变成“越用越危险”。
- 不可逆动作缺少护栏:删库、转账、改权限、发布生产代码等必须有硬性限制与回滚预案。
References
- https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
- https://www.deloitte.com/us/en/what-we-do/capabilities/applied-artificial-intelligence/content/state-of-ai-in-the-enterprise.html
- https://securityboulevard.com/2026/02/what-is-access-governance-for-ai-agents/
- https://www.codebridge.tech/articles/from-answers-to-actions-a-practical-governance-blueprint-for-deploying-ai-agents-in-production
- https://arxiv.org/abs/2602.10133
- https://arxiv.org/html/2602.10133v1
- https://www.rubrik.com/insights/ai-issues-take-control-with-rubrik-agent-rewind
- https://research.ibm.com/blog/undo-agent-for-cloud
- https://www.microsoft.com/insidetrack/blog/protecting-ai-conversations-at-microsoft-with-model-context-protocol-security-and-governance/
- https://arxiv.org/html/2511.20920v1
- https://modelcontextprotocol.io/docs/tutorials/security/security_best_practices
- https://www.redhat.com/en/blog/model-context-protocol-mcp-understanding-security-risks-and-controls
- https://www.blackhillsinfosec.com/model-context-protocol/
- https://www.obsidiansecurity.com/blog/security-for-ai-agents
- https://techfundingnews.com/gitguardian-raises-50m-non-human-identity-security/
- https://www.turnkey.com/blog/secure-enclaves-vs-other-tees
- https://phala.com/learn/What-Is-TEE