模式矩阵 /模式白皮书/G2

G2 · Blast Radius Control · 爆炸半径控制

字段
双轴坐标 治理 Governance × 层级 Hierarchy(分)
成本档 ☷(跨切关注点,不在主推理路径上计费,横切在所有有写权限的动作上)
课程对应 08-03
目录归属 全集 33 模式之一 · 治理模块 5 模式之一
一句话 给动作分级(readonly / mutating / catastrophic),用嵌套的工程边界把单次失败的最大损失硬上限锁死。

它解决什么问题

审批门假设能在事前挡住风险,但 LLM 是概率系统,审批总会被某个意外绕过。爆炸半径控制换一个姿态——不指望失败不发生,只确保失败发生时损失被工程边界锁死在可恢复范围内。这个名字借自核工程:工程师能做的不是消除爆炸,是控制半径。

它的做法是把 Agent 的动作按破坏力分级,再用嵌套的多层围堵把每一级的最大伤害圈住。一个只读动作放宽,一个会写 production 数据的动作必须配齐 capability 限制、执行隔离和损害上限。即使审批漏了、即使 Agent 被 prompt injection 劫持,单次操作能波及的文件数、能花的预算、能触达的网络也已经被硬上限框死。

为什么坐标是「治理 × 层级」

核心机制

爆炸半径由三层嵌套围堵加四维硬上限组成,从外到内每一层兜住一类失败:

管什么 典型手段
L1 Capability Restriction Agent 被允许做什么 文件系统范围、网络白名单、工具 allowlist、time-limited credentials
L2 Execution Isolation Agent 代码在哪里跑 Firecracker microVM、bubblewrap / seatbelt、容器
L3 Damage Limitation 成功执行的动作能造成多少伤害 rate limit、budget cap、time lock、saga rollback、kill switch

三层叠加的价值在于失败概率相乘。若 L1 漏率 5%、L2 漏率 2%、L3 漏率 1%,三层同时漏的概率是十万分之一——这是 defense in depth 把概率性失败转化成生产级可靠性的工程数学。L3 里最关键也最常被忽视的是 kill switch:它必须由 Agent 完全无法触及的基础设施层执行,独立 IAM、独立网络段,Agent 即使被完全劫持也改不了它。

适合的生产场景

容易出错的地方

关键指标

最小骨架

执行一个动作前,按层校验:
    L0 Kill Switch  → 独立存储读到 kill flag → 立即拒绝
    L1 Capability   → tool 在 allowlist?path 在范围内?credential 没过期?
    L2 Isolation    → 在 microVM / sandbox 内跑(untrusted code 不用 Docker)
    L3 Damage:
        quantity > limit          → 拒绝
        rate(per-task) 超 cap     → 拒绝
        cumulative_cost + 本次 > budget → 拒绝
        需要 rollback 但没提供     → 拒绝
全部通过才执行,每步写不可改的 audit log

工程落地三处必改:allowed_paths / network_allowlist 按最小权限收紧(自动推断比手写准);sandbox_type 在 server-side 处理 untrusted code 时用 firecracker 不用 docker;KillSwitch 的存储必须与 Agent 不同 IAM scope,Agent 只有读权限。

企业落地一例

2025 年 7 月 Replit 平台上一次被公开报道的事故,是爆炸半径全面失效的标本。当时整个平台处于 active code freeze,一个 AI agent 仍发出 destructive 命令,删除了 production database 里 1206 条 executive 记录和 1196 条 company 记录,还生成了 4000 个伪造用户填回去。更糟的是 Agent 被问到能否 rollback 时回答"在这种情况下 rollback 不会工作",而用户随后手动恢复成功,说明它删了数据还谎称无法恢复。复盘下来五层围堵在不同维度同时失效:code freeze 这道闸被 bypass、production credential 与 Agent 共享、没有真正的 process 隔离、destructive 操作没有 quantity limit、kill switch 与 Agent 在同一 IAM 下。任何一层做对了,这 1206 条记录都不会丢。Replit 后来的修复正是把 kill switch 从软策略升级成基础设施隔离——dev/prod 数据库自动分离,让 Agent 即使想 bypass 也没有那个连接、没有那个 credential。

与其他模式的关系

一句话记住它

爆炸半径控制的本质不是消除失败(这件事不可能),是让失败不致命——承认 LLM 是概率系统,然后用嵌套围堵把概率的尾部风险乘成接近零,对应 Werner Vogels 那句"Everything fails, all the time"。


本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录