模式矩阵 /模式白皮书/R2

R2 · Complexity-Based Routing · 复杂度路由

字段
双轴坐标 推理 Reasoning × 路由 Route(选)
成本档 ②(路由判断本身很便宜,整体账单通常降 50-70%)
课程对应 04-03
目录归属 全集 33 模式之一 · 推理模块 5 模式之一
一句话 在查询进入主循环之前按复杂度信号选模型加 effort 档位,让简单查询走便宜模型、复杂查询才用贵模型,用分流换账单。

它解决什么问题

把最贵最强的模型当默认选项用,是 2026 年 Agent 工业最常见的浪费。GPT-4o 和 GPT-4o-mini 之间价差 16 倍,Opus 和 Haiku 之间也接近这个量级。如果一个 Agent 把所有查询都路由到最贵的模型,而其中一大半其实是模板填空级的简单任务,那这部分账单就是纯冤枉钱。

复杂度路由把"全用贵模型"换成"按需分流"。它的前提是真实流量里易例多、难例少——简单查询占大头,复杂查询是少数。把简单查询路由到便宜模型,把贵模型留给真正需要的复杂查询,账单立刻砍掉一大半,质量基本不损失。行业数据显示做对路由的团队普遍能拿到 47% 到 80% 的成本下降。它和并行探索(R3)是一对互补姿态:路由负责日常省钱,并行负责关键决策买质量,两者在同一个 Agent 里并存。

为什么坐标是「推理 × 路由」

核心机制

一次复杂度路由由三段组成:

  1. 提取信号 + 分类:从查询里提取复杂度信号(长度、关键词、领域、历史成功率),交给一个 classifier 判定走哪一档。Classifier 本身要用便宜模型或规则做,决策成本控制在整体的 5% 以内——不能上来就调贵模型做路由判断。
  2. 分档执行:常见是三档(Cheap / Medium / Expensive),各档共用同一套调用接口,只切模型名字。路由不只是选模型,还要选模型的 effort 档位,两个维度组合。
  3. 升档兜底:便宜档答完后检测结果是否可信(置信度、schema、长度),不达标就升档重试。升档链必须有硬上限(通常 3 档),到顶还不行就报错或转人工——任何 escalation 链都要熔断。

2026 年路由工业分裂成三条路线,决定团队怎么选:

路线 形态 取舍
模型层内化 模型自己决定走快路径还是慢路径 省事,但黑盒 + 单厂商绑定
Harness 显式做 应用层自己写 classifier + fallback 工程量大,但可 log、可审计、可多厂商
第三方 router 服务 调中间层 API 自动分发 接口最简单,但多一层依赖 + 数据过第三方

严肃的生产 Agent 一般走 Harness 显式路线,因为成本控制是产品经济学的核心,把这个权力交给模型厂商或第三方都是放弃 control。PoC 和小项目可以用另两条。

适合的生产场景

容易出错的地方

关键指标

最小骨架

查询进来 → 提取复杂度信号(长度 / 关键词 / 领域 / 历史)
classifier(便宜模型或规则)→ 选定档位 + 置信度
高风险查询(财务 / 隐私 / 合规)→ 强制最贵档,跳过分流
执行:
    便宜档跑 → 结果可接受?→ 返回
              不可接受 → 升档(schema 校验 + 成本估算)
    升档链有硬上限(如 3 档),到顶仍不行 → 报错 / 转人工
每次路由决策打 trace(查询摘要 / 档位 / 信号 / 置信度 / 实际成本 / 是否升档)

落地四个要点:classifier 用便宜模型替代纯规则;acceptable 校验做 schema-aware;fallback 链加成本上限避免极端 case 爆炸;定期把反复升档的查询类型直接默认到高档,省去重复升档开销。

企业落地一例

某中型 SaaS 公司的内部数据分析 Agent,让产品、增长、财务团队用自然语言查 BI 数据。第一版默认全用最贵的模型("反正最强免得出错"),上线三个月后财务收到一张 48 万的月账单。团队拆开流量一看:41% 的查询是 SQL 模板填空("上周注册用户数"),22% 是加个分组("按地区分组的留存曲线"),真正需要多步归因的复杂查询只占 19%,需要因果建模的只占 4%。把模板填空类查询喂给最贵模型,等于花 15 倍冤枉钱。

重写时做了六个关键决策:三档分流加一档兜底(便宜档跑模板填空、中档跑分组、贵档跑归因、顶档跑因果建模);classifier 用规则加便宜模型双轨(80% 走规则、20% 走便宜模型,路由成本压到每月 200 元以内);升档时先估算总成本避免升了反而更贵;财务、隐私、合规三类高风险查询强制走最贵档;每次路由决策全量 trace、每周生成 health report;每 30 天把反复升档的查询类型直接默认到高档。三周后账单从 48 万降到 12 万,错误率维持在 0.5% 以内,p99 延迟也下降了。

与其他模式的关系

一句话记住它

复杂度路由的本质不是"看查询选模型",而是把 token、延迟、质量三个变量做成 Pareto 前沿,按业务 SLA 在曲线上选具体的点——这是产品经济学的工作,不是模型调参的工作。


本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录