模式矩阵 /模式白皮书/R3

R3 · Parallel Exploration · 并行探索

字段
双轴坐标 推理 Reasoning × 并行 Parallel(撒)
成本档 ③(5-10× 单次调用)
课程对应 04-04(课程 28 讲版独立成讲)
目录归属 全集 33 模式之一 · 推理模块 5 模式之一
一句话 同一个查询内故意启动 N 条独立推理链,再用聚合策略合成单一答案,用算力换准确度。

它解决什么问题

单条推理链有"侥幸偏差":同一个提示、同一个模型,不同采样得到的答案不一定一致。一条链刚好走偏,整个结论就错了,而且每一步看上去都对——错误藏在"这一次恰好没抓到的那个特征"里,事后复盘很难发现。

并行探索把"赌一条链"换成"同时跑 N 条独立的链,再合并"。它不追求降低单次成本,而是在错误代价远大于算力代价的场景里,用 3-5 倍的算力把准确度抬上去。它和复杂度路由(R2)是一对互补姿态:路由负责日常省钱,并行负责关键决策买质量,两者在同一个 Agent 里并存。

为什么坐标是「推理 × 并行」

核心机制

一次并行探索由三段组成:

  1. 分发:把同一个查询复制成 N 条分支,通过提示扰动(不同 temperature、可能不同的 system prompt 或模型)制造多样性。N 的工业甜区是 2-5:研究数据显示 N=2 已能拿到 N=10 约 90% 的收益,N=10 在生产里几乎找不到划算的场景。
  2. 隔离执行:每条分支跑在独立的执行环境里(独立的模型客户端、独立的中间状态、独立的错误恢复)。分支之间串扰会让"独立采样"退化成"链式错误传染",准确度不升反降。
  3. 聚合:用一种聚合策略把 N 个结果合成一个。聚合策略不是只有"多数投票"一种——它本质上是对错误代价的工程化编码

聚合策略的选择取决于业务"错的代价分布":

聚合策略 适用场景
多数投票 Majority 答案可枚举、错误代价对称(数学、分类)
加权投票 Weighted 不同分支可信度不同(不同模型 / 不同算力档)
评委裁定 Verifier 开放式答案(写作、代码、规划)
第一个达标 First-Correct 有明确成功判据(测试驱动)
任一警报即升级 Any-Alarm 高风险且错误代价不对称(医疗、金融、安全)

适合的生产场景

容易出错的地方

关键指标

最小骨架

对 query 复制 N 条分支:
    每条分支 → 独立运行时 → 不同 temperature 采样 → (answer, confidence)
聚合(N 个结果, 策略):
    Majority   → 票数最多的答案
    Weighted   → 按 confidence 加权后最高的答案
    Verifier   → 交给独立评委模型打分裁定
    Any-Alarm  → 任一分支命中高风险标签即升级,无视多数
返回 final_answer + 完整分支 trace(每路答案/置信度/聚合策略/最终决策)

工程落地四个要点:提示扰动要真正制造多样性;评委若用模型实现要用便宜模型;并发要复用连接池避免限流;Any-Alarm 与早终止互斥要在代码里写死。

企业落地一例

某三甲医院的医疗影像辅助 Agent,第一版单链推理读 CT 标记肺结节,准确率 89% 即上线试点。一例 12mm 结节被判低度疑似,三个月后确诊为肺腺癌早期——单链恰好没抓到边缘毛刺征。重写后改为 N=5 并行采样,5 路里 2 路抓到了毛刺和胸膜凹陷;团队把聚合策略从多数投票改成"任一路 ≥ 4a 立即触发二审",准确率升到 96.2%,算力上升 4.1 倍。在医疗这种错误代价极不对称的场景,5 倍算力换 7 个百分点准确度,这笔账完全划算。配套的工程决策还包括:每路独立运行时(合规要求真独立采样)、Any-Alarm 场景不开早终止、N 路完整 trace 留档 7 年备监管审计。

与其他模式的关系

一句话记住它

并行探索的本质不是"多采几次投票",而是用聚合策略把业务对错误的容忍模式编码进系统——选哪种聚合,就是在选一个代价函数。


本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录