R3 · Parallel Exploration · 并行探索

同一个查询内故意启动 N 条独立推理链，再用聚合策略合成单一答案，用算力换准确度。

版本: v0.3
状态: 公开评审稿
发布日期: 2026-07-13
分类: 推理 Reasoning × 并行 Parallel（撒）
目录地位: 核心模式
许可: CC BY 4.0

文档状态：本页为公开评审稿。模式定义与分类可供讨论和引用；未附来源链接的数字与应用示例只用于说明机制，不作为行业基准。

坐标	推理 Reasoning × 并行 Parallel（撒）
成本	高（5-10× 单次调用）
模式组	推理模式
模式简介	同一个查询内故意启动 N 条独立推理链，再用聚合策略合成单一答案，用算力换准确度。

问题

单条推理链有"侥幸偏差"：同一个提示、同一个模型，不同采样得到的答案不一定一致。一条链刚好走偏，整个结论就错了，而且每一步看上去都对——错误藏在"这一次恰好没抓到的那个特征"里，事后复盘很难发现。

并行探索把"赌一条链"换成"同时跑 N 条独立的链，再合并"。它不追求降低单次成本，而是在错误代价远大于算力代价的场景里，用 3-5 倍的算力把准确度抬上去。它和复杂度路由（R2）互补：路由负责日常省钱，并行负责关键决策买质量，两者在同一个 Agent 里并存。

分类依据：推理 × 并行

纵轴 · 推理：并行的实体是同一个推理任务的多条候选路径（多个 candidate solution），属于推理策略层，而不是把任务拆给多个 Agent。这是它和协作模块"扇出聚合（C2）"的根本区别——后者并行的是子任务，前者并行的是同一道题的多个解法。
横轴 · 并行：N 条分支同时跑、互不知情，最后统一聚合，是天然的并行结构，不是链式串联，也不是循环迭代。

解决方案与机制

一次并行探索由三段组成：

分发：把同一个查询复制成 N 条分支，通过提示扰动（不同 temperature、可能不同的 system prompt 或模型）制造多样性。N 的工业甜区是 2-5：研究数据显示 N=2 已能拿到 N=10 约 90% 的收益，N=10 在生产里几乎找不到划算的场景。
隔离执行：每条分支跑在独立的执行环境里（独立的模型客户端、独立的中间状态、独立的错误恢复）。分支之间串扰会让"独立采样"退化成"链式错误传染"，准确度不升反降。
聚合：用一种聚合策略把 N 个结果合成一个。聚合策略不是只有"多数投票"一种——它本质上是对错误代价的工程化编码。

聚合策略的选择取决于业务"错的代价分布"：

聚合策略	适用场景
多数投票 Majority	答案可枚举、错误代价对称（数学、分类）
加权投票 Weighted	不同分支可信度不同（不同模型 / 不同算力档）
评委裁定 Verifier	开放式答案（写作、代码、规划）
第一个达标 First-Correct	有明确成功判据（测试驱动）
任一警报即升级 Any-Alarm	高风险且错误代价不对称（医疗、金融、安全）

适用条件

高风险、错误代价不对称的判断：医疗影像分诊、金融风控、反洗钱、安全漏洞审查。这类场景"漏判"远比"误判"贵，配合 Any-Alarm 聚合即可把不对称代价表达进系统。
答案空间大、单链不稳的推理：复杂诊断、多跳推理、需要 self-consistency 提升可靠性的任务。
关键的一次性决策：值得花 N 倍算力换确定性的节点（如不可逆的业务承诺前的最终复核）。

已知失效方式

分支不独立：N 条分支共享执行环境，相互污染缓冲区或 retry，"伪独立"导致准确度反降。必须给每条分支独立的运行时。
提示扰动不足：N 条都跑出几乎一样的答案，有效分支数塌成 1，白白浪费 N-1 倍算力。temperature 太低、缺少 system prompt 多样性是主因。
盲目默认多数投票：在错误代价不对称的场景用 Majority，会把少数分支的真实警报投没——医疗里这等于漏诊。
该收齐却早终止：Any-Alarm 必须等所有分支返回，不能用"高置信度早终止"省钱，否则会漏掉警报信号。早终止只适用于对称代价场景。
滥用并行：简单任务、低风险任务、便宜模型已经够用的任务跑 N=5 就是纯浪费。

验证指标

分支一致率（健康区 60-80%）：低于 50% 说明任务确实复杂、适合并行；高于 90% 说明任务太简单、不该并行。
有效 N（健康区接近 N）：N 条里产生不同答案的分支数。N=5 但只有 2 种答案，说明扰动不够，加 N 不如改提示多样性。这是性价比最直接的信号。
聚合成本占比（健康区 <15%）：聚合这一步本身的算力占总成本的比例，过高就换更轻的聚合策略。
质量提升（健康区 5-15 个百分点）：并行相对单链的准确度增益。低于 3 个点说明并行没起作用；高于 25 个点说明单链配置本身有问题，先修单链。

参考实现

对 query 复制 N 条分支：
    每条分支 → 独立运行时 → 不同 temperature 采样 → (answer, confidence)
聚合(N 个结果, 策略):
    Majority   → 票数最多的答案
    Weighted   → 按 confidence 加权后最高的答案
    Verifier   → 交给独立评委模型打分裁定
    Any-Alarm  → 任一分支命中高风险标签即升级，无视多数
返回 final_answer + 完整分支 trace（每路答案/置信度/聚合策略/最终决策）

工程落地四个要点：提示扰动要真正制造多样性；评委若用模型实现要用便宜模型；并发要复用连接池避免限流；Any-Alarm 与早终止互斥要在代码里写死。

应用示例

某三甲医院的医疗影像辅助 Agent，第一版单链推理读 CT 标记肺结节，准确率 89% 即上线试点。一例 12mm 结节被判低度疑似，三个月后确诊为肺腺癌早期——单链恰好没抓到边缘毛刺征。重写后改为 N=5 并行采样，5 路里 2 路抓到了毛刺和胸膜凹陷；团队把聚合策略从多数投票改成"任一路 ≥ 4a 立即触发二审"，准确率升到 96.2%，算力上升 4.1 倍。在医疗这种错误代价极不对称的场景，5 倍算力换 7 个百分点准确度，这笔账完全划算。配套的工程决策还包括：每路独立运行时（合规要求真独立采样）、Any-Alarm 场景不开早终止、N 路完整 trace 留档 7 年备监管审计。

设计结论

并行探索的本质不是"多采几次投票"，而是用聚合策略把业务对错误的容忍模式编码进系统——选哪种聚合，就是在选一个代价函数。

企业证据

当前没有与本模式绑定的公开评审案例。模式定义不因此视为已经获得企业验证。

案例收录要求说明业务约束、实现结构、已知失败和迁移边界。参见贡献与评审规则。

引用建议：ADPS，《R3 并行探索》，Agent 设计模式白皮书 v0.3，2026-07-13。

模式目录 · 参考实现 · CC BY 4.0

问题