模式矩阵 /模式白皮书/R3
R3 · Parallel Exploration · 并行探索
| 字段 | 值 |
|---|---|
| 双轴坐标 | 推理 Reasoning × 并行 Parallel(撒) |
| 成本档 | ③(5-10× 单次调用) |
| 课程对应 | 04-04(课程 28 讲版独立成讲) |
| 目录归属 | 全集 33 模式之一 · 推理模块 5 模式之一 |
| 一句话 | 同一个查询内故意启动 N 条独立推理链,再用聚合策略合成单一答案,用算力换准确度。 |
它解决什么问题
单条推理链有"侥幸偏差":同一个提示、同一个模型,不同采样得到的答案不一定一致。一条链刚好走偏,整个结论就错了,而且每一步看上去都对——错误藏在"这一次恰好没抓到的那个特征"里,事后复盘很难发现。
并行探索把"赌一条链"换成"同时跑 N 条独立的链,再合并"。它不追求降低单次成本,而是在错误代价远大于算力代价的场景里,用 3-5 倍的算力把准确度抬上去。它和复杂度路由(R2)是一对互补姿态:路由负责日常省钱,并行负责关键决策买质量,两者在同一个 Agent 里并存。
为什么坐标是「推理 × 并行」
- 纵轴 · 推理:并行的实体是同一个推理任务的多条候选路径(多个 candidate solution),属于推理策略层,而不是把任务拆给多个 Agent。这是它和协作模块"扇出聚合(C2)"的根本区别——后者并行的是子任务,前者并行的是同一道题的多个解法。
- 横轴 · 并行:N 条分支同时跑、互不知情,最后统一聚合,是天然的并行结构,不是链式串联,也不是循环迭代。
核心机制
一次并行探索由三段组成:
- 分发:把同一个查询复制成 N 条分支,通过提示扰动(不同 temperature、可能不同的 system prompt 或模型)制造多样性。N 的工业甜区是 2-5:研究数据显示 N=2 已能拿到 N=10 约 90% 的收益,N=10 在生产里几乎找不到划算的场景。
- 隔离执行:每条分支跑在独立的执行环境里(独立的模型客户端、独立的中间状态、独立的错误恢复)。分支之间串扰会让"独立采样"退化成"链式错误传染",准确度不升反降。
- 聚合:用一种聚合策略把 N 个结果合成一个。聚合策略不是只有"多数投票"一种——它本质上是对错误代价的工程化编码。
聚合策略的选择取决于业务"错的代价分布":
| 聚合策略 | 适用场景 |
|---|---|
| 多数投票 Majority | 答案可枚举、错误代价对称(数学、分类) |
| 加权投票 Weighted | 不同分支可信度不同(不同模型 / 不同算力档) |
| 评委裁定 Verifier | 开放式答案(写作、代码、规划) |
| 第一个达标 First-Correct | 有明确成功判据(测试驱动) |
| 任一警报即升级 Any-Alarm | 高风险且错误代价不对称(医疗、金融、安全) |
适合的生产场景
- 高风险、错误代价不对称的判断:医疗影像分诊、金融风控、反洗钱、安全漏洞审查。这类场景"漏判"远比"误判"贵,配合 Any-Alarm 聚合即可把不对称代价表达进系统。
- 答案空间大、单链不稳的推理:复杂诊断、多跳推理、需要 self-consistency 提升可靠性的任务。
- 关键的一次性决策:值得花 N 倍算力换确定性的节点(如不可逆的业务承诺前的最终复核)。
容易出错的地方
- 分支不独立:N 条分支共享执行环境,相互污染缓冲区或 retry,"伪独立"导致准确度反降。必须给每条分支独立的运行时。
- 提示扰动不足:N 条都跑出几乎一样的答案,有效分支数塌成 1,白白浪费 N-1 倍算力。temperature 太低、缺少 system prompt 多样性是主因。
- 盲目默认多数投票:在错误代价不对称的场景用 Majority,会把少数分支的真实警报投没——医疗里这等于漏诊。
- 该收齐却早终止:Any-Alarm 必须等所有分支返回,不能用"高置信度早终止"省钱,否则会漏掉警报信号。早终止只适用于对称代价场景。
- 滥用并行:简单任务、低风险任务、便宜模型已经够用的任务跑 N=5 就是纯浪费。
关键指标
- 分支一致率(健康区 60-80%):低于 50% 说明任务确实复杂、适合并行;高于 90% 说明任务太简单、不该并行。
- 有效 N(健康区接近 N):N 条里产生不同答案的分支数。N=5 但只有 2 种答案,说明扰动不够,加 N 不如改提示多样性。这是性价比最直接的信号。
- 聚合成本占比(健康区 <15%):聚合这一步本身的算力占总成本的比例,过高就换更轻的聚合策略。
- 质量提升(健康区 5-15 个百分点):并行相对单链的准确度增益。低于 3 个点说明并行没起作用;高于 25 个点说明单链配置本身有问题,先修单链。
最小骨架
对 query 复制 N 条分支:
每条分支 → 独立运行时 → 不同 temperature 采样 → (answer, confidence)
聚合(N 个结果, 策略):
Majority → 票数最多的答案
Weighted → 按 confidence 加权后最高的答案
Verifier → 交给独立评委模型打分裁定
Any-Alarm → 任一分支命中高风险标签即升级,无视多数
返回 final_answer + 完整分支 trace(每路答案/置信度/聚合策略/最终决策)
工程落地四个要点:提示扰动要真正制造多样性;评委若用模型实现要用便宜模型;并发要复用连接池避免限流;Any-Alarm 与早终止互斥要在代码里写死。
企业落地一例
某三甲医院的医疗影像辅助 Agent,第一版单链推理读 CT 标记肺结节,准确率 89% 即上线试点。一例 12mm 结节被判低度疑似,三个月后确诊为肺腺癌早期——单链恰好没抓到边缘毛刺征。重写后改为 N=5 并行采样,5 路里 2 路抓到了毛刺和胸膜凹陷;团队把聚合策略从多数投票改成"任一路 ≥ 4a 立即触发二审",准确率升到 96.2%,算力上升 4.1 倍。在医疗这种错误代价极不对称的场景,5 倍算力换 7 个百分点准确度,这笔账完全划算。配套的工程决策还包括:每路独立运行时(合规要求真独立采样)、Any-Alarm 场景不开早终止、N 路完整 trace 留档 7 年备监管审计。
与其他模式的关系
- 复杂度路由(R2):互补。路由省钱,并行买质量,同一个 Agent 里两者并存——日常走路由,关键决策启动并行。
- 思维链(R1):并行的每一条分支内部通常就是一条思维链;并行是在 R1 之上叠加的"多采样"。
- 扇出聚合(C2):结构同源、聚合机制相通,区别在并行的实体——R3 是同一道题的多条解法(推理策略),C2 是不同子任务分给不同 Agent(协作拓扑)。
- 迭代假设验证(R4):对偶关系。并行是空间维度同时开 N 条线,迭代是时间维度一条线跑多次。
一句话记住它
并行探索的本质不是"多采几次投票",而是用聚合策略把业务对错误的容忍模式编码进系统——选哪种聚合,就是在选一个代价函数。
本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录。