模式矩阵 /模式白皮书/R1

R1 · Chain-of-Thought · 思维链

字段
双轴坐标 推理 Reasoning × 链式 Chain(传)
成本档 ①(约等于一次普通调用,开 thinking 时按 token 多付一档)
课程对应 04-02
目录归属 全集 33 模式之一 · 推理模块 5 模式之一
一句话 把模型的推理过程显性化成一段可存储、可审计、可跨模型迁移的结构化数据,让"为什么得出这个结论"有据可查。

它解决什么问题

模型给出一个结论,但没人知道它是怎么得出来的。结论对的时候没人追问,结论错的时候无法 debug,监管来查的时候拿不出依据。Agent 跟传统软件最大的差别之一就是这种"灰盒性"——它不是黑盒,也不是真白盒,中间这层推理过程如果不落下来,出事时根本无法 root-cause。

Chain-of-Thought 把这段推理过程从模型内部拽出来,变成 trajectory 里的一等数据。在 2026 年,它已经不是 2022 年那句 "Let's think step by step" 的 prompt 技巧——reasoning model 本来就会 emit 推理过程,工程层要做的是管理这段过程的生命周期:怎么落库、怎么审计、跨模型 fallback 时怎么迁移、按任务复杂度怎么控制深度。一句话概括这个转变:写 Agent 不写 CoT trace,等于写后端不打 log。

为什么坐标是「推理 × 链式」

核心机制

CoT 在 2026 年是一个多形态的工程范畴,核心是把推理 trajectory 当结构化数据管理,而不是看完即弃。落地时有四件硬责任:

  1. 持久化:thinking blocks 进 trajectory log,按 trace_id 索引,结构化存储,支持重放、回滚、跨 session 迁移。
  2. 跨模型归一:不同 reasoning model 的标签格式各异(OpenAI 用 <reasoning>、DeepSeek 用 <think>、Anthropic 用结构化字段)。入库前 normalize 成统一 schema,Agent 看到的永远是格式一致的 trajectory,审计时也只需要看一种结构。
  3. 跨模型 fallback strip:thinking block 的签名跟生成它的模型绑定。主模型限流切到 fallback 模型时,fallback 模型不接受其他模型的签名,必须先 strip 掉所有不兼容的 thinking block 再发,否则整个请求被拒、Agent 调用失败。
  4. effort 控制:thinking 是付费 token,但更多 thinking 不一定更高质量。给一个 effort 控制曲面(off / low / medium / high / max),让简单任务用 low、复杂任务用 high。

一个值得注意的边界:reasoning model 对自己 CoT 的控制力很弱,写出来的推理也可能是事后补的"剧本"而非真实推理路径。所以 CoT 是有用的可观测性信号,但不能 100% 当成模型的真实思考过程,关键决策要再加一层外部验证。

适合的生产场景

容易出错的地方

关键指标

最小骨架

任务进来 → 按复杂度选 effort 档(off / low / medium / high / max)
模型 emit thinking blocks → normalize 成统一 schema → 进结构化 trace
若主模型限流 fallback:
    strip 掉所有跟目标模型不兼容的 thinking block,再发请求
审计取数双视图:
    监管视图  → 完整 thinking + 最终决策 + fallback 链
    客户视图  → 仅脱敏摘要,不暴露 reasoning 细节
返回 final_answer + 完整 trace(按 trace_id 索引,长期留档)

落地四个要点:reasoning model 不要再加 step instruction;effort 控制做成 per-request / per-task 配置;标签归一要随新模型持续扩展;trace 打到结构化 trace bus 支持长周期回查。

企业落地一例

某企业级执行型 Agent 团队(梁博团队)在落地时发现一个分水岭:思维链不是"多写一段思考给用户看",而是每次调用产出一个可被程序消费的 Decision 控制信号。具体做法是把模型输出拆成 thinking 和 answer 两段——thinking 段是推理过程进 trace 留档,answer 段是结构化的 JSON 决策对象,被下游程序直接解析执行。两段分离之后,CoT 从"内容"变成了"控制流":answer 里的字段直接驱动后续动作,thinking 里的过程供审计回查。

关键的工程兜底是 JSON 解析失败时有确定性回退——模型偶尔会把决策写得不符合 schema,这时不是让 Agent 崩溃或随机重试,而是落到一个预定义的安全默认动作上。这套设计是从"内容型 Agent"(生成文本给人读)走向"执行型 Agent"(产出信号给程序用)的关键。配套决策还包括 thinking 完整留档备审、answer schema 强校验、解析失败计数接入监控。

与其他模式的关系

一句话记住它

Chain-of-Thought 在 2026 年的本质不是"教模型想",而是把模型已经在想的过程当成一等数据来管理——它是 Agent 时代可观测性的根基,不是可选项。


本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录