模式矩阵 /模式白皮书/M2

M2 · RAG Pipeline · 检索增强生成

字段
双轴坐标 记忆 Memory × 路由 Route(选)
成本档 ②(中等,索引 + 检索 + 可选重排)
课程对应 03-03
目录归属 全集 33 模式之一 · 记忆模块 5 模式之一
一句话 给 agent 配一个外挂图书馆,让它在每次需要超出 context 容量的知识时,能查、能筛、能迭代地查回来用。

它解决什么问题

企业知识库动辄几十万份文档加历史工单,任何 LLM 的 context window 都装不下,但 agent 不能因此回答"我不知道"。它需要在每次提问时,从海量语料里挑出最相关的几份临时塞进 context。这就是 RAG 要解决的事:把 input 之外的事实按需拉进来。

2026 年生产级 RAG 的工程难点已经不是"能不能查到",而是"会不会查"。naive RAG 是一次查询一次返回,而真正能上生产的 RAG 让 agent 主导多步检索——看完第一批结果不满意就改写 query 再查,查到候选答案就主动找反例验证,跨多个语料做交叉对比。

为什么坐标是「记忆 × 路由」

核心机制

  1. 两条 pipeline 在向量库汇合:RAG 不是单一步骤。离线侧把文档 chunk、embed、建索引;在线侧把 query embed、召回 top-K、重排、注入生成。两条独立 pipeline 共享同一个向量库。
  2. 混合检索:embedding 擅长语义("ACME 财报"约等于"ACME 业绩"),但精确关键词(产品名、错误码、特定 ID)经常 miss。把语义检索和 BM25 关键词检索结合,再用 RRF(Reciprocal Rank Fusion)融合,是经典的"语义加关键词"姿态。
  3. 上下文增强 chunking:chunk 一旦切开,原文上下文锚点就丢了。在每个 chunk 前 prepend 一段上下文摘要(用便宜模型生成)再 embed,能显著降低检索失败率。这是性价比最高的工程精雕,预处理一次终身受用。
  4. agent 主导的多步检索:把 RAG 从一次性流水线升级为 agent 主导流程——拆子 query、迭代改写、找反例、跨语料三角验证、按证据强度加权合成。这五步合起来是人类研究员方法论的工程化版本。
  5. 迭代硬上限:多步检索必须设硬上限,否则 agent 会一直觉得"还不够"连续检索把账单烧爆。

适合的生产场景

容易出错的地方

关键指标

最小骨架

离线索引侧:
    doc → chunk → 前置上下文摘要(便宜模型) → embed → 向量库 + BM25 索引

在线检索侧(agent 主导多步):
    拆子 query
    每个子 query 迭代检索:
        语义 top-150 + BM25 top-150 → RRF 融合 → reranker 重排 top-20
        agent 评估是否够 → 不够则改写 query 再查(最多 N 轮)
    形成假设 → 取反作为新 query 找反例
    跨多语料三角验证(多组都出现的 chunk 加权)
    按证据强度加权合成
返回 answer + evidence + counter_evidence + 完整 trace(含 citation 可追溯)

工程落地四个要点:retriever 层做上下文增强加混合检索加重排;max_iterations 设硬上限加 token 预算硬上限;trace 完整记录每次检索;引用必须可追溯到原始文档加页码。

企业落地一例

某科研机构的学术文献综述 agent,要在百万级论文库里帮研究员回答任意问题。第一版用关键词检索返回五千篇已读过的,换 embedding 又只返回 2018-2020 的"经典",研究员要的"过去三年进展"反而沉底。重写后五个 canonical 模式全上:拆子 query、迭代精化、假设取反找反例、跨 arXiv 加 bioRxiv 加 PubMed 三角验证、按证据强度加权合成。配套六个业务决策——多语料分库不分表(peer-reviewed 权重 1.5、预印本 1.0、未发表 0.5)、时间衰减权重(半衰期 18 个月让新论文自然浮上来)、强制开启反例检索、引用做到 chunk 级、跨语料作者关系图。落地后 agent 返回精准二十篇加五篇反例加三篇隐含相关,每篇都有 citation 可追,研究员一份综述从六小时压到一个半小时,质量还更高。

与其他模式的关系

一句话记住它

RAG 不是越精准越好,是越会查越好——它的工程天花板不在模型、embedding 或向量库,而在知识源本身的整理质量。


本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录