模式矩阵 /模式白皮书/P4

P4 · Multi-Modal Fusion · 多模态融合

字段
双轴坐标 感知 Perception × 并行 Parallel(撒)
成本档 ③(多路 specialist 处理器 + vision 调用,开销显著)
课程对应 02-05
目录归属 全集 33 模式之一 · 感知模块 4 模式之一
一句话 Agent 接到的输入有图、有文、有表、有日志,把每一种转换成最适合 LLM 消化的形态,再合并喂给推理层。

它解决什么问题

感知模块前三个模式处理的都是文本流,怎么挑、怎么压、怎么找。多模态融合换一种形态:PDF、图表、表格、扫描件、日志混在一起的异构信息。把一份 80 页研报整份喂给 vision 模型,y 轴刻度密、像素糊,市场规模 5800 亿被读成 5800 万,差了一千倍;全部 OCR 成纯文本又把图全丢了,研报里真正值钱的市场规模柱状图、竞争格局饼图坍缩成一句"图 3 显示市场份额",Agent 读到等于没读到。

多模态融合把这件事工程化,关键在数据进入上下文之前:哪一段该走 vision、哪一段该转文本、哪一段应该被丢掉。它处理的是 Agent 还没"想"之前的输入形态问题——形态错了,下游怎么挑、怎么压、怎么探都是在错误的形态上继续消耗。

为什么坐标是「感知 × 并行」

核心机制

融合的核心判断是给每一路数据选对载体,再合并。判定标准就一条铁律:空间信息是信号才保留为图,结构信息是信号该转 markdown。

输入类型 默认处理 成本对比
架构图、流程图 转 Mermaid 8 节点图 Mermaid ~50 token,draw.io XML ~1200,差 24×
表格、结构化数据 转 GitHub Flavored Markdown 10×6 表 markdown ~150 token,截屏走 vision ~1398,差 9×
chart、heatmap 保留图但只做检索 anchor,要数字走 chart→CSV 二次提取 vision 直读 chart 准确率低,不能当推理引擎用
长日志(>> 窗口) 三层流水线 见下

两个机制撑起工业级融合。第一,vision token 的真实数学。同一张 1024×1024 喂三家差 16 倍(GPT-4o detail=high 765、Gemini 1032、Claude Sonnet 1398、GPT-4o detail=low 仅 85);prompt cache 是最值钱的一刀,cache reads 是 base rate 的 0.1×,重复读同一份 PDF 省 90%。第二,长日志三层流水线:bash 预过滤(grep/awk/jq 在 shell 把 500MB 缩到 5-10MB,只烧 CPU 不烧 token)→ sub-agent 处理(便宜模型读完返回 200-500 token 结构化摘要)→ 结构化产物回主 context(JSON 而非 free text,原始日志的指针留在摘要里需要时再查)。500MB 日志直灌 Sonnet 约 $150 还可能溢出窗口,走三层约 $0.16,差约 940 倍。

适合的生产场景

容易出错的地方

关键指标

最小骨架

fuse(inputs):                       # inputs 是多路异构输入
    对每一路按形态分发:
        TEXT   → 直接进 content
        IMAGE  → base64 走 vision(空间信息是信号才走这条)
        TABLE  → 转 markdown(结构是信号,省 9×)
        PDF    → 抽目录 + 定位关键页 + 关键图走 vision + 表转 md + 装饰图丢
        LOG    → bash 预过滤 → sub-agent 摘要 → 结构化 JSON 回主 context
        AUDIO  → STT 转文本
    合并成统一 content blocks,返回 + 一份 trace(每路 modality / tokens_out / method)
health_check:按形态盯 token 占比,异常形态早报警

specialist 工具(ocr / stt / pdf_extract / log_subagent / bash_filter)用注入而非封装,迁移环境时只换注入实现(如 OCR 从 Textract 换本地引擎),不动 fuser 主流程。多模态依赖(cv2、pyaudio、pdfplumber)要 lazy import 到函数体内并加 ImportError 兜底,避免在 headless 环境启动即 crash。

企业落地一例

一个券商研报分析 Agent 做了三版。V1 把 80 页 PDF 整份喂给 vision,单次约 90K token、$0.27,柱状图市场规模 5800 亿被读成 5800 万。V2 全部 OCR 成纯文本,token 降到 35K 便宜一半,但摘要句子通顺、销售要点全空——值钱信息恰恰长在图表里,转文本后空间信息全坍缩。V3 没再调 prompt,重新设计 pipeline:PDF 先抽目录、定位关键页、关键图保留原图走 vision、表格转 markdown、装饰图直接丢,最后塞给模型 18K token,比 V1 省 80%,数字核查也过了。一份 PDF 客户经理一天平均查 8 次,开 prompt cache 后单份日均成本从 $2.16 降到 $0.46。工程师的复盘是写了三周 prompt 都没用,最后救场的是重新想数据该长什么样。

与其他模式的关系

一句话记住它

多模态融合不是 prompt 工程,是数据形态工程——好的融合让 Agent 看到恰当的少,而不是完整的多。


本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录