模式矩阵 /模式白皮书/F2
F2 · Skill Package · 技能包
| 字段 | 值 |
|---|---|
| 双轴坐标 | 反思 Reflection × 层级 Hierarchy(分) |
| 成本档 | ②(封装一次性投入 + 复用时近乎零边际) |
| 课程对应 | 06-03 |
| 目录归属 | 全集 33 模式之一 · 反思模块 4 模式之一 |
| 一句话 | 把反复成功的工作流封装成可命名、可加载、可复用的结构化资产,下次同类任务直接调用而非从零摸索。 |
它解决什么问题
同一类任务 agent 干过 5 次、每次都干成,但每次都从零开始——读同样几份 reference、试错几轮、走完一遍跟上次一模一样的路径。第 6 次同类任务来,agent 又重走一遍。Token 烧、时间长、用户烦,根因是 agent 干完之后没有任何东西被沉淀下来。
Skill Package 把"做对的事"凝固成一份结构化资产,通常是 YAML frontmatter(name + description + triggers)加 markdown body(steps + gotchas + examples)加 bundled scripts。下次同类任务来,agent 路由到对应 skill,几秒进入主路,不再重新摸索。它和 Generator-Critic 的区别在层级——后者改的是单次输出,Skill Package 沉淀的是跨任务的能力。ACT-R 认知架构给这件事一个学术名字叫 proceduralization,即把陈述性知识编译成程序性技能;Anthropic 把它做成了 SKILL.md 标准。
为什么坐标是「反思 × 层级」
- 纵轴 · 反思:Skill Package 是反思后的固化,不是单次反思。agent 反复成功做某类任务后,把成功路径提炼封装,这是"想完会沉淀"的形态,比 Generator-Critic 的"想完就改"高一个层级。
- 横轴 · 层级:skills 之间有层级结构——原子 skill(atomic,单步操作)组合成复合 skill(composite,完整流程)。Anthropic 的三阶段 loading(Discovery 只看名字 → Activation 加载完整 SKILL.md → Execution 按需加载脚本)本身就是一个层级化的加载结构。
核心机制
一个 Skill Package 系统由两条流水线构成:
- 加载流水线:任务到来时,agent 从 skill library 路由到合适的 skill。Anthropic 的三阶段 loading 是 token 经济上做得最对的实现——启动时每个 skill 只加载 name 加一句 description(约 50 token),任务匹配上才深加载完整 SKILL.md(约 500-2000 token),执行时再按需加载 bundled scripts。50 个 skill 全量加载会吃光 context,三阶段把启动开销压到可控。
- 沉淀流水线:成功流程怎么进库。两条路径——人精心写(Anthropic Skills 路线,经 review 加版本化加进 git)和 agent 自动蒸馏(Hermes 路线,任务调用 5 个以上工具且成功时自动提炼成 skill markdown)。自蒸馏 skill 信任级别低于人写的,要进试用期、放独立 namespace。
Anthropic 用过几百个 skill 后总结的工程纪律值得照搬:gotchas 放 SKILL.md 顶部(LLM 优先记前面的);能用 deterministic script 解决就不用 LLM instruction;给 examples 比给抽象规则有效;每个 skill 配 tests;每周 review usage stats 退役低使用率 skill。
适合的生产场景
- 反复出现且流程相对稳定的任务:运维 runbook(批量重启集群、配置变更)、客服分诊 SOP、销售标准流程——同类任务高频出现,流程不天天变。
- 需要可观测加可复用的企业流程:把老员工脑子里的隐性流程结构化成 SKILL.md,新员工和 agent 同读同用,sales leader 能 review、能版本化。
- 错代价高、值得固化的关键流程:金融审批流程、事故响应步骤这类做错代价大的流程,固化成 skill 比每次靠 agent 临场发挥稳。
容易出错的地方
- 给不该固化的任务硬做 skill:任务每次都不一样(开放域研究)、只跑一次、流程还在快速迭代、判断密集型——这四类沉淀风险高于复用收益,过早凝固反而成为 agent 的枷锁。Skill Package 的价值在"反复出现 + 流程稳定 + 错代价高"三个条件叠加时。
- skill library 污染:agent 自蒸馏的低质量 skill 不经 curation 直接进库,下次召回误导其他 agent。library 从 50 个膨胀到 500 个但平均成功率从 85% 跌到 55%。防法是多重蒸馏触发条件加试用期加 weekly curation。
- skill 过期:基础设施变了但 skill 没跟着改,agent 按过期 skill 执行反而错,运维场景尤其常见。防法是成功率监控加自动告警加版本绑定(SKILL.md 里标 tested_with)。
- description 失配:description 写得太泛或太窄,agent 召回时挑错 skill 或该用没用。description 必须含具体场景,triggers 列表要够细。
关键指标
- skill 命中率(健康区 >75%):任务到来时召回到正确 skill 的比例。低于 50% 说明 description 或 triggers 设计失调,该 deprecate 或重写。
- skill 成功率(健康区 >85%):调用某 skill 后任务成功的比例。跌破 80% 触发 review,可能是 skill 过期。
- library 健康度(健康区 平均成功率不随规模下降):library 膨胀时平均成功率应保持稳定,下降说明污染。
- 加载 token 占比(健康区 三阶段下启动开销 <5%):全量加载会让这个数字爆掉,三阶段把它压到可控。
最小骨架
# Stage 1 Discovery: 启动只加载 name + description
catalog = [{"name": s.name, "desc": s.description} for s in library]
# Stage 2 Activation: 任务匹配后加载完整 SKILL.md
matched = top_k(task, library, k=3) # 按 triggers / embedding 召回
# Stage 3 Execution: 按需加载 bundled scripts, 跟踪成功率
result = run(matched_skill, task)
mark_used(matched_skill, success=result.ok)
# 沉淀: Hermes 风格自动蒸馏 (多重过滤)
if outcome == "success" and len(tool_calls) >= 5 and unique_tools >= 3:
skill = distill(task, tool_calls) # 进试用期, 非直接投产
# Curation: weekly review
EVICT(use_count == 0 and age > 30d)
REFINE(use_count > 5 and success_rate < 50%)
PROMOTE(use_count > 20 and success_rate > 85%)
四个工程要点:三阶段 loading 是 token 经济的核心;自蒸馏 skill 必须经试用期才转正;人写 skill 和自蒸馏 skill 分级信任;weekly curation 三档(EVICT / REFINE / PROMOTE)是抗污染和抗过期的常规运营动作。
企业落地一例
一家 B2B SaaS 公司有一位 Top 销售老张——签单率 38%(团队平均 12%),客户复购率 82%(团队平均 51%)。老张要去大厂,老板担心他的本事随人走。团队复盘发现老张的高签单率不在天赋,在一套高度结构化的流程:客户首次接触前查 LinkedIn 和公司新闻 5 分钟、第一次电话用固定开场、需求挖掘按 5 问漏斗、异议处理用预设话术库、签约前必发"决策清单"邮件。团队把这套流程封装成 SKILL.md,gotchas 放顶部("绝对不要第一次电话就 pitch 产品,拒绝率 80%"),deterministic 步骤用 bundled scripts,每个环节配完整 worked example。第二个月新员工带着这份 skill 跟客户聊,签单率从入行平均 12% 升到 24%,成长曲线压缩约 50%。配套工程决策包括:核心 SOP 走人写加 sales leader review 加进 git,agent 自蒸馏招式走独立 namespace 加低信任级别,customer-facing skill 必须人审,每周 review 决定 EVICT / REFINE / PROMOTE。
与其他模式的关系
- Procedural Memory(记忆模块 M5):落地几乎同构,都是技能库、都用 SKILL.md 形态存程序性知识,区别在设计意图。Skill Package 强调"反思后封装"——agent 反复成功后主动把成功路径提炼固化(post-reflection);M5 强调"学过就存"——把程序性知识作为记忆写入。前者是反思视角,后者是记忆视角,工程载体重合度很高。
- Generator-Critic(F1):上下衔接。Generator-Critic 是单次任务内的反思,Skill Package 是跨任务的反思,把"做对的事"凝固下来。
- Experience Replay(F3):配对兄弟模式。Skill Package 装的是 verified 可调用单位(做过多次都成功,封成 skill 直接调),Experience Replay 装的是更宽泛的参考资产(有用但不一定 verified)。agent 优先调 skill,没匹配的回退到 experience 检索。
- RAG(记忆模块):互补合奏。RAG 管"知道什么"(declarative,事实检索),Skill Package 管"会做活儿"(procedural,流程复用),企业 agent 落地里两者并用。
一句话记住它
Skill Package 不是工作流模板,是 agent 的职业能力——它让 agent 既有手册又保留判断力,把人脑里的隐性流程搬到组织能复用的资产层,这是 agent 从 demo 玩具变成组织资产的转折点。
本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录。