模式矩阵 /模式白皮书/F2

F2 · Skill Package · 技能包

字段
双轴坐标 反思 Reflection × 层级 Hierarchy(分)
成本档 ②(封装一次性投入 + 复用时近乎零边际)
课程对应 06-03
目录归属 全集 33 模式之一 · 反思模块 4 模式之一
一句话 把反复成功的工作流封装成可命名、可加载、可复用的结构化资产,下次同类任务直接调用而非从零摸索。

它解决什么问题

同一类任务 agent 干过 5 次、每次都干成,但每次都从零开始——读同样几份 reference、试错几轮、走完一遍跟上次一模一样的路径。第 6 次同类任务来,agent 又重走一遍。Token 烧、时间长、用户烦,根因是 agent 干完之后没有任何东西被沉淀下来。

Skill Package 把"做对的事"凝固成一份结构化资产,通常是 YAML frontmatter(name + description + triggers)加 markdown body(steps + gotchas + examples)加 bundled scripts。下次同类任务来,agent 路由到对应 skill,几秒进入主路,不再重新摸索。它和 Generator-Critic 的区别在层级——后者改的是单次输出,Skill Package 沉淀的是跨任务的能力。ACT-R 认知架构给这件事一个学术名字叫 proceduralization,即把陈述性知识编译成程序性技能;Anthropic 把它做成了 SKILL.md 标准。

为什么坐标是「反思 × 层级」

核心机制

一个 Skill Package 系统由两条流水线构成:

  1. 加载流水线:任务到来时,agent 从 skill library 路由到合适的 skill。Anthropic 的三阶段 loading 是 token 经济上做得最对的实现——启动时每个 skill 只加载 name 加一句 description(约 50 token),任务匹配上才深加载完整 SKILL.md(约 500-2000 token),执行时再按需加载 bundled scripts。50 个 skill 全量加载会吃光 context,三阶段把启动开销压到可控。
  2. 沉淀流水线:成功流程怎么进库。两条路径——人精心写(Anthropic Skills 路线,经 review 加版本化加进 git)和 agent 自动蒸馏(Hermes 路线,任务调用 5 个以上工具且成功时自动提炼成 skill markdown)。自蒸馏 skill 信任级别低于人写的,要进试用期、放独立 namespace。

Anthropic 用过几百个 skill 后总结的工程纪律值得照搬:gotchas 放 SKILL.md 顶部(LLM 优先记前面的);能用 deterministic script 解决就不用 LLM instruction;给 examples 比给抽象规则有效;每个 skill 配 tests;每周 review usage stats 退役低使用率 skill。

适合的生产场景

容易出错的地方

关键指标

最小骨架

# Stage 1 Discovery: 启动只加载 name + description
catalog = [{"name": s.name, "desc": s.description} for s in library]

# Stage 2 Activation: 任务匹配后加载完整 SKILL.md
matched = top_k(task, library, k=3)   # 按 triggers / embedding 召回

# Stage 3 Execution: 按需加载 bundled scripts, 跟踪成功率
result = run(matched_skill, task)
mark_used(matched_skill, success=result.ok)

# 沉淀: Hermes 风格自动蒸馏 (多重过滤)
if outcome == "success" and len(tool_calls) >= 5 and unique_tools >= 3:
    skill = distill(task, tool_calls)   # 进试用期, 非直接投产

# Curation: weekly review
EVICT(use_count == 0 and age > 30d)
REFINE(use_count > 5 and success_rate < 50%)
PROMOTE(use_count > 20 and success_rate > 85%)

四个工程要点:三阶段 loading 是 token 经济的核心;自蒸馏 skill 必须经试用期才转正;人写 skill 和自蒸馏 skill 分级信任;weekly curation 三档(EVICT / REFINE / PROMOTE)是抗污染和抗过期的常规运营动作。

企业落地一例

一家 B2B SaaS 公司有一位 Top 销售老张——签单率 38%(团队平均 12%),客户复购率 82%(团队平均 51%)。老张要去大厂,老板担心他的本事随人走。团队复盘发现老张的高签单率不在天赋,在一套高度结构化的流程:客户首次接触前查 LinkedIn 和公司新闻 5 分钟、第一次电话用固定开场、需求挖掘按 5 问漏斗、异议处理用预设话术库、签约前必发"决策清单"邮件。团队把这套流程封装成 SKILL.md,gotchas 放顶部("绝对不要第一次电话就 pitch 产品,拒绝率 80%"),deterministic 步骤用 bundled scripts,每个环节配完整 worked example。第二个月新员工带着这份 skill 跟客户聊,签单率从入行平均 12% 升到 24%,成长曲线压缩约 50%。配套工程决策包括:核心 SOP 走人写加 sales leader review 加进 git,agent 自蒸馏招式走独立 namespace 加低信任级别,customer-facing skill 必须人审,每周 review 决定 EVICT / REFINE / PROMOTE。

与其他模式的关系

一句话记住它

Skill Package 不是工作流模板,是 agent 的职业能力——它让 agent 既有手册又保留判断力,把人脑里的隐性流程搬到组织能复用的资产层,这是 agent 从 demo 玩具变成组织资产的转折点。


本页属于 ADPS 33 模式白皮书。返回 模式矩阵与白皮书目录, 或查看配套 可运行代码目录