F2 · Skill Package · 技能包

把反复成功的工作流封装成可命名、可加载、可复用的结构化资产，下次同类任务直接调用而非从零摸索。

版本: v0.3
状态: 公开评审稿
发布日期: 2026-07-13
分类: 反思 Reflection × 路由 Route（选）
目录地位: 核心模式
许可: CC BY 4.0

文档状态：本页为公开评审稿。模式定义与分类可供讨论和引用；未附来源链接的数字与应用示例只用于说明机制，不作为行业基准。

坐标	反思 Reflection × 路由 Route（选）
成本	中（封装一次性投入 + 复用时近乎零边际）
模式组	反思模式
模式简介	把反复成功的工作流封装成可命名、可加载、可复用的结构化资产，下次同类任务直接调用而非从零摸索。

问题

同一类任务 agent 干过 5 次、每次都干成，但每次都从零开始——读同样几份 reference、试错几轮、走完一遍跟上次一模一样的路径。第 6 次同类任务来，agent 又重走一遍。Token 浪费、耗时长，根因是 agent 干完之后没有任何东西被沉淀下来。

Skill Package 把"做对的事"凝固成一份结构化资产，通常是 YAML frontmatter（name + description + triggers）加 markdown body（steps + gotchas + examples）加 bundled scripts。下次同类任务来，agent 路由到对应 skill，几秒进入主路，不再重新摸索。它和 Generator-Critic 的区别在颗粒度——后者改的是单次输出，Skill Package 沉淀的是跨任务的能力。ACT-R 认知架构给这件事一个学术名字叫 proceduralization，即把陈述性知识编译成程序性技能；Anthropic 把它做成了 SKILL.md 标准。

分类依据：反思 × 路由

纵轴 · 反思：Skill Package 是反思后的固化，不是单次反思。agent 反复成功做某类任务后，把成功路径提炼封装，这是"想完会沉淀"的形态，比 Generator-Critic 的"想完就改"高一层。
横轴 · 路由：技能包真正的运行时动作是匹配与选择——新任务进来，系统按 triggers 把它路由到合适的 skill，命中就几秒进入主路，未命中就走通用流程。决定价值的是"挑对那一个"，这是一次基于任务特征的路由判断。技能内部的原子—复合分层、Anthropic 的三阶段 loading（Discovery 只看名字 → Activation 加载完整 SKILL.md → Execution 按需加载脚本）是它的存储与加载结构，但拓扑坐标取的是它在主循环里命中技能的那一下选择。

解决方案与机制

一个 Skill Package 系统由两条流水线构成：

加载流水线：任务到来时，agent 从 skill library 路由到合适的 skill。Anthropic 的三阶段 loading 是 token 经济上做得最对的实现——启动时每个 skill 只加载 name 加一句 description（约 50 token），任务匹配上才深加载完整 SKILL.md（约 500-2000 token），执行时再按需加载 bundled scripts。50 个 skill 全量加载会吃光 context，三阶段把启动开销压到可控。
沉淀流水线：成功流程怎么进库。两条路径——人精心写（Anthropic Skills 路线，经 review 加版本化加进 git）和 agent 自动蒸馏（Hermes 路线，任务调用 5 个以上工具且成功时自动提炼成 skill markdown）。自蒸馏 skill 信任级别低于人写的，要进试用期、放独立 namespace。

Anthropic 用过几百个 skill 后总结的工程纪律值得照搬：gotchas 放 SKILL.md 顶部（LLM 优先记前面的）；能用 deterministic script 解决就不用 LLM instruction；给 examples 比给抽象规则有效；每个 skill 配 tests；每周 review usage stats 退役低使用率 skill。

适用条件

反复出现且流程相对稳定的任务：运维 runbook（批量重启集群、配置变更）、客服分诊 SOP、销售标准流程——同类任务高频出现，流程不天天变。
需要可观测加可复用的企业流程：把老员工脑子里的隐性流程结构化成 SKILL.md，新员工和 agent 同读同用，sales leader 能 review、能版本化。
错代价高、值得固化的关键流程：金融审批流程、事故响应步骤这类做错代价大的流程，固化成 skill 比每次靠 agent 临场发挥稳。

已知失效方式

给不该固化的任务硬做 skill：任务每次都不一样（开放域研究）、只跑一次、流程还在快速迭代、判断密集型——这四类沉淀风险高于复用收益。Skill Package 的价值在"反复出现 + 流程稳定 + 错代价高"三个条件叠加时。
skill library 污染：agent 自蒸馏的低质量 skill 不经 curation 直接进库，下次召回误导其他 agent。library 从 50 个膨胀到 500 个但平均成功率从 85% 跌到 55%。防法是多重蒸馏触发条件加试用期加 weekly curation。
skill 过期：基础设施变了但 skill 没跟着改，agent 按过期 skill 执行反而错，运维场景尤其常见。防法是成功率监控加自动告警加版本绑定（SKILL.md 里标 tested_with）。
description 失配：description 写得太泛或太窄，agent 召回时挑错 skill 或该用没用。description 必须含具体场景，triggers 列表要够细。

验证指标

skill 命中率（健康区 >75%）：任务到来时召回到正确 skill 的比例。低于 50% 说明 description 或 triggers 设计失调，该 deprecate 或重写。
skill 成功率（健康区 >85%）：调用某 skill 后任务成功的比例。跌破 80% 触发 review，可能是 skill 过期。
library 健康度（健康区平均成功率不随规模下降）：library 膨胀时平均成功率应保持稳定，下降说明污染。
加载 token 占比（健康区三阶段下启动开销 <5%）：全量加载会让这个数字爆掉，三阶段把它压到可控。

参考实现

# Stage 1 Discovery: 启动只加载 name + description
catalog = [{"name": s.name, "desc": s.description} for s in library]

# Stage 2 Activation: 任务匹配后加载完整 SKILL.md
matched = top_k(task, library, k=3)   # 按 triggers / embedding 召回

# Stage 3 Execution: 按需加载 bundled scripts, 跟踪成功率
result = run(matched_skill, task)
mark_used(matched_skill, success=result.ok)

# 沉淀: Hermes 风格自动蒸馏 (多重过滤)
if outcome == "success" and len(tool_calls) >= 5 and unique_tools >= 3:
    skill = distill(task, tool_calls)   # 进试用期, 非直接投产

# Curation: weekly review
EVICT(use_count == 0 and age > 30d)
REFINE(use_count > 5 and success_rate < 50%)
PROMOTE(use_count > 20 and success_rate > 85%)

四个工程要点：三阶段 loading 是 token 经济的核心；自蒸馏 skill 必须经试用期才转正；人写 skill 和自蒸馏 skill 分级信任；weekly curation 三档（EVICT / REFINE / PROMOTE）是抗污染和抗过期的常规运营动作。

应用示例

一家 B2B SaaS 公司有一位 Top 销售老张——签单率 38%（团队平均 12%），客户复购率 82%（团队平均 51%）。老张要去大厂，老板担心他的本事随人走。团队复盘发现老张的高签单率不在天赋，在一套高度结构化的流程：客户首次接触前查 LinkedIn 和公司新闻 5 分钟、第一次电话用固定开场、需求挖掘按 5 问漏斗、异议处理用预设话术库、签约前必发"决策清单"邮件。团队把这套流程封装成 SKILL.md，gotchas 放顶部（"绝对不要第一次电话就 pitch 产品，拒绝率 80%"），deterministic 步骤用 bundled scripts，每个环节配完整 worked example。第二个月新员工带着这份 skill 跟客户聊，签单率从入行平均 12% 升到 24%，成长曲线压缩约 50%。配套工程决策包括：核心 SOP 走人写加 sales leader review 加进 git，agent 自蒸馏招式走独立 namespace 加低信任级别，customer-facing skill 必须人审，每周 review 决定 EVICT / REFINE / PROMOTE。

设计结论

Skill Package 不是工作流模板，是 agent 的职业能力——它让 agent 既有手册又保留判断力，把人脑里的隐性流程搬到组织能复用的资产层，这是 agent 从 demo 玩具变成组织资产的转折点。

企业证据

当前没有与本模式绑定的公开评审案例。模式定义不因此视为已经获得企业验证。

案例收录要求说明业务约束、实现结构、已知失败和迁移边界。参见贡献与评审规则。

引用建议：ADPS，《F2 技能包》，Agent 设计模式白皮书 v0.3，2026-07-13。

模式目录 · 参考实现 · CC BY 4.0

问题