一句话定义
Skill Creator 是一个元技能(Meta-Skill) —— 用来帮你创建、改进、评估其他技能的技能。
它能做什么(四大能力)
1. 创建 Skill
从零开始构建新技能
- 引导你明确 skill 的目标和范围
- 设计 skill 的结构(SKILL.md + 可选脚本/资源)
- 生成符合规范的技能文件
适用场景:
- “我想创建一个能自动生成周报的技能”
- “我们需要一个统一的代码审查流程”
- “能否做一个帮我分析日志的 skill”
2. 评估 Skill(核心能力)
科学测试 skill 是否有效
- 双轨测试:同时运行”有 skill”和”无 skill”对比
- 并行执行:同时测试多个用例,节省时间
- 量化指标:通过率、耗时、token 消耗
- 基准对比:用数据证明 skill 是否真的有用
适用场景:
- 测试新 skill 是否按预期工作
- 对比两个版本的优劣
- 验证 skill 是否值得部署
输出:
- benchmark.json(详细数据)
- 可视化查看器(点击查看每个测试结果)
- grading.json(断言评分结果)
3. 改进 Skill
基于评估结果迭代优化
- 分析问题:查看失败用例,找出 skill 的缺陷
- 盲测对比:让独立代理对比两个版本,找出优劣
- 提取模式:如果多个用例都重复某操作,将其内置到 skill
- 优化指令:精简冗余,强化关键指导
适用场景:
- “这个 PDF skill 处理表格时经常出错”
- “Claude 使用我的 skill 时总是漏掉步骤”
- “新版本是否比旧版本好?”
改进策略:
- 泛化:避免只针对特定示例优化
- 精简:删除不起作用的内容
- 解释:用”为什么”代替强制的”必须”
4. 优化触发(高级)
让 Claude 更准确地调用 Skill
- 生成测试查询:创建 20 个”应该触发”和”不应该触发”的用户请求
- 训练/测试分离:60% 训练 + 40% 测试,防止过拟合
- 自动迭代:循环测试 → 改进描述 → 重新测试(最多 5 轮)
- 选择最优:基于测试集表现选择最佳描述
适用场景:
- “Claude 经常忘记使用我的 skill”
- “我的 skill 被误触发,在不合适的场景调用”
- “如何提高 skill 的触发准确率?”
关键洞察:
- Skill 的 description 是唯一触发机制
- 描述需要”pushy”(主动)—— 明确告诉 Claude 何时使用
- 简单查询(如”读取 PDF”)可能不会触发 skill,因为 Claude 自己能做
它不能做什么
| 不能做的 | 说明 |
|---|---|
| 自动写代码 | 它生成 SKILL.md 和脚本框架,但具体逻辑需要你提供或确认 |
| 一次性完美 | 需要多轮迭代测试才能稳定 |
| 替代人工判断 | 主观质量(如写作风格、设计美感)仍需要人工评审 |
| 跨平台自动适配 | 需要根据 Claude Code / Claude.ai / Cowork 调整部分流程 |
核心工作流程
创建/改进 Skill
↓
编写 SKILL.md 草稿
↓
创建测试用例(2-3 个真实场景)
↓
并行运行测试(有 skill vs 无 skill)
↓
生成可视化报告查看结果
↓
人工评审(你查看输出质量)
↓
提供反馈(哪里好,哪里不好)
↓
改进 SKILL.md
↓
重复测试 → 直到满意
↓
优化描述(提高触发准确率)
↓
打包交付(.skill 文件)
实际使用示例(预览)
后面章节会详细展开:
例子 1:创建新 skill(从零开始 → 测试 → 迭代 3 轮 → 交付)
例子 2:改进现有 skill(发现 PDF 表格处理有问题 → 运行评估 → 定位问题 → 优化脚本 → 验证改进)
例子 3:对比两个版本(新旧版本哪个更好?→ 盲测对比 → 数据分析 → 决策)
例子 4:优化触发率(Claude 总是不调用 skill → 生成测试查询 → 描述优化循环 → 触发准确率从 40% 提升到 85%)
先决条件
使用 Skill Creator 前,你需要:
- 明确的需求:你想让 Claude 帮你完成什么重复性工作?
- 测试数据:2-3 个真实的测试用例(输入 + 期望输出)
- 时间:完整流程需要 3-5 轮迭代,每轮 10-30 分钟
- 评审意愿:你需要查看测试结果并提供反馈
下一步:实战演示
接下来通过具体例子,展示如何:
- 启动 skill-creator
- 完成一个完整的创建/改进循环
- 解读评估报告
- 做出改进决策