一句话定义

Skill Creator 是一个元技能(Meta-Skill) —— 用来帮你创建、改进、评估其他技能的技能。


它能做什么(四大能力)

1. 创建 Skill

从零开始构建新技能

  • 引导你明确 skill 的目标和范围
  • 设计 skill 的结构(SKILL.md + 可选脚本/资源)
  • 生成符合规范的技能文件

适用场景

  • “我想创建一个能自动生成周报的技能”
  • “我们需要一个统一的代码审查流程”
  • “能否做一个帮我分析日志的 skill”

2. 评估 Skill(核心能力)

科学测试 skill 是否有效

  • 双轨测试:同时运行”有 skill”和”无 skill”对比
  • 并行执行:同时测试多个用例,节省时间
  • 量化指标:通过率、耗时、token 消耗
  • 基准对比:用数据证明 skill 是否真的有用

适用场景

  • 测试新 skill 是否按预期工作
  • 对比两个版本的优劣
  • 验证 skill 是否值得部署

输出

  • benchmark.json(详细数据)
  • 可视化查看器(点击查看每个测试结果)
  • grading.json(断言评分结果)

3. 改进 Skill

基于评估结果迭代优化

  • 分析问题:查看失败用例,找出 skill 的缺陷
  • 盲测对比:让独立代理对比两个版本,找出优劣
  • 提取模式:如果多个用例都重复某操作,将其内置到 skill
  • 优化指令:精简冗余,强化关键指导

适用场景

  • “这个 PDF skill 处理表格时经常出错”
  • “Claude 使用我的 skill 时总是漏掉步骤”
  • “新版本是否比旧版本好?”

改进策略

  • 泛化:避免只针对特定示例优化
  • 精简:删除不起作用的内容
  • 解释:用”为什么”代替强制的”必须”

4. 优化触发(高级)

让 Claude 更准确地调用 Skill

  • 生成测试查询:创建 20 个”应该触发”和”不应该触发”的用户请求
  • 训练/测试分离:60% 训练 + 40% 测试,防止过拟合
  • 自动迭代:循环测试 → 改进描述 → 重新测试(最多 5 轮)
  • 选择最优:基于测试集表现选择最佳描述

适用场景

  • “Claude 经常忘记使用我的 skill”
  • “我的 skill 被误触发,在不合适的场景调用”
  • “如何提高 skill 的触发准确率?”

关键洞察

  • Skill 的 description 是唯一触发机制
  • 描述需要”pushy”(主动)—— 明确告诉 Claude 何时使用
  • 简单查询(如”读取 PDF”)可能不会触发 skill,因为 Claude 自己能做

它不能做什么

不能做的说明
自动写代码它生成 SKILL.md 和脚本框架,但具体逻辑需要你提供或确认
一次性完美需要多轮迭代测试才能稳定
替代人工判断主观质量(如写作风格、设计美感)仍需要人工评审
跨平台自动适配需要根据 Claude Code / Claude.ai / Cowork 调整部分流程

核心工作流程

创建/改进 Skill
     ↓
编写 SKILL.md 草稿
     ↓
创建测试用例(2-3 个真实场景)
     ↓
并行运行测试(有 skill vs 无 skill)
     ↓
生成可视化报告查看结果
     ↓
人工评审(你查看输出质量)
     ↓
提供反馈(哪里好,哪里不好)
     ↓
改进 SKILL.md
     ↓
重复测试 → 直到满意
     ↓
优化描述(提高触发准确率)
     ↓
打包交付(.skill 文件)

实际使用示例(预览)

后面章节会详细展开:

例子 1:创建新 skill(从零开始 → 测试 → 迭代 3 轮 → 交付)

例子 2:改进现有 skill(发现 PDF 表格处理有问题 → 运行评估 → 定位问题 → 优化脚本 → 验证改进)

例子 3:对比两个版本(新旧版本哪个更好?→ 盲测对比 → 数据分析 → 决策)

例子 4:优化触发率(Claude 总是不调用 skill → 生成测试查询 → 描述优化循环 → 触发准确率从 40% 提升到 85%)


先决条件

使用 Skill Creator 前,你需要:

  1. 明确的需求:你想让 Claude 帮你完成什么重复性工作?
  2. 测试数据:2-3 个真实的测试用例(输入 + 期望输出)
  3. 时间:完整流程需要 3-5 轮迭代,每轮 10-30 分钟
  4. 评审意愿:你需要查看测试结果并提供反馈

下一步:实战演示

接下来通过具体例子,展示如何:

  1. 启动 skill-creator
  2. 完成一个完整的创建/改进循环
  3. 解读评估报告
  4. 做出改进决策