SKILL_CREATOR

一句话定义

Skill Creator 是一个元技能（Meta-Skill） —— 用来帮你创建、改进、评估其他技能的技能。

它能做什么（四大能力）

1. 创建 Skill

从零开始构建新技能

引导你明确 skill 的目标和范围
设计 skill 的结构（SKILL.md + 可选脚本/资源）
生成符合规范的技能文件

适用场景：

“我想创建一个能自动生成周报的技能”
“我们需要一个统一的代码审查流程”
“能否做一个帮我分析日志的 skill”

2. 评估 Skill（核心能力）

科学测试 skill 是否有效

双轨测试：同时运行”有 skill”和”无 skill”对比
并行执行：同时测试多个用例，节省时间
量化指标：通过率、耗时、token 消耗
基准对比：用数据证明 skill 是否真的有用

适用场景：

测试新 skill 是否按预期工作
对比两个版本的优劣
验证 skill 是否值得部署

输出：

benchmark.json（详细数据）
可视化查看器（点击查看每个测试结果）
grading.json（断言评分结果）

3. 改进 Skill

基于评估结果迭代优化

分析问题：查看失败用例，找出 skill 的缺陷
盲测对比：让独立代理对比两个版本，找出优劣
提取模式：如果多个用例都重复某操作，将其内置到 skill
优化指令：精简冗余，强化关键指导

适用场景：

“这个 PDF skill 处理表格时经常出错”
“Claude 使用我的 skill 时总是漏掉步骤”
“新版本是否比旧版本好？”

改进策略：

泛化：避免只针对特定示例优化
精简：删除不起作用的内容
解释：用”为什么”代替强制的”必须”

4. 优化触发（高级）

让 Claude 更准确地调用 Skill

生成测试查询：创建 20 个”应该触发”和”不应该触发”的用户请求
训练/测试分离：60% 训练 + 40% 测试，防止过拟合
自动迭代：循环测试 → 改进描述 → 重新测试（最多 5 轮）
选择最优：基于测试集表现选择最佳描述

适用场景：

“Claude 经常忘记使用我的 skill”
“我的 skill 被误触发，在不合适的场景调用”
“如何提高 skill 的触发准确率？”

关键洞察：

Skill 的 description 是唯一触发机制
描述需要”pushy”（主动）—— 明确告诉 Claude 何时使用
简单查询（如”读取 PDF”）可能不会触发 skill，因为 Claude 自己能做

它不能做什么

不能做的	说明
自动写代码	它生成 SKILL.md 和脚本框架，但具体逻辑需要你提供或确认
一次性完美	需要多轮迭代测试才能稳定
替代人工判断	主观质量（如写作风格、设计美感）仍需要人工评审
跨平台自动适配	需要根据 Claude Code / Claude.ai / Cowork 调整部分流程

核心工作流程

创建/改进 Skill
     ↓
编写 SKILL.md 草稿
     ↓
创建测试用例（2-3 个真实场景）
     ↓
并行运行测试（有 skill vs 无 skill）
     ↓
生成可视化报告查看结果
     ↓
人工评审（你查看输出质量）
     ↓
提供反馈（哪里好，哪里不好）
     ↓
改进 SKILL.md
     ↓
重复测试 → 直到满意
     ↓
优化描述（提高触发准确率）
     ↓
打包交付（.skill 文件）

实际使用示例（预览）

后面章节会详细展开：

例子 1：创建新 skill（从零开始 → 测试 → 迭代 3 轮 → 交付）

例子 2：改进现有 skill（发现 PDF 表格处理有问题 → 运行评估 → 定位问题 → 优化脚本 → 验证改进）

例子 3：对比两个版本（新旧版本哪个更好？→ 盲测对比 → 数据分析 → 决策）

例子 4：优化触发率（Claude 总是不调用 skill → 生成测试查询 → 描述优化循环 → 触发准确率从 40% 提升到 85%）

先决条件

使用 Skill Creator 前，你需要：

明确的需求：你想让 Claude 帮你完成什么重复性工作？
测试数据：2-3 个真实的测试用例（输入 + 期望输出）
时间：完整流程需要 3-5 轮迭代，每轮 10-30 分钟
评审意愿：你需要查看测试结果并提供反馈

下一步：实战演示

接下来通过具体例子，展示如何：

启动 skill-creator
完成一个完整的创建/改进循环
解读评估报告
做出改进决策

🪴 Quartz 4.0

Explorer

SKILL_CREATOR

一句话定义

它能做什么（四大能力）

1. 创建 Skill

2. 评估 Skill（核心能力）

3. 改进 Skill

4. 优化触发（高级）

它不能做什么

核心工作流程

实际使用示例（预览）

先决条件

下一步：实战演示

Graph View

Table of Contents

Backlinks