原文: Harness design for long-running application development 作者: Prithvi Rajasekaran (Anthropic Labs) 发布日期: 2026年3月24日
一、这篇文章在讲什么
Anthropic 工程师受 GAN 启发的三 Agent 架构(Planner + Generator + Evaluator),如何设计 harness 让 Claude 长时间自主编码。
让 AI 一次做一件小事很容易,但让它连续做几个小时的大任务就很困难。这篇文章介绍了 Anthropic 怎么设计一套”脚手架”(Harness),让 AI 能稳定地产出完整的应用程序。
二、两个核心问题
问题1:Context 丢失
AI 和人一样,上下文太长了就开始糊涂。
| 现象 | 描述 |
|---|---|
| 上下文填满了 | AI 记不住前面做了什么 |
| Context Anxiety | AI 觉得快到极限了,开始草草收尾 |
解决方案:Context Reset
- 定期清空上下文,换一个新的 AI 接着干
- 交接时把状态写清楚,新 AI 读一下就能继续
问题2:AI 总是夸自己
| 现象 | 描述 |
|---|---|
| 让 AI 评估自己的作品 | 永远说”很好” |
| 实际质量 | 明显一般 |
解决方案:分离 Generator 和 Evaluator
- 写代码的不评代码
- 专门找个”质检员”来挑刺
三、GAN 灵感
GAN 是什么:两个神经网络互相对抗,一个生成图片,一个评价图片。
这篇文章用同样的思路:
Generator(生成器)← → Evaluator(评估器)
产出作品 挑毛病
↑ ↓
←──── 迭代改进 ────
为什么有效:
- 自己写的代码总觉得没问题,别人一眼就能看出毛病
- 评估者可以很刻薄,生成者有具体的改进方向
四、三种 Agent
4.1 Planner(规划者)
输入:用户说一句”我想做一个笔记应用” 输出:详细的规格说明书
作用:把模糊的需求变成可以执行的具体计划
4.2 Generator(生成者)
输入:规格说明书 输出:实际代码/设计
工作方式:一次做一个功能(Sprint),做完自检,然后交给 QA
4.3 Evaluator(质检员)
输入:Generator 的产出 输出:哪里有问题,具体是什么
工作方式:实际运行代码、点击界面、测试功能,不是只看代码
五、评估标准怎么定
前端设计的四个维度
| 维度 | 权重 | 什么意思 |
|---|---|---|
| Design Quality | 高 | 整体感强,不是零件拼凑 |
| Originality | 高 | 有原创性,不是模板套用 |
| Craft | 中 | 技术基本功过关 |
| Functionality | 中 | 能用,能完成任务 |
为什么 Design 和 Originality 权重高:因为 AI 默认这两个很差,代码基本功本来就不差。
评估者的调试
- 一开始 Evaluator 也会有问题:发现 bug 但觉得”差不多就行”
- 解决方法:看 Evaluator 的判断哪里不对,调整 prompt
- 反复几轮后,Evaluator 的判断才能用
六、实际效果对比
| 任务 | Solo AI | Harness(规划+生成+评估) |
|---|---|---|
| 做一个小游戏 | 界面有,但游戏跑不起来 | 功能完整,能实际玩 |
| 做一个音乐工作站 | 看起来像,但核心功能是假的 | 真的能录、能播、能混音 |
代价:成本高 20 倍,时间长 20 倍 收获:可用性完全不在一个档次
七、Opus 4.6 带来的变化
4.6 改进了什么
- 更仔细的规划
- 长时间任务更稳定
- 更好的代码审查能力
- Context Anxiety 大幅减轻
可以简化的部分
| 原来需要 | 4.6 可以不要了 |
|---|---|
| Context Reset | ✅ 不需要了 |
| Sprint 分解 | ✅ 不需要了 |
| 每轮都评估 | ✅ 结尾评估一次就够了 |
仍然需要保留的
- Planner:没有它,Generator 会偷工减料
- Evaluator:任务超出 AI 能力边界时仍然需要
结论:Evaluator 不是一直有用,只有在”任务很难、AI 会搞砸”的时候才值得。
八、核心经验
1. 不要假设 AI 什么都能
每个 Harness 组件都是对”AI 搞不定什么”的假设。这些假设会过时,要定期重新检查。
2. 分离是金
Generator 和 Evaluator 分离,这一条比任何技巧都重要。
3. 模型变强后重新评估
新模型发布后:
- 去掉不再需要的组件
- 加上以前不可能实现的新能力
- 永远有新的组合值得尝试
九、一句话总结
让 AI 做好复杂任务 = 规划师定方向 + 生成器干活 + 质检员挑刺 + 定期清空上下文重来
文档由 AI 整理,2026-03-26