Harness Design for Long-Running Application Development

原文: Harness design for long-running application development 作者: Prithvi Rajasekaran (Anthropic Labs) 发布日期: 2026年3月24日

一、这篇文章在讲什么

Anthropic 工程师受 GAN 启发的三 Agent 架构（Planner + Generator + Evaluator），如何设计 harness 让 Claude 长时间自主编码。

让 AI 一次做一件小事很容易，但让它连续做几个小时的大任务就很困难。这篇文章介绍了 Anthropic 怎么设计一套”脚手架”（Harness），让 AI 能稳定地产出完整的应用程序。

二、两个核心问题

问题1：Context 丢失

AI 和人一样，上下文太长了就开始糊涂。

现象	描述
上下文填满了	AI 记不住前面做了什么
Context Anxiety	AI 觉得快到极限了，开始草草收尾

解决方案：Context Reset

定期清空上下文，换一个新的 AI 接着干
交接时把状态写清楚，新 AI 读一下就能继续

问题2：AI 总是夸自己

现象	描述
让 AI 评估自己的作品	永远说”很好”
实际质量	明显一般

解决方案：分离 Generator 和 Evaluator

写代码的不评代码
专门找个”质检员”来挑刺

三、GAN 灵感

GAN 是什么：两个神经网络互相对抗，一个生成图片，一个评价图片。

这篇文章用同样的思路：

Generator（生成器）← → Evaluator（评估器）
    产出作品              挑毛病
       ↑                  ↓
       ←──── 迭代改进 ────

为什么有效：

自己写的代码总觉得没问题，别人一眼就能看出毛病
评估者可以很刻薄，生成者有具体的改进方向

四、三种 Agent

4.1 Planner（规划者）

输入：用户说一句”我想做一个笔记应用” 输出：详细的规格说明书

作用：把模糊的需求变成可以执行的具体计划

4.2 Generator（生成者）

输入：规格说明书输出：实际代码/设计

工作方式：一次做一个功能（Sprint），做完自检，然后交给 QA

4.3 Evaluator（质检员）

输入：Generator 的产出输出：哪里有问题，具体是什么

工作方式：实际运行代码、点击界面、测试功能，不是只看代码

五、评估标准怎么定

前端设计的四个维度

维度	权重	什么意思
Design Quality	高	整体感强，不是零件拼凑
Originality	高	有原创性，不是模板套用
Craft	中	技术基本功过关
Functionality	中	能用，能完成任务

为什么 Design 和 Originality 权重高：因为 AI 默认这两个很差，代码基本功本来就不差。

评估者的调试

一开始 Evaluator 也会有问题：发现 bug 但觉得”差不多就行”
解决方法：看 Evaluator 的判断哪里不对，调整 prompt
反复几轮后，Evaluator 的判断才能用

六、实际效果对比

任务	Solo AI	Harness（规划+生成+评估）
做一个小游戏	界面有，但游戏跑不起来	功能完整，能实际玩
做一个音乐工作站	看起来像，但核心功能是假的	真的能录、能播、能混音

代价：成本高 20 倍，时间长 20 倍收获：可用性完全不在一个档次

七、Opus 4.6 带来的变化

4.6 改进了什么

更仔细的规划
长时间任务更稳定
更好的代码审查能力
Context Anxiety 大幅减轻

可以简化的部分

原来需要	4.6 可以不要了
Context Reset	✅ 不需要了
Sprint 分解	✅ 不需要了
每轮都评估	✅ 结尾评估一次就够了

仍然需要保留的

Planner：没有它，Generator 会偷工减料
Evaluator：任务超出 AI 能力边界时仍然需要

结论：Evaluator 不是一直有用，只有在”任务很难、AI 会搞砸”的时候才值得。

八、核心经验

1. 不要假设 AI 什么都能

每个 Harness 组件都是对”AI 搞不定什么”的假设。这些假设会过时，要定期重新检查。

2. 分离是金

Generator 和 Evaluator 分离，这一条比任何技巧都重要。

3. 模型变强后重新评估

新模型发布后：

去掉不再需要的组件
加上以前不可能实现的新能力
永远有新的组合值得尝试

九、一句话总结

让 AI 做好复杂任务 = 规划师定方向 + 生成器干活 + 质检员挑刺 + 定期清空上下文重来

文档由 AI 整理，2026-03-26

🪴 Quartz 4.0

Explorer