原文: Harness design for long-running application development 作者: Prithvi Rajasekaran (Anthropic Labs) 发布日期: 2026年3月24日


一、这篇文章在讲什么

Anthropic 工程师受 GAN 启发的三 Agent 架构(Planner + Generator + Evaluator),如何设计 harness 让 Claude 长时间自主编码。

让 AI 一次做一件小事很容易,但让它连续做几个小时的大任务就很困难。这篇文章介绍了 Anthropic 怎么设计一套”脚手架”(Harness),让 AI 能稳定地产出完整的应用程序。


二、两个核心问题

问题1:Context 丢失

AI 和人一样,上下文太长了就开始糊涂。

现象描述
上下文填满了AI 记不住前面做了什么
Context AnxietyAI 觉得快到极限了,开始草草收尾

解决方案:Context Reset

  • 定期清空上下文,换一个新的 AI 接着干
  • 交接时把状态写清楚,新 AI 读一下就能继续

问题2:AI 总是夸自己

现象描述
让 AI 评估自己的作品永远说”很好”
实际质量明显一般

解决方案:分离 Generator 和 Evaluator

  • 写代码的不评代码
  • 专门找个”质检员”来挑刺

三、GAN 灵感

GAN 是什么:两个神经网络互相对抗,一个生成图片,一个评价图片。

这篇文章用同样的思路:

Generator(生成器)← → Evaluator(评估器)
    产出作品              挑毛病
       ↑                  ↓
       ←──── 迭代改进 ────

为什么有效

  • 自己写的代码总觉得没问题,别人一眼就能看出毛病
  • 评估者可以很刻薄,生成者有具体的改进方向

四、三种 Agent

4.1 Planner(规划者)

输入:用户说一句”我想做一个笔记应用” 输出:详细的规格说明书

作用:把模糊的需求变成可以执行的具体计划

4.2 Generator(生成者)

输入:规格说明书 输出:实际代码/设计

工作方式:一次做一个功能(Sprint),做完自检,然后交给 QA

4.3 Evaluator(质检员)

输入:Generator 的产出 输出:哪里有问题,具体是什么

工作方式:实际运行代码、点击界面、测试功能,不是只看代码


五、评估标准怎么定

前端设计的四个维度

维度权重什么意思
Design Quality整体感强,不是零件拼凑
Originality有原创性,不是模板套用
Craft技术基本功过关
Functionality能用,能完成任务

为什么 Design 和 Originality 权重高:因为 AI 默认这两个很差,代码基本功本来就不差。

评估者的调试

  • 一开始 Evaluator 也会有问题:发现 bug 但觉得”差不多就行”
  • 解决方法:看 Evaluator 的判断哪里不对,调整 prompt
  • 反复几轮后,Evaluator 的判断才能用

六、实际效果对比

任务Solo AIHarness(规划+生成+评估)
做一个小游戏界面有,但游戏跑不起来功能完整,能实际玩
做一个音乐工作站看起来像,但核心功能是假的真的能录、能播、能混音

代价:成本高 20 倍,时间长 20 倍 收获:可用性完全不在一个档次


七、Opus 4.6 带来的变化

4.6 改进了什么

  • 更仔细的规划
  • 长时间任务更稳定
  • 更好的代码审查能力
  • Context Anxiety 大幅减轻

可以简化的部分

原来需要4.6 可以不要了
Context Reset✅ 不需要了
Sprint 分解✅ 不需要了
每轮都评估✅ 结尾评估一次就够了

仍然需要保留的

  • Planner:没有它,Generator 会偷工减料
  • Evaluator:任务超出 AI 能力边界时仍然需要

结论:Evaluator 不是一直有用,只有在”任务很难、AI 会搞砸”的时候才值得。


八、核心经验

1. 不要假设 AI 什么都能

每个 Harness 组件都是对”AI 搞不定什么”的假设。这些假设会过时,要定期重新检查。

2. 分离是金

Generator 和 Evaluator 分离,这一条比任何技巧都重要。

3. 模型变强后重新评估

新模型发布后:

  • 去掉不再需要的组件
  • 加上以前不可能实现的新能力
  • 永远有新的组合值得尝试

九、一句话总结

让 AI 做好复杂任务 = 规划师定方向 + 生成器干活 + 质检员挑刺 + 定期清空上下文重来


文档由 AI 整理,2026-03-26