最近圈子里最热的技术辩论,不是哪个模型更强,而是 AI 编程智能体(Coding Agent)外面那层"壳"该做多厚。
Anthropic 旗帜鲜明:做厚。他们在工程博客里亮出了 GAN 启发的三 Agent 架构——Planner 拆任务、Generator 写代码、Evaluator 当质检员。Sprint 合同、上下文重置、结构化交接,一套重型编排拉满。
OpenAI Codex 针锋相对:做薄。技术负责人 Michael Bolin 公开表态——Harness 应该"尽可能小",模型应该"尽可能强"。给个沙箱、给个终端,让模型自己决策。
行业主流判断?重型 Harness 是中间态,模型变强了自然会收缩。
这个判断不能说错。但它漏掉了一个关键维度。
Harness 不是一条 system prompt,也不是一次工具调用。它是模型外部的整套控制结构——Agent 的工程外骨骼。
它负责的事情很具体:
没有 Harness,模型就是一个裸奔的大脑——聪明,但无法稳定完成长周期、多步骤的编码任务。
Anthropic 在 2025 年底和 2026 年初发布了两篇工程博客,完整展示了他们的"重型 Harness"路线。
架构灵感来自 GAN(生成对抗网络)——把"做事的"和"评判的"分开。
Planner Agent:接受 1-4 句话的用户需求,展开成完整产品规格。它只管"做什么"和"为什么",刻意不涉及"怎么做"——因为过早的实现细节会导致级联错误。
Generator Agent:按 Sprint 增量写代码。在 Opus 4.6 上可以连续跑 2 小时以上。
Evaluator Agent:拿着 Playwright 像真实用户一样操作应用,对着 Sprint 合同打硬性通过/不通过。
这套架构有一个关键发现:LLM 天生不擅长自我评估。Anthropic 的原话是——"当被要求评估自己的工作时,Agent 倾向于自信地夸赞——即使在人类看来质量明显平庸。"
所以他们把评估权从执行者手里拿走了。
成本数据很说明问题:单 Agent 跑 20 分钟花 9 美元,产出不能用的残次品;三 Agent 跑 6 小时花 200 美元,产出真正能工作的应用。
Bolin 的架构极简到几乎可以一句话说完:
组装 prompt → 模型推理 → 工具执行 → 循环
没有 Planner,没有 Evaluator,没有 Sprint 合同。模型自己决定是继续调用工具还是输出结果。
他用 Rust 写 Harness(不是 TypeScript),追求极致性能。三条核心原则:
Bolin 说得很直接:如果模型不够好,Harness 做成花也没用。
如果你只看技术演进轨迹,"中间态"的结论几乎是不可避免的。
证据一:Anthropic 自己在简化。从 Sonnet 4.5 到 Opus 4.6,他们去掉了 Sprint 分解结构——模型变强后,这层编排不再必要。架构从两 Agent → 三 Agent → 简化回去,说明他们也在不断"减法"。
证据二:Anthropic 说过一句很诚实的话——"Harness 里的每一个组件,都编码了一个关于模型做不到什么的假设。这些假设值得反复压力测试。"
证据三:LangChain 在 Terminal Bench 2.0 上的实验,仅靠调整 Harness(模型不变),成绩从 52.8% 提升到 66.5%。但这也意味着——如果模型本身进步了,很多 Harness 优化会变成冗余。
证据四:Manus 团队半年内重写了五次 Harness,每一次都是在做减法。
所以主流结论是:Harness 不会消失,但会从"流程控制层"收缩为"运行环境层"——安全、沙箱、基础工具。
逻辑自洽。数据支撑。结论清晰。
但我觉得这个分析框架少了一条腿。
过去三年,我交付了 7 个以上的 AI Agent 产品,服务对象从个人开发者到企业客户都有。我发现一个行业讨论里几乎没人提的事实:
Harness 的厚度,不只取决于模型的能力,更取决于使用者的身份。
如果你是一个人写代码,你信任模型,你要的是零摩擦——Codex 的路线完全正确。模型越强,你需要的外部编排越少。给我一个沙箱、一个终端、一个强模型,别挡我的路。
这条逻辑线是直的。
但企业客户的世界完全不同。
当我把 AI Agent 部署到企业环境里,客户问的第一个问题从来不是"模型够不够聪明"。他们问的是:
这些需求不会因为模型变强而消失。恰恰相反——模型越强、自主权越大,企业对控制层的需求就越重。
Anthropic 在 Harness 里加 Planner、Evaluator、Sprint 合同,表面上是在补偿模型缺陷。但从企业视角看,这些组件同时在提供组织可读性:
把评估权从执行者手里拿走——这不只是工程上的好实践,更是组织治理的基本原则。你不会让写代码的人自己审代码,同样的道理。
想清楚这一层,整个辩论就清晰了:
信任模型 → 薄 Harness。 你相信模型能自己做对,那就给它最小约束。
信任流程 → 厚 Harness。 你需要流程来保证可控性,那就把流程编码进 Harness。
Codex 的客户画像是信任模型的个人开发者。Anthropic 的客户画像是信任流程的企业组织。
他们不是在同一个维度上争论。
这也解释了为什么 Anthropic 用 TypeScript 写 Claude Code(快速迭代、生态丰富),而 Codex 用 Rust(极致性能、安全保障)。技术选型背后是客户画像的差异。
我自己做 One-Person Capital(开源 Agent 编排与治理平台)的时候,直觉上倾向 Codex 的极简路线。但每次面对企业客户,我都被拉回 Anthropic 那边——不是因为模型不够强,而是因为企业需要的"厚"和模型需要的"厚"是两码事。
模型需要的厚度会随能力提升而减少。组织需要的厚度不会。
这不是一个"谁对谁错"的问题。而是两条路线服务不同市场。
真正的竞争力不在于今天的 Harness 厚还是薄,而在于:你能多快地根据模型进步,把不再必要的层减掉,同时保留组织必须的层。
这才是 Harness 工程的核心竞争力——不是搭积木,是拆积木的速度。
而且说实话,这个判断也可能错。我造了这些工具,我也在参与这场赌注。作为 AI 产品的建设者,我不假装中立。但至少我可以告诉你——在真实的产品战场上,"模型变强了 Harness 就能薄"这句话,只在一半的场景里成立。
Harness 的厚薄之争,表面是技术架构之争,底层是信任架构之争。你信模型,就做薄。你信流程,就做厚。而大多数真实场景,两者都需要。