
2026年,AI Agent 已经从概念验证走向生产落地。但一个令人困惑的现象是:同样的模型,不同的团队使用,效果天差地别。OpenAI 的研究表明,模型能力只是基础,真正决定 Agent 性能的是包裹在模型之外的「Harness」层。
一、什么是 Agent Harness?
Anthropic 工程团队给出了官方定义:Agent Harness 是「一个强大的通用型 Agent 运行时层,擅长编码以及其他需要模型使用工具来收集上下文、规划和执行的任务」。
简单来说,如果 LLM 是引擎,Harness 就是整辆车:方向盘、刹车、燃油系统、仪表盘和道路规则。模型产生动力,Harness 将动力转化为旅程。
二、Harness 解决的三大核心问题
从第一性原理看,LLM 是一个接收文本、输出文本的函数。要将其转化为可运营的业务系统,Harness 解决了三个关键问题:
- 上下文管理:什么信息进入模型的上下文窗口、以什么顺序、什么被剔除
- 工具调用循环:将模型输出解析为工具调用,在受控环境中执行,并将结果反馈
- 决策逻辑:决定下一步做什么(继续、停止、询问用户、升级)
三、Harness 的五大核心职责
| 职责 | 说明 |
|---|---|
| Prompt 组装 | 系统提示、AGENTS.md 链、项目记忆、工具定义的组合 |
| 工具使用循环 | 解析、验证、沙箱执行、失败重试 |
| 上下文管理 | 压缩、摘要、缓解「中间迷失」问题 |
| 权限门控 | 审批流程、范围限制、沙箱隔离 |
| 终止逻辑 | 决定何时停止,模型只提供下一步建议 |
四、Harness vs Framework:关键区别
LangChain 创始人 Harrison Chase 提出了三层分类法:
- Framework(框架):LangChain、CrewAI、LlamaIndex、Mastra 等。是构建用的库,提供抽象和标准心智模型。
- Runtime(运行时):Agent 的实际执行环境。
- Harness:运行时层,处理循环、工具调用、上下文和权限。
关键区别:Framework 是构建用的库,Harness 是部署用的运行时。两个团队用相同模型执行相同任务,Harness 的不同会导致截然不同的结果。
五、主流 Harness 实例
- Claude Code:Anthropic 官方,51万行代码,9个月达到 $1B ARR
- Codex CLI:OpenAI 官方,3-7 名工程师 5 个月生成约 100 万行代码
- OpenClawX:社区增强版,强化系统级操作和多渠道交互
- Hermes Agent:Nous Research 出品,技能沉淀为 Markdown
六、为什么 Harness Engineering 如此重要?
METR 的实验表明:相同模型仅更换 Harness,基准测试性能最多相差 6 倍。APEX-Agents 基准测试显示,前沿模型在真实专业任务上的 pass@1 仅为 24%,pass@8 约 40%——失败主要是编排问题,而非知识缺口。
Vercel 的案例更有说服力:他们将 Agent 的工具从 15 个减少到 2 个,在 5 查询基准上准确率从 80% 提升到 100%,token 消耗下降 37%,速度提升 3.5 倍。
七、总结
Harness Engineering 是 AI Agent 时代的核心工程能力。它关注的不是「用什么模型」,而是「如何让模型可靠地工作」。在下一篇文章中,我们将深入剖析 Harness 的六层架构,带你理解从模型到执行的完整链路。
记住:模型是商品,Harness 才是观点。
📚 Harness Engineering 入门到实战系列
本系列手把手教你从零开始掌握 Harness Engineering:
