经常切换使用CC、Codex、OpenClaw这类Agent的人会发现:同一个模型,放进不同系统里,表现可能完全不同。
近期由CMU、耶鲁大学、弗吉尼亚理工大学及亚马逊等机构组成的研究团队,在系统梳理了170余个开源项目,并总结了OpenAI、Anthropic、LangChain以及大量开源Agent项目中的工程经验后明确指出:包裹模型的“线束系统(Harness)”才是决定Agent是否稳定、长期可用的硬约束。并写成综述《Agent Harness Engineering: A Survey》。


这项工作系统化提出了Agent Harness的ETCLOVG七层架构(覆盖执行、工具、上下文、生命周期、可观测性、评测与治理)体系。这篇文章将带你深度拆解这篇重磅论文,不管你是Agent的开发者还是使用者,看完这篇文章,对于Agent Harness Engineering你就算入门了。
论文最重要的概念叫 binding-constraint thesis,可以翻译为“约束瓶颈命题”或者叫“约束绑定假说”。它的意思是:在长任务、多步骤、工具调用密集的Agent场景中,系统表现不再主要由模型本身决定,而是由模型外部的Harness决定。
论文引用了三个例子来支撑这个观点:
论文由此得出一个很强的判断:在很多真实Agent任务中,换更强模型带来的收益,可能不如改Harness带来的收益大。这和过去两年很多人的直觉一致:同一个模型,在不同Agent框架中表现差异巨大;同样是Claude或Qwen,放进不同工具层、不同上下文管理、不同执行环境,稳定性会完全不同。
这对Agent工程的启发很直接:模型只是推理引擎,Harness才是行为系统。
一个Agent真正能不能完成任务,取决于:
这些都不是模型权重本身解决的问题,而是Harness的职责。
从2022年到2026年,行业经历了一个清晰的三阶段演进:

论文用时间线展示从ReAct、Toolformer、WebArena、MCP到Terminal-Bench等系统的发展,说明Agent工程逐步从单一模型循环扩展到执行环境、工具协议、上下文、编排、可观测性、评测和治理的完整基础设施。
为了系统化地研究这一领域,,研究者提出了ETCLOVG七层分类法:


研究者从GitHub、论文、精选列表、公司工程博客和包注册表中收集候选项目,再经过去重、纳入标准检查和公开文档标注,将170+个项目映射到ETCLOVG七层框架中。
研究者强调,前四层E/T/C/L是结构核心,后三层O/V/G是控制平面。前者让Agent能运行,后者让Agent可控、可查、可验证、可上线。论文尤其强调Observability和Governance应该独立成层,而不是附属于生命周期hook,因为在生产系统中,它们已经有独立工具栈和独立团队所有权。
这个框架的好处是,它把Agent从“模型 + 工具”的简单结构提升成一个完整工程系统。对开发者来说,这意味着设计Agent时不能只写:
LLM + tools + memory
而应该拆成:
runtime + sandbox + tool protocol + context policy + orchestration + tracing + eval + governance
这就是论文的系统视角。
智能体必须在一个物理环境中执行动作。在智能体时代,沙盒不仅仅是为了安全,它还具有三个核心目的:安全(Security)、可复现性(Reproducibility)和活跃性(Liveness)。活跃性是指,通过把智能体关在沙盒里,它可以自由执行操作而无需人类频繁点击“允许”,从而避免了长周期任务中的权限提示疲劳。

论文按沙盒类别整理了Daytona、E2B、OpenAI Code Interpreter、OpenHands、WebArena、OSWorld、SWE-ReX等代表系统,展示执行环境层既包含通用运行时,也包含代码、浏览器、桌面和OS级隔离方案。
论文将沙盒分为七类:
这一层定义了智能体如何发现能力、表示可用操作以及在不同运行时边界执行操作。

工具层被拆成协议标准、工具描述与选择、工具增强训练、规模化与会话管理几类;MCP、A2A、Function Calling、Toolformer、ToolBench、ReAct和LLMCompiler都被放在这一层的不同问题域中。
Context & Memory Management这一层决定智能体连贯性的核心。LLM的注意力机制成本随上下文长度呈二次方增长,并且存在“上下文腐烂(Context Rot)”和“U型注意力曲线”现象(模型容易忽略中间的信息)。因此,上下文不能被动积累,必须主动管理。

论文把上下文管理分成短期活动上下文、中期会话状态、长期持久记忆、长周期上下文技术和上下文漂移限制五部分,对应渐进式披露、结构化笔记、MemGPT/Mem0、上下文压缩和记忆评测等方向。
论文借用操作系统的内存层级,将其分为三层:
在长周期任务(100+ 轮对话)中,还需要使用 上下文压缩(Context Compaction) 和 子智能体隔离(Sub-agent context isolation) 来防止上下文漂移(Context Drift)。
这一层管理智能体在多次调用、失败、重试中的执行流和状态。

生命周期层覆盖单智能体内循环、多智能体编排和从Issue到Pull Request的完整任务流水线,体现Agent从一次工具调用走向持续运行、委派、验证和交付的过程。
论文特别将可观测性提升为独立的一层。因为在生产中,“出了问题怎么排查”是一个巨大的挑战。

论文将可观测性拆成追踪监控、Agent专用运维平台、成本优化、可靠性工程和统一可观测性几类,强调Agent调试需要把模型调用、工具执行、检索、成本和失败归因串成一条可审计轨迹。
评估不再是简单地看“最终答案对不对”,而是转变为一个 “任务到反馈”的五阶段生命周期 (Task-to-Feedback Lifecycle):

论文把评测层组织成任务与基准基础、执行前准备验证、受控执行与轨迹捕获、多级判断与故障归因、持续回归反馈五类,强调评测对象应该是模型与Harness组合,而不是孤立模型。

五阶段评测闭环从“评什么”开始,到“环境是否就绪”“执行中发生了什么”“为什么成功或失败”,最后把失败证据沉淀为回归测试,形成持续改进Harness的机制。
当智能体能执行代码、发邮件时,安全就成了重中之重。

治理层覆盖权限与身份、生命周期钩子、组件加固、声明式宪法、审计基础设施和Agent攻防图谱,说明安全不是单个guardrail,而是一整套跨层控制系统。

论文把治理hook放在输入进入LLM前、工具执行前、工具结果回写上下文前,以及需要人类审批的关键动作前,分别处理提示词注入、越权操作、信息流污染和高风险决策。
这篇论文最深刻的地方在于它指出:ETCLOVG的七层是高度耦合的,无法孤立优化。研究者在此总结出三个核心权衡。
研究者最后提出了五个开放问题:
《Agent Harness Engineering》是对当前大模型智能体落地痛点的一记精准剖析。它将行业的视线从单纯的“卷模型参数”和“卷提示词技巧”,拉回到了严谨的系统工程上来。
它告诉我们:一个真正可用、安全的AI Agent,是由底层的模型引擎(LLM)和一套复杂的底盘、悬挂、刹车、仪表盘系统(Agent Harness)共同组成的。 掌握ETCLOVG七层架构,就是掌握了下一代AI基础设施的入场券。
文章来自于"AI修猫Prompt",作者 "AI修猫Prompt"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0