Agent Harness 在 2026 年的重要性

3 阅读6分钟

  我们正处在人工智能的转折点。多年来,我们只关注模型本身。我们问的是模型有多聪明、有多好。我们查看排行榜和基准测试,看模型A是否击败了模型B。

  静态排行榜上顶级模型之间的差距正在缩小。但这可能是一种假象。模型之间的差距在任务变得越长、越复杂时就越明显。归根结底在于耐久性:模型在执行数百次工具调用的过程中,能多好地遵循指令。排行榜上1%的差异,无法检测出模型在五十步之后偏离轨道的可靠性问题。

  我们需要一种新的方式来展示能力、性能和改进。我们需要能够证明模型可以可靠执行多日工作流的系统。其中一个答案就是 Agent Harness

什么是 Agent Harness?

  Agent Harness 是包裹在 AI 模型周围的、用于管理长期运行任务的基础设施。它不是智能体本身,而是一个软件系统,用于管理智能体的运行方式,确保其保持可靠、高效和可控。

  它运作在比智能体框架更高的层次上。框架提供工具的基础构建模块或实现智能体循环,而 Harness 则提供提示词预设、对工具调用的规范化处理、生命周期钩子,以及即用型能力,如规划、文件系统访问或子智能体管理。它不止是框架,而是“电池”齐全的集成方案。

我们可以通过将其比作计算机来理解:
● 模型 是 CPU:提供原始计算能力。
● 上下文窗口 是 RAM:有限、易失的工作记忆。
● Agent Harness 是操作系统:管理上下文,处理“启动”流程(提示词、钩子),并提供标准驱动程序(工具处理)。
● 智能体 是应用程序:运行在操作系统之上的特定用户逻辑。

  Agent Harness 实现了“上下文工程”策略,例如通过压缩减少上下文、将状态卸载到存储,或将任务隔离到子智能体中。对开发者而言,这意味着你可以跳过构建操作系统,专注于定义智能体独特逻辑的应用程序。

  目前,通用型 Harness 还很少见。Claude Code 是这个新兴类别的一个典型例子,它正尝试通过 Claude Agent SDK 或 LangChain DeepAgents 实现标准化。不过,可以说所有编码 CLI 在某种意义上都是针对特定垂直领域的专用 Agent Harness。

基准测试的问题与 Agent Harness 的必要性

  过去,基准测试大多基于单轮模型输出。去年,我们开始看到一种趋势:评估系统而非原始模型,其中模型是能够使用工具或与环境交互的组件之一,例如 AIMO、SWE-Bench。

  这些较新的基准测试难以衡量可靠性。它们很少测试模型在第50或第100次工具调用/轮次后的行为。而真正的难点正在于此。一个模型可能足够聪明,在一两次尝试中解决难题,但在运行一小时后,却可能无法遵循初始指令或无法对中间步骤进行正确推理。标准基准测试难以捕捉长期工作流所需的耐久性。

  随着基准测试变得愈发复杂,我们需要弥合基准测试结果与用户体验之间的差距。Agent Harness 在三个关键方面至关重要:
● 验证实际进展:基准测试与用户需求脱节。随着新模型频繁发布,Harness 让用户可以轻松测试并比较最新模型在其用例和约束下的实际表现。
● 提升用户体验:没有 Harness,用户体验可能落后于模型的潜能。发布 Harness 使开发者能够使用成熟的工具和最佳实践来构建智能体,确保用户与一致的系统结构交互。
● 通过实际反馈实现优化:一个共享、稳定的环境(Harness)创建了一个反馈循环,研究人员可以根据实际用户采纳情况来迭代和改进基准测试。

构建智能体的“苦涩教训”

  Rich Sutton 曾写过一篇名为《苦涩的教训》的文章。他认为,利用计算能力的通用方法,每次都会击败手工编码的人类知识。我们看到这一教训如今正在智能体开发中上演。
● Manus 在六个月内五次重构了他们的 Harness,以去除僵化的假设。
● LangChain 在一年内三次重构了他们的“Open Deep Research”智能体。
● Vercel 移除了 80% 的智能体工具,从而减少了步骤、令牌和响应时间。

  为了应对“苦涩的教训”,我们的基础设施(Harness)必须保持轻量。每一款新模型发布时,构建智能体的最佳方式都不同。2024 年需要复杂、手工编码流程的能力,在 2026 年可能仅需一个上下文窗口提示就能完成。 开发者必须构建能够随时替换掉昨天写下的“智能”逻辑的 Harness。如果你过度设计了控制流,下一个模型更新就会破坏你的系统。

接下来是什么?

  我们正走向训练环境和推理环境的融合。我们面临的新瓶颈是上下文耐久性。Harness 将成为解决“模型漂移”的主要工具。实验室将利用 Harness 精确检测模型在第100步之后何时停止遵循指令或正确推理。这些数据将直接反馈到训练中,从而创造出在长期任务中不会“疲劳”的模型。

作为构建者和开发者,重点应该转移:
● 从简单开始:不要构建庞大的控制流。提供健壮的原子化工具,让模型制定计划。实施防护、重试和验证机制。
● 为删除而构建:使架构模块化。新模型将取代你的逻辑。你必须准备好随时删除代码。
● Harness 就是数据集:竞争优势不再来自提示词,而是来自你的 Harness 捕获的轨迹。每次你的智能体在工作流后期未能遵循指令,这些轨迹都可以用于训练下一代模型。

本文内容引用www.philschmid.de/agent-harne…