Agent Harness,正在成为新的 MLOps
引子
过去一年,很多人谈 agent,讨论重点还主要集中在两个问题上:
- 模型够不够强?
- prompt 写得好不好?
这两个问题当然重要,但越来越不够了。
如果只是做一个 demo,它们也许已经够用:
- 选一个不错的 model
- 写一个像样的 system prompt
- 接几个 tools
- 让它跑起来
看上去,一个“agent”就诞生了。
但只要系统真正进入持续使用、真实任务、长上下文、多步骤执行的阶段,事情马上就会变得完全不同。
你会发现,真正决定 agent 是否可用的,往往不是 model intelligence 本身,而是围绕 intelligence 建起来的那一整套执行系统:
- 它怎么管理上下文
- 它怎么处理记忆
- 它怎么调用工具
- 它怎么做状态持久化
- 它怎么处理失败和回退
- 它怎么被观测、调试、审计
- 它怎么被 policy 和 approval 约束
这整套东西,可以统一称为:
Agent Harness
而如果把这个趋势放到更长的技术演化路径里看,会发现它和当年 MLOps 的出现非常相似。
MLOps 让行业意识到:
真正的 ML 系统,不是模型训练脚本本身,而是围绕数据、训练、部署、监控、反馈建立起来的完整工程链路。
今天,Agent Harness 正在让我们意识到另一件事:
真正可用的 agent,不是 prompt + model,而是围绕上下文、工具、记忆、执行控制和治理建立起来的完整运行体系。
所以,这篇文章想讨论的核心命题是:
Agent Harness,正在成为新的 MLOps。
一、为什么“会跑”不等于“可用”
很多 agent 的第一阶段成功,都有一种共同幻觉:
- 能调模型
- 能调工具
- 能做几步自动执行
- 偶尔还能完成惊艳的任务
于是团队会以为:问题已经基本解决,剩下只是调优。
但事实通常相反。
真正的难题,往往在 demo 成功之后才开始出现。
1.1 Demo 解决的是 capability,production 要解决的是 reliability
Demo agent 的目标通常是证明:
- 这个任务模型能理解
- 这个工具接口可以调用
- 这个 workflow 理论上走得通
而 production agent 需要解决的是:
- 多轮对话后会不会失去状态
- 工具失败后会不会卡死或误操作
- 长上下文下记忆会不会污染决策
- 输出结构会不会漂移
- 相似任务能不能稳定复现
- 外部依赖异常时有没有 fallback
- 整个执行过程是否可观察、可中断、可回滚
这两者的关注点完全不同。
前者关注“能不能”,后者关注“稳不稳、可不可控、能不能长期运行”。
1.2 Agent 一旦接触真实世界,就不再只是 NLP 问题
如果 agent 只做纯文本问答,那么问题多数还停留在语言理解和知识生成层。
但一旦 agent 开始接触真实执行面,例如:
- 读写文件
- 打开浏览器
- 调 shell / API
- 操作代码仓库
- 管理任务状态
- 调用多个工具链
- 处理跨轮对话历史
它就已经不是一个单纯的语言系统,而是一个 计算机使用系统。
此时,失败模式也从“答错了”扩展成:
- 调错工具
- 调对工具但顺序错了
- 工具返回异常没处理
- 读取了过期状态
- 上下文里混入错误记忆
- 行为越权
- 外部副作用不可逆
这意味着 agent engineering 的核心,正在从 prompt craftsmanship 转向 systems engineering。
二、Agent Harness 到底是什么
如果要给 Agent Harness 一个工程化定义,可以这样表述:
Agent Harness 是围绕 LLM 构建的执行控制层,它负责把模型能力转化为稳定、可控、可观测、可治理的任务执行能力。
它不是单一组件,而是一组协同工作的 runtime layer。
2.1 Prompt Layer
Prompt 仍然重要,但它在 production system 里的角色需要重新理解。
Prompt 不只是“告诉模型做什么”,而更像:
- role definition
- safety boundary
- tool-use heuristics
- output contract
- escalation policy
- fallback hints
所以 prompt 更接近 execution policy surface,而不是一段孤立的文字技巧。
2.2 Context Layer
上下文是 agent 的即时工作内存。
它决定模型此刻“看到了什么”,也决定模型此刻“忽略了什么”。
在 production agent 里,context 设计至少包括:
- static instructions
- task-local state
- recent interaction history
- retrieved memory
- tool outputs
- environment snapshots
- policy and permission constraints
而 context engineering 的难点就在于平衡:
- 给太少,agent 缺信息
- 给太多,agent 被噪音淹没
- 给得无结构,agent 无法判别优先级
- 给得不可信,agent 会被错误状态劫持
所以 context 不是堆料,而是信息编排。
2.3 Memory Layer
Memory 是 agent 在长任务和跨任务场景中的延伸认知系统。
但 memory 真正难的,从来不是“能不能存”,而是“值不值得取回来”。
一个成熟的 memory layer 至少要回答这些问题:
- 哪些信息应该被记住
- 哪些信息只该短期保留
- 哪些内容应该被压缩而不是原样保留
- 检索时如何避免历史噪音干扰当前判断
- 如何标记 provenance 与置信度
- 何时应该遗忘
如果没有这些 discipline,memory 只会从帮助 agent 变成污染 agent。
2.4 Tool Layer
Tools 是 agent 的行动能力。
但 tool integration 不能只看“能不能调通”,还要看:
- 输入输出是否稳定
- side effects 是否可预测
- 默认行为是否安全
- 错误是否可解释
- 权限边界是否明确
- tool description 是否会污染 agent 判断
换句话说,好的 tool surface 应该像好的 API:
- contract 清晰
- 错误可控
- 默认保守
- audit 友好
2.5 Orchestration Layer
Orchestration 是整个 harness 的 control plane。
它决定:
- 先做什么,后做什么
- 什么时候查 memory
- 什么时候调 tool
- 什么时候切 sub-agent
- 什么时候 asking permission
- 什么时候中断或回退
- 什么时候写入 durable state
这一层如果设计不好,再强的 model 也会表现得像一个不稳定的自动脚本。
2.6 Observability Layer
Observability 是 production capability 的基础。
对于 agent system,至少需要这些观测对象:
- prompt/context snapshot
- memory recall record
- tool call trace
- intermediate outputs
- retries / failures / timeouts
- final action result
- side effect logs
如果没有这些,你甚至无法可靠回答:
- 这次为什么成功?
- 那次为什么失败?
- 是模型错了,还是工具错了?
- 是 context 污染了,还是 memory 检索错了?
2.7 Governance Layer
Governance 是很多团队最晚补、但实际上最早该想清楚的一层。
它包括:
- approval gates
- role-based permissions
- sandboxing
- audit trail
- rollback path
- escalation rules
- compliance constraints
没有 governance,agent 也许能做很多事; 但一旦进入真实业务环境,它就会因为不可控而无法被信任。
三、为什么说它是“新的 MLOps”
这个类比不是修辞,而是结构上的相似。
3.1 MLOps 解决的问题:模型不是系统
在早期 ML 工程里,很多人会把模型训练脚本当成系统主体。
但后来行业慢慢意识到:
真正困难的不是把模型训练出来,而是:
- 数据从哪里来
- 特征怎么构造
- 训练如何复现
- 部署如何自动化
- 线上性能如何监控
- 模型漂移如何识别
- 反馈如何回流
于是 MLOps 出现了。
它让“模型工程”变成了“模型生命周期工程”。
3.2 Agent Harness 解决的问题:LLM 不是 agent system
今天 agent 也在经历类似认知转变。
团队开始意识到:
真正困难的不是“让 LLM 调一下工具”,而是:
- 怎么组织上下文
- 怎么设计 memory lifecycle
- 怎么管控 tool side effects
- 怎么处理长任务状态
- 怎么让执行过程可 replay
- 怎么给人类留出 review / interrupt 点
- 怎么把整个系统纳入 policy 和 audit
因此 Agent Harness 的出现,本质上就是把“agent demo”升级成“agent lifecycle engineering”。
3.3 两者的共同点
MLOps 与 Agent Harness 至少有四个共同点:
(1)核心对象都只是冰山一角
- MLOps 中,model 只是系统的一部分
- Agent system 中,LLM 也只是系统的一部分
(2)真正的复杂性都来自外围系统
- 数据、部署、监控之于 ML
- context、tools、memory、governance 之于 agent
(3)成功标准都从 capability 变成 reliability
- 不是“能训练出来”
- 而是“能否持续、稳定、可控地工作”
(4)都需要闭环
- MLOps 需要 data → train → deploy → observe → improve
- Agent Harness 需要 task → context → act → observe → learn → refine
四、一个更完整的方法论框架
如果要把 Agent Harness 变成一个可操作的方法论,我更倾向于用三层结构来理解。
Layer 1:Intelligence
这是 agent 的认知引擎层,主要包括:
- foundation model quality
- reasoning capability
- multimodal ability
- latency / cost envelope
这一层决定:
- 它能理解多复杂的问题
- 它能进行多深的推理
- 它能处理什么模态输入
但它只决定上限,不保证稳定落地。
Layer 2:Harness
这是把智能转化为执行能力的中间层,主要包括:
- prompt system
- context assembly
- memory recall / compaction
- tool protocol and skill surface
- orchestration and task routing
- progress tracking
- logging / replay / eval
这一层决定:
- 它会不会乱用能力
- 它能不能把能力稳定发挥出来
- 它能不能处理复杂任务中的状态变化
Layer 3:Governance
这是把执行能力纳入现实约束的控制层,主要包括:
- permissions
- approval workflows
- sandboxing
- audit
- rollback
- policy enforcement
- compliance boundary
这一层决定:
- 它能不能被组织信任
- 它能不能进入真实工作流
- 它出了问题后是否可解释、可纠偏
4.1 三层之间的关系
- Intelligence 提供可能性
- Harness 提供稳定性
- Governance 提供可部署性
因此,真正成熟的 agent system 不是:
Good model = good product
而是:
Good model × Good harness × Good governance = deployable agent system
五、对企业团队最现实的启发
5.1 不要把大多数 agent 问题误诊成 model problem
很多团队一遇到效果不好,第一反应就是:
- 换更强模型
- 加更长上下文
- 再写一个更复杂的 prompt
但很多 failure 的根因,其实在 harness:
- retrieval 脏
- memory 污染
- tool contract 不稳定
- orchestration 混乱
- 中间状态没被约束
- 缺少 review / checkpoint
如果误把 harness 问题当成 model 问题,只会让系统越来越贵,却不一定更稳。
5.2 高风险场景里,governance 比 autonomy 更重要
在企业环境、AIOps、合规行业、内部自动化等场景里,真正重要的不是 agent 有多“自主”,而是:
- 是否 bounded
- 是否 explainable
- 是否 interruptible
- 是否 replayable
- 是否 auditable
也就是说:
不是越 autonomous 越好,而是越 governable 越能落地。
5.3 Workflow ownership 才是 agent 产品的长期护城河
模型会变,tool protocol 会商品化,基础能力会逐渐趋同。
真正不容易被替代的,是:
- 对真实 workflow 的理解
- 对状态与异常的处理能力
- 对 memory / routing / review 的编排能力
- 与组织治理结构的深度结合
所以 agent 产品的壁垒,更像 workflow system + execution control,而不是单点 model access。
六、一个 practical checklist:如何判断一个 agent 系统是否接近 production
可以用下面这些问题做快速诊断:
Context
- 上下文是结构化编排的吗?
- 是否区分 instruction、state、memory、tool output?
- 是否有信息优先级控制?
Memory
- 是否有明确的写入标准?
- 是否支持 compaction / summarization?
- 是否能标记来源与置信度?
- 是否有遗忘策略?
Tools
- 工具 contract 是否稳定?
- side effect 是否显式?
- 默认行为是否安全?
- 错误是否能被 agent 和人类同时理解?
Orchestration
- 是否有清晰的 task routing?
- 是否能在失败时 fallback?
- 是否支持 interruption / resume?
- 是否支持 long-running state persistence?
Observability
- 是否保留关键 trace?
- 是否支持 replay?
- 是否能回答“为什么失败/成功”?
- 是否能定位是 model、memory、tool 还是 orchestration 的问题?
Governance
- 是否有 approval gates?
- 是否有最小权限原则?
- 是否支持 sandbox?
- 是否有 audit trail 和 rollback path?
如果这些问题大多数回答还是“不确定”,那系统大概率还停留在 demo 阶段。
七、最后的结论
未来 agent 体系的成熟,不会只靠模型继续变强。
模型会继续进步,这当然重要;但真正决定 agent 能不能进入生产环境、成为稳定劳动力、承担真实 workflow 的,是它外围的 harness。
所以对 agent 的更准确理解应该是:
Agent = Intelligence + Harness + Governance
其中:
- Intelligence 决定它能做到多聪明
- Harness 决定它能不能稳定地把聪明转化为结果
- Governance 决定它能不能被现实世界信任和采用
如果必须压缩成一句话,那我更愿意这样说:
真正可用的 agent,难点不在智能本身,而在智能外围的一整套工程系统。
而这整套工程系统,正在成为 AI 时代新的基础设施 discipline。
也许几年后回头看,我们会像今天谈 MLOps 一样自然地谈 Agent Harness / AgentOps。
因为那时大家已经默认知道:
LLM 不是系统,agent 也不是 prompt。真正决定长期价值的,是能不能把智能组织成一个稳定运行的系统。
可继续深挖的话题
- Agent Harness 与 MCP 标准化:哪些层会被平台化,哪些层仍会是差异化壁垒?
- 长任务 memory system:recall、compaction、provenance 如何设计才不会污染决策?
- AgentOps metrics:task success、latency、retry、fallback、approval rate、memory hit quality 应如何组合?
- Governance-first agent architecture:为什么高风险场景更需要 policy-before-autonomy?
- AIOps 里的 agent harness:如何和 SLO、incident workflow、human escalation、postmortem 体系打通?