为什么说 Agent 时代,真正的壁垒不再只是模型能力?

40 阅读15分钟

这场 MiniMax 核心开发者与 Hermes Agent 开发者的访谈,表面上是在聊 OpenClaw、Hermes Agent、MiniMax M2.7/M3,以及最近 Agent 产品的热度。但如果站在 AI 从业者视角,它真正有技术价值的地方并不是“某个 Agent 爆了”,而是揭示了一个更底层的产业变化:

大模型的下一阶段竞争,不再只是单点模型能力竞争,而是模型、Agent Harness、工具环境、记忆系统、真实反馈数据、后训练 pipeline 之间的系统竞争。

过去我们讨论模型,习惯看参数规模、上下文长度、榜单分数、推理能力、代码能力。但 Agent 时代真正的问题变成了:模型能不能进入真实环境?能不能持续获得反馈?能不能把一次成功路径沉淀成可复用能力?能不能在多轮工具调用中不断修正方向?能不能被后续模型训练吸收,成为下一代模型的一部分?

这才是这场访谈最值得 AI 从业者认真看的地方。

一、Agent Harness 的本质:不是“外壳”,而是模型进入真实世界的执行操作系统

Hermes Agent 开发者对 Harness 的定义非常直接:如果模型是大脑,那么 Agent Harness 就是手脚。它负责工具编排、执行循环、状态管理、错误处理,让模型能够在现实环境中运行,而不是停留在聊天窗口里给答案。

这个定义对 AI 从业者很重要。很多人会把 Agent 产品理解成“在大模型外面包一层 UI”或者“接几个工具调用”。但从技术范式上看,Harness 更像是一个面向 LLM 的执行操作系统。它解决的是模型从“生成文本”到“完成任务”的中间层问题。

具体来说,Harness 至少承担几类核心职责:

第一,状态管理。长任务不可能只靠单轮 prompt,系统需要知道当前任务进展、已经尝试过什么、失败在哪里、哪些信息仍然有效。

第二,工具编排。模型不只是调用一个 API,而是要在浏览器、代码环境、文件系统、数据库、IM、邮箱、部署系统之间做动态调度。

第三,错误恢复。真实环境一定会失败:网页打不开、测试不通过、权限不足、文件格式异常、工具返回不稳定。Agent 的价值不在于永远不犯错,而在于失败后能否识别、恢复、绕路。

第四,约束与权限。Agent 越强,越不能完全放任。什么能自动执行,什么必须人类确认,什么行为需要沙箱隔离,什么操作需要审计,这些都会成为 Agent 产品工程的基础设施。

所以,Harness 不是锦上添花,而是模型产品化的核心层。没有 Harness,模型只是一个强大的语言生成器;有了 Harness,模型才真正变成可以进入工作流的执行体。

二、记忆与 Skill:Agent 信任问题的技术解法

访谈中 Hermes Agent 开发者反复强调记忆系统:用户最痛苦的体验不是 Agent 一次做错,而是“这次做对了,下次又做错了”。这会直接摧毁用户对 Agent 的信任。Hermes 的解决思路是把成功 workflow 保存为 Skill,让 Agent 之后可以复现同样路径,从而提高一致性与可信任性。

这背后其实是一个非常关键的技术问题:Agent 的能力不能只存在于上下文窗口里,而要沉淀成可复用资产。

传统 Chatbot 的“记忆”更像用户偏好存储,比如记住你喜欢什么风格、你是谁、你常做什么。但 Agent 时代的记忆更像程序化经验库:它记住的不只是“用户喜欢什么”,而是“某类任务应该怎么做”。

这就让 Skill 变成一种新的中间形态。它既不是完全写死的代码,也不是临时 prompt,而是介于“经验、流程、工具调用轨迹、执行策略”之间的可迁移能力单元。

从业者应该注意这个方向,因为它可能成为 Agent 产品的关键壁垒:

一个 Agent 没有 Skill,它只是每次重新思考。
一个 Agent 有 Skill,它开始拥有组织经验。
一个 Agent 的 Skill 可以共享,它就有了生态扩散能力。
一个 Agent 的 Skill 可以被模型训练吸收,它就进入了模型迭代闭环。

这也是为什么访谈里提到,使用相同 Harness 和相同 Skills 时,即使切换不同模型,也能得到更一致的输出。这说明未来的 Agent 系统不一定只绑定单个模型,而可能形成“模型可替换,Skill 和 Harness 稳定”的架构。

三、Multi-Agent 的真正价值:不是角色扮演,而是绕开单 Agent 的上下文退化与路径依赖

很多人对 Multi-Agent 有误解,以为它只是把一个模型拆成产品经理、工程师、测试员,然后做一场“AI 过家家”。访谈里给出的解释更有技术价值:Multi-Agent 的意义在于解决单 Agent 的两个问题。

第一个问题是信息传输效率。人类给 Agent 的输入很慢,通常只是几个字;但模型输出很长,两个 Agent 之间可以高密度、低延迟地交换信息。也就是说,多个 Agent 之间通信的信息带宽远高于“人—Agent”通信。

第二个问题是单路径执行的偏移累积。长任务中,如果 Agent 在某一步走偏,它可能沿着错误方向越走越远。访谈里提到,他们在实践中会让两个 Agent 做 cross-check,相当于用新的上下文、不同视角重新审查任务,而不是让一个 Agent 在原有上下文里继续自洽。

这点对技术设计很重要。Multi-Agent 的价值不是“多个角色名字”,而是:

用多个独立上下文,降低单一路径的偏执性;用互相审查机制,弥补模型在长链路任务中的自我确认倾向;用并行探索,提高复杂任务空间的搜索效率。

所以,真正有效的 Multi-Agent 系统,不应该只停留在 prompt 层面的角色分工,而应该有清晰的执行结构:

一个 Agent 负责探索,
一个 Agent 负责验证,
一个 Agent 负责反驳,
一个 Agent 负责整合,
一个 Agent 负责对齐最终目标。

这更像软件工程里的多阶段 pipeline,也像科学研究里的同行评审,而不是简单的“多个 AI 聊天”。

四、Interleaved Thinking:Agent 与 Chatbot 的核心分水岭

访谈中有一个非常关键的技术判断:Chatbot 的核心是“当下给出一个回答”,而 Agent 的核心是在与环境互动过程中不断推理、不断纠正执行路径、不断接近最终目标。

这就是 Agent 与 Chatbot 的本质区别。

Chatbot 可以在回答前 plan,一次性思考,然后输出。
Agent 不行。Agent 必须边执行、边观察、边修正。

访谈里提到 interleaved thinking,也就是模型在工具调用和环境反馈之后再次重新思考,而不是一开始 plan 完就机械执行。

这点非常重要,因为真实世界不是静态 benchmark。你让 Agent 完成一个任务,它可能先查资料,发现信息不完整;再访问网页,发现网页结构变化;再写代码,测试失败;再改代码,依赖冲突;再换方案,最终才完成。

如果模型只在最开始规划一次,它很快会失效。Agentic 能力真正强的模型,必须具备“行动后再推理”的能力。

所以未来评估模型,不应该只看它能不能回答一道题,而要看它能不能在复杂环境中持续调整路径。Browser 类 benchmark 之所以重要,也是因为它考验模型能否在开放网络环境里做深度搜索、交叉验证、折返探索,而不是只靠静态知识回答问题。

这对模型训练也提出了新要求:后训练数据不能只包含“问题—答案”,还要包含“目标—行动—观察—修正—再行动—完成”的轨迹数据。

五、模型与 Agent 的共同进化:应用不是模型的下游,而是模型训练的前沿探针

这场访谈最有远见的观点之一,是模型和 Agent 不是简单的上下游关系,而是互相促进的共同进化关系。

MiniMax 开发者提到,模型推出后,真正把能力用出来的往往不是公司内部评测,而是外部用户、开发者和创作者。真实世界的分布比公司内部测试丰富得多,应用侧会不断 unlock 模型能力边界,而模型公司看到这些做法后,又会重新吸收回模型训练和 Agent 产品里。

这句话非常关键。它意味着:

应用不是模型能力的被动消费者,而是模型能力边界的探测器。

用户怎么用模型,哪里失败,哪里绕路,哪些 workflow 高频出现,哪些 Skill 被反复调用,哪些工具链最有效,这些都会成为下一代模型训练和产品设计的重要信号。

这也解释了为什么模型公司一定会做 Agent。不是因为它们想抢所有应用公司的饭碗,而是因为如果没有 Agent 场景,模型公司就很难获得真实任务轨迹,也很难知道模型在真实世界中到底缺什么能力。

所以未来模型迭代可能会形成这样的闭环:

模型发布 → Agent 应用探索 → 用户产生真实任务轨迹 → Workflow/Skill 沉淀 → 模型公司吸收数据 → 后训练增强 Agentic 能力 → 新模型发布 → 再进入更复杂任务。

这是一种比传统 benchmark 更强的飞轮。

六、对 AI 应用创业者的残酷提醒:通用 Workflow 和 Skill 会被模型内化

访谈里有一句话很“扎心”:通用 Agent 应用比较悲哀的一点,是你永远会被模型内化掉。你写的 Skill、搭的 workflow、做的脚手架,未来都可能成为模型后续训练的素材,慢慢被模型吸收掉。

这对 AI 应用创业者非常重要。

如果一个产品的核心价值只是“把模型暂时不会的流程,用 prompt 和工具串起来”,那它的窗口期可能很短。因为一旦这个流程高频、通用、有足够多轨迹数据,模型公司就有动力把它内化进下一代模型或官方 Agent。

这并不意味着应用层没有机会,而是机会要往更深的地方走:

第一,行业 Know-how。你是否理解某个行业真实流程、隐性规则、交付标准?

第二,私有数据闭环。你是否拥有模型公司拿不到的高质量场景数据?

第三,责任与合规交付。你是否能承担结果责任,而不只是生成建议?

第四,嵌入式工作流。你是否进入了客户的核心业务系统,而不是停留在聊天入口?

第五,人机协同设计。你是否重新设计了组织流程,而不是给旧流程套一个 AI 壳?

未来真正有价值的 AI 应用,不是“我比模型多写几个 prompt”,而是“我掌握了模型难以直接进入的场景闭环”。

七、中美模型差距的本质:不只是算法,而是真实任务定义与专家蒸馏能力

谈到中国模型与 OpenAI、Anthropic 的差距时,访谈里给了一个很值得重视的判断:训练方法和对模型训练的认知差距没有想象中那么大,真正的差距在于如何定义模型要解决的问题,以及如何把各领域最优秀的人蒸馏成训练数据。

这比简单说“算力差距”更深。

模型能力提升,不只是靠更多参数、更多 token、更多 GPU。越到后期,关键越变成:你能不能找到足够难、足够真实、足够有价值的任务;能不能请到真正顶级专家设计任务、标注过程、给出反馈;能不能把专家的判断过程转化为可训练数据。

换句话说,下一阶段模型竞争是“问题定义能力”的竞争。

谁能定义更接近真实世界边界的问题,谁就能训练出更有用的模型。
谁能把顶级专家的 taste、判断、流程、反例、纠错方式蒸馏出来,谁就能获得更高质量的后训练数据。
谁能把模型放进真实企业工作流,谁就能获得更强的 Agentic 反馈闭环。

这也解释了为什么 coding 被认为如此关键。代码不是一个普通垂类,它是创造解决方案的方式。模型 coding 能力越强,就越能触碰真实世界任务的边界,越能产生可验证的反馈。

八、Everything is Coding:未来办公、金融、法律、人事都会被转化为可执行流程

访谈中有一个很有穿透力的观点:Everything is coding。不是说所有人都要写 Python,而是说大量白领工作本质上都是在构造某种可执行逻辑。

Word、Excel、PPT 看起来是办公文件,但它们不是原始数据。Excel 里的公式、透视表、格式、图表,本质上都带有逻辑。你发给别人的不是一堆 raw data,而是“数据 + 界面 + 逻辑”的组合。某种意义上,它就是一个小软件。

这对 AI 从业者很有启发。

未来 Agent 进入办公场景,不是简单帮你写文档,而是把办公任务重新表达为可执行流程。比如:

投研不是写报告,而是数据抓取、指标计算、观点生成、风险校验、格式输出的 pipeline。
法律不是写合同,而是事实抽取、条款匹配、风险识别、合规审查、意见生成的 pipeline。
人事不是写 JD,而是岗位需求分析、候选人筛选、面试反馈、录用流程的 pipeline。
财务不是做表,而是数据对账、异常识别、报表生成、解释说明的 pipeline。

一旦这些流程被 Agent 化,传统 SaaS 的边界会被重构。过去软件提供固定功能,人操作软件;未来 Agent 可能直接操作数据、调用工具、生成界面、完成交付。

九、未来的技术栈判断:模型只是底座,Agent 系统会分层演化

站在 AI 从业者角度,未来 Agent 技术栈可能会形成几个关键层次。

最底层是模型能力,包括推理、代码、多模态、长上下文、工具调用、反思修正能力。

第二层是 Harness,包括状态管理、任务循环、工具编排、错误恢复、权限约束、沙箱环境。

第三层是 Memory/Skill,包括用户偏好、任务流程、成功路径、组织经验、可共享能力单元。

第四层是 Environment,包括浏览器、代码仓库、办公套件、数据库、企业系统、支付、身份、真实业务接口。

第五层是 Feedback Loop,包括测试结果、部署结果、用户确认、业务指标、人工审查、合规反馈。

第六层是 Training Loop,也就是把真实任务轨迹重新用于模型后训练,使模型逐渐内化应用层经验。

真正强的 AI 公司,不会只做其中一层。它们会努力把模型、Agent、工具、反馈、训练串成闭环。

这也是为什么单纯做一个 Agent UI 很难形成长期壁垒,而拥有模型训练能力、Agent 产品场景、真实用户数据和后训练 pipeline 的公司,会形成越来越强的复利。

十、结语:AI 从业者要从“模型崇拜”转向“系统飞轮思维”

这场访谈最值得 AI 从业者记住的,不是 Hermes Agent 有多火,也不是 MiniMax M2.7 在某个社区使用量多高,而是一个更根本的判断:

AI 产业正在从模型单点竞争,进入模型—Agent—工具—数据—后训练的系统飞轮竞争。

未来真正有技术远见的团队,不应该只问:

“我的模型榜单高不高?”
“我的 Agent UI 好不好看?”
“我的工具调用准不准?”

而应该问:

“我的 Agent 能否进入真实任务?”
“我的系统能否持续获得反馈?”
“我的 Skill 能否沉淀和复用?”
“我的 workflow 会不会被模型内化?”
“我的应用是否拥有模型公司拿不到的场景闭环?”
“我的数据能否反哺下一代模型?”

从这个角度看,Agent 不是大模型应用的一个分支,而是大模型继续进化的实验场。
Harness 不是模型外壳,而是模型进入真实世界的执行系统。
Skill 不是提示词技巧,而是可迁移的任务经验。
用户轨迹不是产品日志,而是未来模型训练的重要燃料。
应用公司不是模型公司的下游,而是模型能力边界的探针。

这才是这场 MiniMax 与 Hermes Agent 访谈真正有远见的地方:它让我们看到,AI 的竞争正在从“谁的大脑更聪明”,转向“谁能让大脑在真实世界中持续行动、持续学习、持续进化”。