为什么说 Agent 时代，真正的壁垒不再只是模型能力？这场 MiniMax 核心开发者与 Hermes Agent 开

这场 MiniMax 核心开发者与 Hermes Agent 开发者的访谈，表面上是在聊 OpenClaw、Hermes Agent、MiniMax M2.7/M3，以及最近 Agent 产品的热度。但如果站在 AI 从业者视角，它真正有技术价值的地方并不是“某个 Agent 爆了”，而是揭示了一个更底层的产业变化：

大模型的下一阶段竞争，不再只是单点模型能力竞争，而是模型、Agent Harness、工具环境、记忆系统、真实反馈数据、后训练 pipeline 之间的系统竞争。

过去我们讨论模型，习惯看参数规模、上下文长度、榜单分数、推理能力、代码能力。但 Agent 时代真正的问题变成了：模型能不能进入真实环境？能不能持续获得反馈？能不能把一次成功路径沉淀成可复用能力？能不能在多轮工具调用中不断修正方向？能不能被后续模型训练吸收，成为下一代模型的一部分？

这才是这场访谈最值得 AI 从业者认真看的地方。

一、Agent Harness 的本质：不是“外壳”，而是模型进入真实世界的执行操作系统

Hermes Agent 开发者对 Harness 的定义非常直接：如果模型是大脑，那么 Agent Harness 就是手脚。它负责工具编排、执行循环、状态管理、错误处理，让模型能够在现实环境中运行，而不是停留在聊天窗口里给答案。

这个定义对 AI 从业者很重要。很多人会把 Agent 产品理解成“在大模型外面包一层 UI”或者“接几个工具调用”。但从技术范式上看，Harness 更像是一个面向 LLM 的执行操作系统。它解决的是模型从“生成文本”到“完成任务”的中间层问题。

具体来说，Harness 至少承担几类核心职责：

第一，状态管理。长任务不可能只靠单轮 prompt，系统需要知道当前任务进展、已经尝试过什么、失败在哪里、哪些信息仍然有效。

第二，工具编排。模型不只是调用一个 API，而是要在浏览器、代码环境、文件系统、数据库、IM、邮箱、部署系统之间做动态调度。

第三，错误恢复。真实环境一定会失败：网页打不开、测试不通过、权限不足、文件格式异常、工具返回不稳定。Agent 的价值不在于永远不犯错，而在于失败后能否识别、恢复、绕路。

第四，约束与权限。Agent 越强，越不能完全放任。什么能自动执行，什么必须人类确认，什么行为需要沙箱隔离，什么操作需要审计，这些都会成为 Agent 产品工程的基础设施。

所以，Harness 不是锦上添花，而是模型产品化的核心层。没有 Harness，模型只是一个强大的语言生成器；有了 Harness，模型才真正变成可以进入工作流的执行体。

二、记忆与 Skill：Agent 信任问题的技术解法

访谈中 Hermes Agent 开发者反复强调记忆系统：用户最痛苦的体验不是 Agent 一次做错，而是“这次做对了，下次又做错了”。这会直接摧毁用户对 Agent 的信任。Hermes 的解决思路是把成功 workflow 保存为 Skill，让 Agent 之后可以复现同样路径，从而提高一致性与可信任性。

这背后其实是一个非常关键的技术问题：Agent 的能力不能只存在于上下文窗口里，而要沉淀成可复用资产。

传统 Chatbot 的“记忆”更像用户偏好存储，比如记住你喜欢什么风格、你是谁、你常做什么。但 Agent 时代的记忆更像程序化经验库：它记住的不只是“用户喜欢什么”，而是“某类任务应该怎么做”。

这就让 Skill 变成一种新的中间形态。它既不是完全写死的代码，也不是临时 prompt，而是介于“经验、流程、工具调用轨迹、执行策略”之间的可迁移能力单元。

从业者应该注意这个方向，因为它可能成为 Agent 产品的关键壁垒：

一个 Agent 没有 Skill，它只是每次重新思考。
一个 Agent 有 Skill，它开始拥有组织经验。
一个 Agent 的 Skill 可以共享，它就有了生态扩散能力。
一个 Agent 的 Skill 可以被模型训练吸收，它就进入了模型迭代闭环。

这也是为什么访谈里提到，使用相同 Harness 和相同 Skills 时，即使切换不同模型，也能得到更一致的输出。这说明未来的 Agent 系统不一定只绑定单个模型，而可能形成“模型可替换，Skill 和 Harness 稳定”的架构。

三、Multi-Agent 的真正价值：不是角色扮演，而是绕开单 Agent 的上下文退化与路径依赖

很多人对 Multi-Agent 有误解，以为它只是把一个模型拆成产品经理、工程师、测试员，然后做一场“AI 过家家”。访谈里给出的解释更有技术价值：Multi-Agent 的意义在于解决单 Agent 的两个问题。

第一个问题是信息传输效率。人类给 Agent 的输入很慢，通常只是几个字；但模型输出很长，两个 Agent 之间可以高密度、低延迟地交换信息。也就是说，多个 Agent 之间通信的信息带宽远高于“人—Agent”通信。

第二个问题是单路径执行的偏移累积。长任务中，如果 Agent 在某一步走偏，它可能沿着错误方向越走越远。访谈里提到，他们在实践中会让两个 Agent 做 cross-check，相当于用新的上下文、不同视角重新审查任务，而不是让一个 Agent 在原有上下文里继续自洽。

这点对技术设计很重要。Multi-Agent 的价值不是“多个角色名字”，而是：

用多个独立上下文，降低单一路径的偏执性；用互相审查机制，弥补模型在长链路任务中的自我确认倾向；用并行探索，提高复杂任务空间的搜索效率。

所以，真正有效的 Multi-Agent 系统，不应该只停留在 prompt 层面的角色分工，而应该有清晰的执行结构：

一个 Agent 负责探索，
一个 Agent 负责验证，
一个 Agent 负责反驳，
一个 Agent 负责整合，
一个 Agent 负责对齐最终目标。

这更像软件工程里的多阶段 pipeline，也像科学研究里的同行评审，而不是简单的“多个 AI 聊天”。

四、Interleaved Thinking：Agent 与 Chatbot 的核心分水岭

访谈中有一个非常关键的技术判断：Chatbot 的核心是“当下给出一个回答”，而 Agent 的核心是在与环境互动过程中不断推理、不断纠正执行路径、不断接近最终目标。

这就是 Agent 与 Chatbot 的本质区别。

Chatbot 可以在回答前 plan，一次性思考，然后输出。
Agent 不行。Agent 必须边执行、边观察、边修正。

访谈里提到 interleaved thinking，也就是模型在工具调用和环境反馈之后再次重新思考，而不是一开始 plan 完就机械执行。

这点非常重要，因为真实世界不是静态 benchmark。你让 Agent 完成一个任务，它可能先查资料，发现信息不完整；再访问网页，发现网页结构变化；再写代码，测试失败；再改代码，依赖冲突；再换方案，最终才完成。

如果模型只在最开始规划一次，它很快会失效。Agentic 能力真正强的模型，必须具备“行动后再推理”的能力。

所以未来评估模型，不应该只看它能不能回答一道题，而要看它能不能在复杂环境中持续调整路径。Browser 类 benchmark 之所以重要，也是因为它考验模型能否在开放网络环境里做深度搜索、交叉验证、折返探索，而不是只靠静态知识回答问题。

这对模型训练也提出了新要求：后训练数据不能只包含“问题—答案”，还要包含“目标—行动—观察—修正—再行动—完成”的轨迹数据。

五、模型与 Agent 的共同进化：应用不是模型的下游，而是模型训练的前沿探针

这场访谈最有远见的观点之一，是模型和 Agent 不是简单的上下游关系，而是互相促进的共同进化关系。

MiniMax 开发者提到，模型推出后，真正把能力用出来的往往不是公司内部评测，而是外部用户、开发者和创作者。真实世界的分布比公司内部测试丰富得多，应用侧会不断 unlock 模型能力边界，而模型公司看到这些做法后，又会重新吸收回模型训练和 Agent 产品里。

这句话非常关键。它意味着：

应用不是模型能力的被动消费者，而是模型能力边界的探测器。

用户怎么用模型，哪里失败，哪里绕路，哪些 workflow 高频出现，哪些 Skill 被反复调用，哪些工具链最有效，这些都会成为下一代模型训练和产品设计的重要信号。

这也解释了为什么模型公司一定会做 Agent。不是因为它们想抢所有应用公司的饭碗，而是因为如果没有 Agent 场景，模型公司就很难获得真实任务轨迹，也很难知道模型在真实世界中到底缺什么能力。

所以未来模型迭代可能会形成这样的闭环：

模型发布 → Agent 应用探索 → 用户产生真实任务轨迹 → Workflow/Skill 沉淀 → 模型公司吸收数据 → 后训练增强 Agentic 能力 → 新模型发布 → 再进入更复杂任务。

这是一种比传统 benchmark 更强的飞轮。

六、对 AI 应用创业者的残酷提醒：通用 Workflow 和 Skill 会被模型内化

访谈里有一句话很“扎心”：通用 Agent 应用比较悲哀的一点，是你永远会被模型内化掉。你写的 Skill、搭的 workflow、做的脚手架，未来都可能成为模型后续训练的素材，慢慢被模型吸收掉。

这对 AI 应用创业者非常重要。

如果一个产品的核心价值只是“把模型暂时不会的流程，用 prompt 和工具串起来”，那它的窗口期可能很短。因为一旦这个流程高频、通用、有足够多轨迹数据，模型公司就有动力把它内化进下一代模型或官方 Agent。

这并不意味着应用层没有机会，而是机会要往更深的地方走：

第一，行业 Know-how。你是否理解某个行业真实流程、隐性规则、交付标准？

第二，私有数据闭环。你是否拥有模型公司拿不到的高质量场景数据？

第三，责任与合规交付。你是否能承担结果责任，而不只是生成建议？

第四，嵌入式工作流。你是否进入了客户的核心业务系统，而不是停留在聊天入口？

第五，人机协同设计。你是否重新设计了组织流程，而不是给旧流程套一个 AI 壳？

未来真正有价值的 AI 应用，不是“我比模型多写几个 prompt”，而是“我掌握了模型难以直接进入的场景闭环”。

七、中美模型差距的本质：不只是算法，而是真实任务定义与专家蒸馏能力

谈到中国模型与 OpenAI、Anthropic 的差距时，访谈里给了一个很值得重视的判断：训练方法和对模型训练的认知差距没有想象中那么大，真正的差距在于如何定义模型要解决的问题，以及如何把各领域最优秀的人蒸馏成训练数据。

这比简单说“算力差距”更深。

模型能力提升，不只是靠更多参数、更多 token、更多 GPU。越到后期，关键越变成：你能不能找到足够难、足够真实、足够有价值的任务；能不能请到真正顶级专家设计任务、标注过程、给出反馈；能不能把专家的判断过程转化为可训练数据。

换句话说，下一阶段模型竞争是“问题定义能力”的竞争。

谁能定义更接近真实世界边界的问题，谁就能训练出更有用的模型。
谁能把顶级专家的 taste、判断、流程、反例、纠错方式蒸馏出来，谁就能获得更高质量的后训练数据。
谁能把模型放进真实企业工作流，谁就能获得更强的 Agentic 反馈闭环。

这也解释了为什么 coding 被认为如此关键。代码不是一个普通垂类，它是创造解决方案的方式。模型 coding 能力越强，就越能触碰真实世界任务的边界，越能产生可验证的反馈。

八、Everything is Coding：未来办公、金融、法律、人事都会被转化为可执行流程

访谈中有一个很有穿透力的观点：Everything is coding。不是说所有人都要写 Python，而是说大量白领工作本质上都是在构造某种可执行逻辑。

Word、Excel、PPT 看起来是办公文件，但它们不是原始数据。Excel 里的公式、透视表、格式、图表，本质上都带有逻辑。你发给别人的不是一堆 raw data，而是“数据 + 界面 + 逻辑”的组合。某种意义上，它就是一个小软件。

这对 AI 从业者很有启发。

未来 Agent 进入办公场景，不是简单帮你写文档，而是把办公任务重新表达为可执行流程。比如：

投研不是写报告，而是数据抓取、指标计算、观点生成、风险校验、格式输出的 pipeline。
法律不是写合同，而是事实抽取、条款匹配、风险识别、合规审查、意见生成的 pipeline。
人事不是写 JD，而是岗位需求分析、候选人筛选、面试反馈、录用流程的 pipeline。
财务不是做表，而是数据对账、异常识别、报表生成、解释说明的 pipeline。

一旦这些流程被 Agent 化，传统 SaaS 的边界会被重构。过去软件提供固定功能，人操作软件；未来 Agent 可能直接操作数据、调用工具、生成界面、完成交付。

九、未来的技术栈判断：模型只是底座，Agent 系统会分层演化

站在 AI 从业者角度，未来 Agent 技术栈可能会形成几个关键层次。

最底层是模型能力，包括推理、代码、多模态、长上下文、工具调用、反思修正能力。

第二层是 Harness，包括状态管理、任务循环、工具编排、错误恢复、权限约束、沙箱环境。

第三层是 Memory/Skill，包括用户偏好、任务流程、成功路径、组织经验、可共享能力单元。

第四层是 Environment，包括浏览器、代码仓库、办公套件、数据库、企业系统、支付、身份、真实业务接口。

第五层是 Feedback Loop，包括测试结果、部署结果、用户确认、业务指标、人工审查、合规反馈。

第六层是 Training Loop，也就是把真实任务轨迹重新用于模型后训练，使模型逐渐内化应用层经验。

真正强的 AI 公司，不会只做其中一层。它们会努力把模型、Agent、工具、反馈、训练串成闭环。

这也是为什么单纯做一个 Agent UI 很难形成长期壁垒，而拥有模型训练能力、Agent 产品场景、真实用户数据和后训练 pipeline 的公司，会形成越来越强的复利。

十、结语：AI 从业者要从“模型崇拜”转向“系统飞轮思维”

这场访谈最值得 AI 从业者记住的，不是 Hermes Agent 有多火，也不是 MiniMax M2.7 在某个社区使用量多高，而是一个更根本的判断：

AI 产业正在从模型单点竞争，进入模型—Agent—工具—数据—后训练的系统飞轮竞争。

未来真正有技术远见的团队，不应该只问：

“我的模型榜单高不高？”
“我的 Agent UI 好不好看？”
“我的工具调用准不准？”

而应该问：

“我的 Agent 能否进入真实任务？”
“我的系统能否持续获得反馈？”
“我的 Skill 能否沉淀和复用？”
“我的 workflow 会不会被模型内化？”
“我的应用是否拥有模型公司拿不到的场景闭环？”
“我的数据能否反哺下一代模型？”

从这个角度看，Agent 不是大模型应用的一个分支，而是大模型继续进化的实验场。
Harness 不是模型外壳，而是模型进入真实世界的执行系统。
Skill 不是提示词技巧，而是可迁移的任务经验。
用户轨迹不是产品日志，而是未来模型训练的重要燃料。
应用公司不是模型公司的下游，而是模型能力边界的探针。

这才是这场 MiniMax 与 Hermes Agent 访谈真正有远见的地方：它让我们看到，AI 的竞争正在从“谁的大脑更聪明”，转向“谁能让大脑在真实世界中持续行动、持续学习、持续进化”。