MiniMax 核心开发者 × Hermes Agent 开发者访谈：AI 正从“聊天工具”变成 7×24 小时的数字同事

最近这场 MiniMax 两位核心开发者与 Hermes Agent 开发者的访谈很有意思。它表面上是在聊 OpenClaw、Hermes Agent、MiniMax M2.7/M3、Agent Harness，但更深层其实是在讲一个变化：AI 正在从“一个会回答问题的聊天框”，变成“一个可以被配置、被约束、会使用工具、能长期执行任务的生产系统”。

如果说过去普通用户对 AI 的理解是“我问，它答”，那么这场访谈真正指出的是：未来更重要的能力不是会不会提问，而是你能不能把 AI 组织成一个能干活的系统。

一、对普通用户最重要的观点：AI 不再只是聊天，而是可以被“驯化”的数字同事

1. Agent Harness 可以理解成“给模型装上一副手脚”

访谈里对 Harness 的解释非常好懂：如果模型是“大脑”，那么 Agent Harness 就是“手脚”。它负责工具调用、任务循环、状态管理、错误处理，让模型不只是回答问题，而是能真正进入外部世界做事。

换成普通用户能理解的话，就是：你不再只是面对一个聊天机器人，而是在配置一个“同事”。你要告诉它能做什么、不能做什么，给它工具，比如电脑、邮箱、浏览器、代码环境、文件系统，同时也要给它规则和边界。配置好之后，它就可以帮你完成一整套任务。

这也是为什么 Agent 会比普通 ChatGPT 对话更重要。聊天机器人是“给答案”，Agent 是“交付结果”。

2. 普通用户第一次真正感受到 Agent，是因为使用门槛被降下来了

他们提到，国内用户之前没有大规模接触到特别好用的 Agent，而 OpenClaw 这类产品通过 IM 等方式让用户很容易接入，某种程度上完成了从 0 到 1 的体验。也就是说，技术本身不一定是突然出现的，但普通用户第一次用低成本方式感受到它了。

这点很关键。很多 AI 产品不是因为技术不存在，而是因为普通人用不上、不会用、设置太复杂。一旦产品把复杂度包起来，让用户像发微信一样指挥 Agent，AI 才真正从技术圈走向大众。

3. 记忆和 Skill 是 Agent 让人产生信任的关键

Hermes Agent 开发者特别强调了记忆系统：如果你让一个 Agent 做一件事，它这次做对了，下次又做错了，你就很难信任它。但如果它能把正确流程保存成 Skill，下次复现同样路径，用户就会更放心。

这其实解释了为什么“记忆”不是一个小功能，而是 Agent 从玩具变成工具的核心。没有记忆的 Agent 像一个每天失忆的实习生；有记忆和 Skill 的 Agent，才像一个逐渐熟悉你工作习惯的同事。

4. 人类输入速度太慢，开始成为 Agent 的瓶颈

访谈里有一个很重要的判断：人类开始成为瓶颈。

原因很简单。AI 可以一次输出一大段内容，而人类经常只回复几个字，比如“批准”“继续”“加油”。如果是两个 Agent 互相沟通，它们可以秒级交换大量信息；但如果中间夹着人，沟通密度就被大幅拉低。

这说明未来普通用户使用 AI 的方式会变化。不是你每一步都盯着 AI，而是你要学会提前设定目标、规则、检查点，让多个 Agent 自己跑起来。人的角色从“逐字输入者”变成“目标设定者、方向判断者、最终验收者”。

5. 多 Agent 协作不是噱头，而是为了突破单个 Agent 的局限

他们解释了为什么需要多个 Agent。单个 Agent 做长任务时，容易在一个错误方向上越走越远，类似人钻牛角尖。而多个 Agent 可以互相检查，一个负责推进，一个负责质疑，一个负责审查结果，相当于用不同上下文重新看问题。

这对普通用户也有启发：以后你不一定只需要一个“万能助手”，而是需要一组助手。比如一个帮你写方案，一个帮你挑错，一个帮你查资料，一个帮你模拟用户反馈。真正提升质量的不是“AI 自己想得久一点”，而是“AI 之间形成协作结构”。

6. 使用 AI 的心态要变：不是问“它为什么做不到”，而是问“我怎么让它做到”

访谈中有一个观念很重要：当 AI 能力足够强之后，人类社会和工作流会围绕 AI 重构，而不是单纯要求 AI 适应旧的人类流程。

这句话对普通用户非常关键。过去我们使用软件，是人去适应软件；后来 AI 出现，我们期待 AI 适应人；但 Agent 时代可能变成：我们重新设计工作流，让 AI 的能力最大化释放。

也就是说，真正会用 AI 的人，不只是会写提示词，而是会设计流程、拆分任务、配置工具、建立反馈机制。

7. 和“被蒸馏的人”聊天，本质上是交互式读书

访谈里提到，一些用户把乔布斯、巴菲特、同事或某些知识内容整理成 Skill，然后让 Agent 以某种人格或知识结构与自己对话。他们认为这不是真的“蒸馏一个人”，而是把一个人的公开信息、思想、表达方式、工作方法整理成可调用的知识。

这对普通用户很有价值。以后学习不只是读书、看视频，还可能是和一本书、一个知识体系、一个专家画像对话。它像“交互式阅读”：你可以提问、追问、反驳、让它举例。这样 AI 可以把你带到自己原本认知之外的地方。

二、对 AI 从业者更重要的观点：模型和 Agent 会共同进化

1. Agent Harness 是让模型能力真正释放出来的“机甲”

MiniMax 开发者用了一个很形象的比喻：模型像强大的引擎，而 Harness 像高达机甲。模型本身再强，如果没有工具、环境、约束、反馈链路，它也很难完成真实任务。

这意味着做 AI 产品不能只盯模型参数、榜单分数和单轮回答能力。真正的 Agent 产品要考虑：工具怎么接、状态怎么管、失败怎么恢复、权限怎么控制、任务怎么拆解、结果怎么验收。

2. Chatbot 和 Agent 的本质区别，是能不能和真实环境交互并不断修正路径

访谈中提到，Chatbot 的核心是当下给出一个回答；但 Agent 要在真实环境里探索，获得反馈，然后重新规划下一步。比如工具调用之后发现情况和原计划不同，就需要重新思考，而不是死板执行最开始的计划。

这就是所谓的 interleaved thinking/action：边行动，边观察，边修正。对从业者来说，这可能比单纯提升模型“思考时长”更重要。因为真实世界不是静态题目，而是动态环境。

3. 未来模型会不断内化 Agent 的 Workflow 和 Skill

一个很重要的判断是：今天大家搭的 Workflow、写的 Skill、做的脚手架，未来可能都会被模型内化。因为用户使用 Agent 完成任务的轨迹，本身会成为后续训练和改进模型的重要素材。

这对 AI 应用创业者有点残酷。你今天做的通用 Agent 功能，如果只是一个临时脚手架，模型公司可能很快就会吸收掉。真正有长期价值的，可能不是简单包一层壳，而是掌握行业 Know-how、交付闭环、真实场景数据和用户关系。

4. 训练更好的模型，不只是靠算法，还要靠高质量任务定义和专家蒸馏

谈到中美模型差距时，MiniMax 开发者认为，训练方法和模型训练认知上的差距没有那么大，真正的差距在于：如何定义真实任务，如何请各领域最优秀的人参与，如何把专家能力蒸馏成训练数据，再和优秀企业合作构建真实任务闭环。

这点非常重要。很多人以为模型差距主要来自算法秘密，但访谈里强调的是“任务定义能力”和“专家蒸馏能力”。换句话说，谁更懂真实世界的问题，谁更能把顶级专家的判断、经验、流程转化成数据，谁就更可能训练出更强的模型。

5. 人不会消失，但人的价值会从执行转向 taste 和目标判断

访谈中提到，在 MiniMax M2.7 的训练 pipeline 中，已经有相当高比例的工作由模型加 Agent 完成，人类工程师更多负责看实验结果、判断方向、提出 taste 和创造性选择。

这其实是未来很多行业都会发生的变化：人不再负责每个具体步骤，而是负责定义什么是好、什么值得做、往哪里走。执行会越来越自动化，但目标、品味、价值判断仍然需要人。

6. Coding 之所以重要，是因为代码最接近真实世界的可执行解决方案

他们提到，Anthropic 过去一两年发展势头强，很大程度上是因为压中了 coding。原因不是代码本身特殊，而是代码可以创造解决方案，可以直接触碰真实世界的边界。

访谈里还有一个很有意思的观点：Everything is coding。Word、Excel、PPT 看起来是办公软件，但文档里的格式、公式、透视表、逻辑结构，本质上都是某种“小软件”。所以当模型 coding 能力变强，它解决现实问题的能力也会变强。

这对从业者的启发是：不要把 coding 狭义理解成写程序。未来很多办公、金融、法律、人事、投研任务，都会被转化成某种可执行流程。

三、未来展望：通用 Agent、垂直 Agent 和“零人公司”

1. 通用 Agent 会越来越强，但垂直 Agent 仍有“最后一公里”机会

他们认为，垂直领域 Agent 会百花齐放，因为通用 Agent 很难彻底解决最后一公里交付问题。通用能力已经具备，但到了具体行业、具体用户、具体流程，往往还差一个定制化环节。

比如法律场景，正式给客户的法律意见涉及合规成本、风险判断，而且没有绝对标准答案，这种领域对准确性、责任边界、专业流程要求极高，通用 Agent 可能不容易直接吃掉。

但他们也提醒，如果一个垂直 Agent 没有真正的行业壁垒，只是简单套壳或固定流程，未来很可能会被更强的通用 Agent 吞掉。

2. 视频、办公、金融等领域会出现 Agent 化，但长期可能被通用能力吸收

访谈里对视频剪辑这类垂直 Agent 有不同看法。一方认为，视频剪辑和编码范式不同，垂直 Agent 会更有优势；另一方认为，这只是因为当前视频理解和生成模型还不够强，随着模型进步，通用 Agent 最终也能做。

这背后的判断是：很多垂直 Agent 的窗口期，取决于通用模型什么时候补齐能力。如果底层模型能力还不够，垂直产品有机会；一旦模型能力补齐，垂直产品就必须靠场景、数据、交付和信任体系继续存在。

3. 一人公司之后，可能出现“零人公司”，但人仍要定义目标

访谈中提到一个很有冲击力的说法：未来可能不是“一人公司”，而是“零人公司”。也就是 Agent 可以长期运行、自己迭代、自己寻找资源，甚至自己尝试赚钱。

但他们也强调，Agent 仍然需要目标和 taste。一个 Agent 可以 7×24 小时工作，但它需要起点，需要方向，需要有人定义“为什么做这件事”。他们甚至说，人类不应该放弃定义目标的权利。

所以更准确的说法不是“人没用了”，而是“人不再负责低层执行，而要负责目标、审美、判断和意义”。

4. Agent Infra 的底层机会，可能不属于普通创业公司

谈到 Agent Infra，访谈里提到两个最核心的问题：身份认证和支付。这两个问题可能会成为社会级基础设施，类似移动互联网时代的微信和支付宝，因此不一定是普通创业公司能独立承担的机会。

但更上一层仍然有机会，比如为 Agent 构建工具、环境、接口，让 Agent 能挂号、缴费、打车、订服务。这些更靠近业务和应用层，需要垂直行业经验。

也就是说，Agent 时代的创业机会不一定在“我要做一个万能 Agent”，而可能在“我要让 Agent 能够进入某个具体行业并完成闭环”。

四、其他值得记录但不一定对普通用户立刻有用的观点

1. Hermes Agent 的成功不是单点爆发，而是开源社区、易用性和记忆系统共同作用

Hermes Agent 开发者提到，它最初是为了帮助团队成员处理日常工作而做的工具，没有一开始就奔着 benchmark 或爆款去。后来因为开源、易部署、易上手、记忆系统强，才获得快速增长。

这说明很多好产品不是先有宏大叙事，而是先解决真实问题。一个工具如果真的好用，再加上开放社区和低门槛传播，就可能突然放大。

2. MiniMax 与 Hermes 的关系更像模型与 Harness 的互相促进

Hermes 方面提到，MiniMax 模型在 Hermes Agent 用户中使用很多，用户也很愿意尝试不同模型，找到最适合自己任务的组合。双方也在讨论如何把 Hermes 集成到下一代 Agentic model training 中，尤其是 self-improvement 层。

这代表未来模型公司和 Agent 框架之间不只是竞争，也会互相促进。模型需要 Agent 场景来暴露能力边界，Agent 也需要更强模型来提高交付质量。

3. 中国开源模型已经很强，但前沿闭源模型仍有领先点

Hermes 开发者认为，中国目前在开源模型上处于领先位置，同时 Opus 仍在整体能力顶部，但开源和闭源之间的差距正在缩小。

这和 MiniMax 开发者后面谈到的中美差距可以结合看：国内并不是完全落后，尤其在开源和工程落地上很强；但在真实任务定义、专家蒸馏、算力投入、AGI 路线坚定程度上，仍然有需要追赶的地方。

结语：这场访谈真正提醒我们的，不是某个 Agent 火了，而是 AI 的使用范式变了

这场访谈最值得普通人记住的不是 MiniMax M2.7 有多强，也不是 Hermes Agent 增长有多快，而是一个更底层的变化：

AI 正从“你问我答的工具”，变成“可以被组织、被训练、被约束、被交付的生产力系统”。

过去，会用 AI 的人是会提问的人。
现在，会用 AI 的人是会拆任务、配工具、设规则、建流程的人。
未来，会用 AI 的人可能是能定义目标、判断结果、塑造 taste 的人。

也就是说，AI 时代真正重要的能力，正在从“操作工具”变成“驾驭系统”。