MiniMax 核心开发者 × Hermes Agent 开发者访谈:AI 正从“聊天工具”变成 7×24 小时的数字同事

45 阅读14分钟

最近这场 MiniMax 两位核心开发者与 Hermes Agent 开发者的访谈很有意思。它表面上是在聊 OpenClaw、Hermes Agent、MiniMax M2.7/M3、Agent Harness,但更深层其实是在讲一个变化:AI 正在从“一个会回答问题的聊天框”,变成“一个可以被配置、被约束、会使用工具、能长期执行任务的生产系统”。

如果说过去普通用户对 AI 的理解是“我问,它答”,那么这场访谈真正指出的是:未来更重要的能力不是会不会提问,而是你能不能把 AI 组织成一个能干活的系统

一、对普通用户最重要的观点:AI 不再只是聊天,而是可以被“驯化”的数字同事

1. Agent Harness 可以理解成“给模型装上一副手脚”

访谈里对 Harness 的解释非常好懂:如果模型是“大脑”,那么 Agent Harness 就是“手脚”。它负责工具调用、任务循环、状态管理、错误处理,让模型不只是回答问题,而是能真正进入外部世界做事。

换成普通用户能理解的话,就是:你不再只是面对一个聊天机器人,而是在配置一个“同事”。你要告诉它能做什么、不能做什么,给它工具,比如电脑、邮箱、浏览器、代码环境、文件系统,同时也要给它规则和边界。配置好之后,它就可以帮你完成一整套任务。

这也是为什么 Agent 会比普通 ChatGPT 对话更重要。聊天机器人是“给答案”,Agent 是“交付结果”。

2. 普通用户第一次真正感受到 Agent,是因为使用门槛被降下来了

他们提到,国内用户之前没有大规模接触到特别好用的 Agent,而 OpenClaw 这类产品通过 IM 等方式让用户很容易接入,某种程度上完成了从 0 到 1 的体验。也就是说,技术本身不一定是突然出现的,但普通用户第一次用低成本方式感受到它了

这点很关键。很多 AI 产品不是因为技术不存在,而是因为普通人用不上、不会用、设置太复杂。一旦产品把复杂度包起来,让用户像发微信一样指挥 Agent,AI 才真正从技术圈走向大众。

3. 记忆和 Skill 是 Agent 让人产生信任的关键

Hermes Agent 开发者特别强调了记忆系统:如果你让一个 Agent 做一件事,它这次做对了,下次又做错了,你就很难信任它。但如果它能把正确流程保存成 Skill,下次复现同样路径,用户就会更放心。

这其实解释了为什么“记忆”不是一个小功能,而是 Agent 从玩具变成工具的核心。没有记忆的 Agent 像一个每天失忆的实习生;有记忆和 Skill 的 Agent,才像一个逐渐熟悉你工作习惯的同事。

4. 人类输入速度太慢,开始成为 Agent 的瓶颈

访谈里有一个很重要的判断:人类开始成为瓶颈。

原因很简单。AI 可以一次输出一大段内容,而人类经常只回复几个字,比如“批准”“继续”“加油”。如果是两个 Agent 互相沟通,它们可以秒级交换大量信息;但如果中间夹着人,沟通密度就被大幅拉低。

这说明未来普通用户使用 AI 的方式会变化。不是你每一步都盯着 AI,而是你要学会提前设定目标、规则、检查点,让多个 Agent 自己跑起来。人的角色从“逐字输入者”变成“目标设定者、方向判断者、最终验收者”。

5. 多 Agent 协作不是噱头,而是为了突破单个 Agent 的局限

他们解释了为什么需要多个 Agent。单个 Agent 做长任务时,容易在一个错误方向上越走越远,类似人钻牛角尖。而多个 Agent 可以互相检查,一个负责推进,一个负责质疑,一个负责审查结果,相当于用不同上下文重新看问题。

这对普通用户也有启发:以后你不一定只需要一个“万能助手”,而是需要一组助手。比如一个帮你写方案,一个帮你挑错,一个帮你查资料,一个帮你模拟用户反馈。真正提升质量的不是“AI 自己想得久一点”,而是“AI 之间形成协作结构”。

6. 使用 AI 的心态要变:不是问“它为什么做不到”,而是问“我怎么让它做到”

访谈中有一个观念很重要:当 AI 能力足够强之后,人类社会和工作流会围绕 AI 重构,而不是单纯要求 AI 适应旧的人类流程。

这句话对普通用户非常关键。过去我们使用软件,是人去适应软件;后来 AI 出现,我们期待 AI 适应人;但 Agent 时代可能变成:我们重新设计工作流,让 AI 的能力最大化释放。

也就是说,真正会用 AI 的人,不只是会写提示词,而是会设计流程、拆分任务、配置工具、建立反馈机制。

7. 和“被蒸馏的人”聊天,本质上是交互式读书

访谈里提到,一些用户把乔布斯、巴菲特、同事或某些知识内容整理成 Skill,然后让 Agent 以某种人格或知识结构与自己对话。他们认为这不是真的“蒸馏一个人”,而是把一个人的公开信息、思想、表达方式、工作方法整理成可调用的知识。

这对普通用户很有价值。以后学习不只是读书、看视频,还可能是和一本书、一个知识体系、一个专家画像对话。它像“交互式阅读”:你可以提问、追问、反驳、让它举例。这样 AI 可以把你带到自己原本认知之外的地方。

二、对 AI 从业者更重要的观点:模型和 Agent 会共同进化

1. Agent Harness 是让模型能力真正释放出来的“机甲”

MiniMax 开发者用了一个很形象的比喻:模型像强大的引擎,而 Harness 像高达机甲。模型本身再强,如果没有工具、环境、约束、反馈链路,它也很难完成真实任务。

这意味着做 AI 产品不能只盯模型参数、榜单分数和单轮回答能力。真正的 Agent 产品要考虑:工具怎么接、状态怎么管、失败怎么恢复、权限怎么控制、任务怎么拆解、结果怎么验收。

2. Chatbot 和 Agent 的本质区别,是能不能和真实环境交互并不断修正路径

访谈中提到,Chatbot 的核心是当下给出一个回答;但 Agent 要在真实环境里探索,获得反馈,然后重新规划下一步。比如工具调用之后发现情况和原计划不同,就需要重新思考,而不是死板执行最开始的计划。

这就是所谓的 interleaved thinking/action:边行动,边观察,边修正。对从业者来说,这可能比单纯提升模型“思考时长”更重要。因为真实世界不是静态题目,而是动态环境。

3. 未来模型会不断内化 Agent 的 Workflow 和 Skill

一个很重要的判断是:今天大家搭的 Workflow、写的 Skill、做的脚手架,未来可能都会被模型内化。因为用户使用 Agent 完成任务的轨迹,本身会成为后续训练和改进模型的重要素材。

这对 AI 应用创业者有点残酷。你今天做的通用 Agent 功能,如果只是一个临时脚手架,模型公司可能很快就会吸收掉。真正有长期价值的,可能不是简单包一层壳,而是掌握行业 Know-how、交付闭环、真实场景数据和用户关系。

4. 训练更好的模型,不只是靠算法,还要靠高质量任务定义和专家蒸馏

谈到中美模型差距时,MiniMax 开发者认为,训练方法和模型训练认知上的差距没有那么大,真正的差距在于:如何定义真实任务,如何请各领域最优秀的人参与,如何把专家能力蒸馏成训练数据,再和优秀企业合作构建真实任务闭环。

这点非常重要。很多人以为模型差距主要来自算法秘密,但访谈里强调的是“任务定义能力”和“专家蒸馏能力”。换句话说,谁更懂真实世界的问题,谁更能把顶级专家的判断、经验、流程转化成数据,谁就更可能训练出更强的模型。

5. 人不会消失,但人的价值会从执行转向 taste 和目标判断

访谈中提到,在 MiniMax M2.7 的训练 pipeline 中,已经有相当高比例的工作由模型加 Agent 完成,人类工程师更多负责看实验结果、判断方向、提出 taste 和创造性选择。

这其实是未来很多行业都会发生的变化:人不再负责每个具体步骤,而是负责定义什么是好、什么值得做、往哪里走。执行会越来越自动化,但目标、品味、价值判断仍然需要人。

6. Coding 之所以重要,是因为代码最接近真实世界的可执行解决方案

他们提到,Anthropic 过去一两年发展势头强,很大程度上是因为压中了 coding。原因不是代码本身特殊,而是代码可以创造解决方案,可以直接触碰真实世界的边界。

访谈里还有一个很有意思的观点:Everything is coding。Word、Excel、PPT 看起来是办公软件,但文档里的格式、公式、透视表、逻辑结构,本质上都是某种“小软件”。所以当模型 coding 能力变强,它解决现实问题的能力也会变强。

这对从业者的启发是:不要把 coding 狭义理解成写程序。未来很多办公、金融、法律、人事、投研任务,都会被转化成某种可执行流程。

三、未来展望:通用 Agent、垂直 Agent 和“零人公司”

1. 通用 Agent 会越来越强,但垂直 Agent 仍有“最后一公里”机会

他们认为,垂直领域 Agent 会百花齐放,因为通用 Agent 很难彻底解决最后一公里交付问题。通用能力已经具备,但到了具体行业、具体用户、具体流程,往往还差一个定制化环节。

比如法律场景,正式给客户的法律意见涉及合规成本、风险判断,而且没有绝对标准答案,这种领域对准确性、责任边界、专业流程要求极高,通用 Agent 可能不容易直接吃掉。

但他们也提醒,如果一个垂直 Agent 没有真正的行业壁垒,只是简单套壳或固定流程,未来很可能会被更强的通用 Agent 吞掉。

2. 视频、办公、金融等领域会出现 Agent 化,但长期可能被通用能力吸收

访谈里对视频剪辑这类垂直 Agent 有不同看法。一方认为,视频剪辑和编码范式不同,垂直 Agent 会更有优势;另一方认为,这只是因为当前视频理解和生成模型还不够强,随着模型进步,通用 Agent 最终也能做。

这背后的判断是:很多垂直 Agent 的窗口期,取决于通用模型什么时候补齐能力。如果底层模型能力还不够,垂直产品有机会;一旦模型能力补齐,垂直产品就必须靠场景、数据、交付和信任体系继续存在。

3. 一人公司之后,可能出现“零人公司”,但人仍要定义目标

访谈中提到一个很有冲击力的说法:未来可能不是“一人公司”,而是“零人公司”。也就是 Agent 可以长期运行、自己迭代、自己寻找资源,甚至自己尝试赚钱。

但他们也强调,Agent 仍然需要目标和 taste。一个 Agent 可以 7×24 小时工作,但它需要起点,需要方向,需要有人定义“为什么做这件事”。他们甚至说,人类不应该放弃定义目标的权利。

所以更准确的说法不是“人没用了”,而是“人不再负责低层执行,而要负责目标、审美、判断和意义”。

4. Agent Infra 的底层机会,可能不属于普通创业公司

谈到 Agent Infra,访谈里提到两个最核心的问题:身份认证和支付。这两个问题可能会成为社会级基础设施,类似移动互联网时代的微信和支付宝,因此不一定是普通创业公司能独立承担的机会。

但更上一层仍然有机会,比如为 Agent 构建工具、环境、接口,让 Agent 能挂号、缴费、打车、订服务。这些更靠近业务和应用层,需要垂直行业经验。

也就是说,Agent 时代的创业机会不一定在“我要做一个万能 Agent”,而可能在“我要让 Agent 能够进入某个具体行业并完成闭环”。

四、其他值得记录但不一定对普通用户立刻有用的观点

1. Hermes Agent 的成功不是单点爆发,而是开源社区、易用性和记忆系统共同作用

Hermes Agent 开发者提到,它最初是为了帮助团队成员处理日常工作而做的工具,没有一开始就奔着 benchmark 或爆款去。后来因为开源、易部署、易上手、记忆系统强,才获得快速增长。

这说明很多好产品不是先有宏大叙事,而是先解决真实问题。一个工具如果真的好用,再加上开放社区和低门槛传播,就可能突然放大。

2. MiniMax 与 Hermes 的关系更像模型与 Harness 的互相促进

Hermes 方面提到,MiniMax 模型在 Hermes Agent 用户中使用很多,用户也很愿意尝试不同模型,找到最适合自己任务的组合。双方也在讨论如何把 Hermes 集成到下一代 Agentic model training 中,尤其是 self-improvement 层。

这代表未来模型公司和 Agent 框架之间不只是竞争,也会互相促进。模型需要 Agent 场景来暴露能力边界,Agent 也需要更强模型来提高交付质量。

3. 中国开源模型已经很强,但前沿闭源模型仍有领先点

Hermes 开发者认为,中国目前在开源模型上处于领先位置,同时 Opus 仍在整体能力顶部,但开源和闭源之间的差距正在缩小。

这和 MiniMax 开发者后面谈到的中美差距可以结合看:国内并不是完全落后,尤其在开源和工程落地上很强;但在真实任务定义、专家蒸馏、算力投入、AGI 路线坚定程度上,仍然有需要追赶的地方。

结语:这场访谈真正提醒我们的,不是某个 Agent 火了,而是 AI 的使用范式变了

这场访谈最值得普通人记住的不是 MiniMax M2.7 有多强,也不是 Hermes Agent 增长有多快,而是一个更底层的变化:

AI 正从“你问我答的工具”,变成“可以被组织、被训练、被约束、被交付的生产力系统”。

过去,会用 AI 的人是会提问的人。
现在,会用 AI 的人是会拆任务、配工具、设规则、建流程的人。
未来,会用 AI 的人可能是能定义目标、判断结果、塑造 taste 的人。

也就是说,AI 时代真正重要的能力,正在从“操作工具”变成“驾驭系统”。