MiniMax Mavis:让 Agent 自己给自己挑刺,才是多 Agent 的正确打开方式

0 阅读9分钟

你有没有过这种体验——

晚上十点,你给一个 AI 智能体下了一个任务。它很认真地列了 7 个步骤,看起来条理分明。你泡了杯茶,心想终于可以当甩手掌柜了。

然后它跑了 3 步,停下来了。

「要继续吗?」

你点了继续。它又跑了 2 步,又停了。

「要继续吗?」

一晚上来来回回,全是「继续」。你从一开始的「好厉害」变成「求求你别再问我了」。最后你干脆坐在电脑前,陪着它走完了全部步骤——合着你没让它替你干活,你给它当了全程监工。

用过 AI 智能体的朋友,对这种体验大概都不陌生。

MiniMax 给这个现象起了一个很精准的名字,叫 「上下文焦虑」。模型不是不会做,它是不敢做。面对超长任务,它判断不了「什么时候才算做完」,于是每一步都在等你的确认。就像一个

上下文焦虑:Agent每跑几步就停下来问继续吗

上下文焦虑:Agent每跑几步就停下来问继续吗

而这个问题的根源,其实是单 Agent 架构的底层缺陷。一个模型既要规划、又要执行、还要自查——当这些角色全部压在同一个「脑子」里的时候,它的本能反应就是:慢下来,多问,少出错。

MiniMax 这次发布的产品 Mavis,要解决的就是这件事。


Mavis 是什么:比名字更重要的,是背后的 Team Engine

2026 年 5 月 13 日,MiniMax 正式把自家的 Agent 产品升级更名为 Mavis。

如果你觉得这名字有点眼熟——MiniMax as a Jarvis,致敬钢铁侠那个全能管家。意图很明显:你负责思考,我帮你把事干了。

但名字不是重点。真正值得聊的,是 Mavis 上线的核心能力:Team Engine

传统 AI 智能体干活,靠的是一个模型自己拆任务、自己执行、自己检查。Team Engine 把这件事拆成了三个角色,各干各的:

  • Leader(统筹) :负责拆解任务、分配任务、监督进度。只动嘴,不动手。
  • Worker(执行) :只干自己那摊活,心无旁骛,不问全局。
  • Verifier(校验) :独立质检,专门挑 Worker 的毛病。

这不是简单的「分工」。关键在第三层——Verifier 和 Worker 之间不是协作关系,是对抗关系

Worker 干完活,Verifier 来挑刺。Verifier 说这不对,Worker 就得回去改。谁也没法蒙混过关。

我把这套架构叫 AI 智能体的「三省六部」:中书省拆任务,六部各地执行,都察院盯着纠错。跟历史上所有好制度一样,

Team Engine三层架构:Leader统筹、Worker执行、Verifier质检

Team Engine三层架构:Leader统筹、Worker执行、Verifier质检


实测:让 Agent 给 Agent「挑刺」,会发生什么

APPSO 的编辑做了深度实测。让我还原一下最关键的那个场景——编程研究任务。

Leader 先把任务拆开,分配给 5 个 Worker。Worker 各自执行,完成后把结果交给 Leader。

然后好玩的事来了。

有一个 Worker 跑了 12 分钟没动静。Leader 等不及了——自己开了一个 bash 终端,主动发命令去检查状态。不是「要继续吗」那种卑微询问,而是直接上手查。就像项目经理发现下属摸鱼,二话不说跑去工位盯着屏幕看。

等 5 个 Worker 全部跑完,Leader 又生成了 5 个 Verifier ——APPSO 形象地管这叫「小黄帽」,专门负责质检。

Verifier 上来就翻数据:你这里不对。判「失败」。对应的 Worker 重新启动,修正错误。然后 Verifier 再审,再挑毛病。

五组一对一对抗,来回数十轮。过程中 Mavis 还表示「学到了新东西」,顺便更新了记忆。

最终给出来的报告,每一个数据前面都

对抗式验证:Worker vs Verifier一对一对抗

对抗式验证:Worker vs Verifier一对一对抗

另一个任务是深度研究报告——基于权威口径数据分析五一假期旅游市场。因为持续对抗验证,所花的时间比单 Agent 长了不少,但最终的报告「干净不少,也更加可信」。

还有一个线下活动策划任务:启动 9 个并行任务(场地调研、竞品抓取、主题策划、商业计划书、网页开发),中途持续追加需求(合同模板、财务表格、PPT),最终交付了 10 多个文件,xls、ppt、html、md 全都有。

那种感觉不是「AI 帮我干了点活」,而是「AI 替我跑了一个小团队」。


「三省六部」vs「拍脑门」:这次为什么真的不一样

聊到这里,你可能想问:多 Agent 协作又不是什么新概念,过去半年 ChatGPT、Manus、Genspark 都在搞,Mavis 到底哪里不一样?

区别在于:之前的多 Agent,本质上是 Prompt 编排的角色扮演。Mavis 做的,是工程层面的状态机。

传统做法:给模型一个 Prompt,说「你现在是项目经理,你下面有 5 个执行者,你要……」然后模型就开始演。能不能演好,全看 Prompt 写得怎么样和模型当天的「心情」。它随时可能串戏,随时可能偷懒,随时可能「我觉得差不多了,就这样吧」。

而 Mavis 的做法:Leader、Worker、Verifier 不是「演」出来的角色,而是在系统架构层面做了状态管理、上下文隔离和对抗式硬约束。Verifier 必须给出通过/不通过的判定;Worker 被驳回必须重跑。这不是建议,这是机制。

打个比方——

  • 传统多 Agent 像是在剧组里给演员发了角色描述,演技好不好全看状态。
  • Mavis 是直接写了剧本加一套排练制度,每个角色有明确的走位、台词审查、NG 重来。

这背后是一个重要的工程理念转变:用确定性来根治随机性。

大模型天然是不可控的,这是事实。但你不必接受这个缺陷。你可以用工程层面的严密性,在最外层加上一层确定性约束。让模型在你设计的「笼子」里发挥创造力,而不是放任它在开放空间里随机游走。

这也是 Mavis 解决那个经典问题的方式:AI 智能体既当裁判又当选手。 现在裁判和选手是两个人了,而且裁判只对规则负责,

三省六部vs拍脑门:Prompt角色扮演 vs 工程硬约束

三省六部vs拍脑门:Prompt角色扮演 vs 工程硬约束


IM 连接的革命:秒回与执行解耦

Mavis 另一个有意思的设计,是对即时通讯场景的处理。

它接入了微信和飞书两个 IM 管道,扫码就能用。但关键不在「能连 IM」,而在于它把 「秒回」和「执行」解耦了

什么意思?

你用 AI 智能体最烦的是什么?等它干活的时候,你不能做别的事。你跟它说「帮我做个调研」,然后聊天窗口就卡住了——你不知道它是在跑还是在卡死,发新消息又怕打断它的上下文。

Mavis 的处理方式完全不同:你发任务,它秒回「收到,开始」。然后后台默默跑。你可以立刻发第二个任务、第三个任务。每个任务独立启动,互不干扰。

APPSO 做了极限测试:在飞书里极短时间内连续分配了 8 个任务。没有任何语境错乱,每个任务都在自己的轨道上跑。

这背后的技术支撑是上下文隔离——每个 Agent Team 只看到跟自己任务相关的信息摘要,只在自己需要细节的时候才去读全文。就像一个开放式办公室里,每个小组只关心自己白板上的内容,隔壁在干什么跟你没关系。

这种设计把 IM 从一个「只能一件一件来」的对话窗口,变成了一个「

IM连接革命:秒回与执行解耦,上下文隔离

IM连接革命:秒回与执行解耦,上下文隔离


共识成本:多 Agent 不是越多越好

聊了这么多 Mavis 的好,但 MiniMax 自己也在发布中坦诚提了一个概念——我觉得这恰恰是整件事最有诚意的地方。

共识成本(Cost of Consensus)。

多 Agent 更可靠,但它更贵。这个「贵」不只是 Token 消耗的倍数增长。MiniMax 把它拆成了三个维度:

第一,交接成本。 信息在 Agent 之间传递,不是原样转发就行了。Leader 要把任务拆解成 Worker 能理解的格式,Worker 要把执行结果整理成 Verifier 能校验的格式。每一次交接都需要重新组织信息,相当于每多一层协作就多一层「翻译」。

第二,共享成本。 即便每个 Agent 只看跟自己任务相关的信息摘要,随着团队规模扩大,光是存储和分发这些摘要本身就要消耗额外的算力和时间。

第三,聚合成本。 Leader 最终要把所有 Worker 的结果汇总成一份交付物,这个汇总本身就需要花费大量 Token 去理解、整合、统一格式和逻辑。

所以 MiniMax 明确说了:Agent Team 不是默认选项,它是为「贵且复杂」的任务准备的策略选项。

这句话很诚实,也很重要。多 Agent 不是「越多越好」,而是「越对抗越可靠」。对抗的代价是成本,但在复杂任务面前,这笔成本是值得的——就像一个几百万的项目,你不会只派一个实习生去对接,你会配一个完整的团队,哪怕人力成本翻倍。

贵,但贵在认真。

共识成本三维模型:交接成本、共享成本、聚合成本

共识成本三维模型:交接成本、共享成本、聚合成本


最后几句

回过头看,Mavis 这次发布最打动我的,不是某个功能有多酷炫,而是一个底层思路的转变——

过去所有人都在追一个目标:让模型更聪明。更大的参数、更长的上下文、更低的幻觉率。这条路当然有价值,但它有一个天花板:模型永远不可能 100% 确定。

而 Mavis 代表的思路是:我不需要每个 Worker 都完美,我只需要确保有人盯着他们,并且盯着的人不负责任何执行。

这不是让 AI 变得更聪明——这是在给 AI 装组织架构、装制度、装监督机制。

在真实的人际工作里,我们也不需要同事多聪明——只是别偷懒,别耍小聪明,往往就够了。

而 Mavis 做的,就是让 AI 没法偷懒。


以上,觉得有收获,点个赞、在看、转发支持一下;想不错过更新,记得星标⭐。下次见。