MiniMax Mavis：让 Agent 自己给自己挑刺，才是多 Agent 的正确打开方式你有没有过这种体验—— 晚

你有没有过这种体验——

晚上十点，你给一个 AI 智能体下了一个任务。它很认真地列了 7 个步骤，看起来条理分明。你泡了杯茶，心想终于可以当甩手掌柜了。

然后它跑了 3 步，停下来了。

「要继续吗？」

你点了继续。它又跑了 2 步，又停了。

「要继续吗？」

一晚上来来回回，全是「继续」。你从一开始的「好厉害」变成「求求你别再问我了」。最后你干脆坐在电脑前，陪着它走完了全部步骤——合着你没让它替你干活，你给它当了全程监工。

用过 AI 智能体的朋友，对这种体验大概都不陌生。

MiniMax 给这个现象起了一个很精准的名字，叫 「上下文焦虑」。模型不是不会做，它是不敢做。面对超长任务，它判断不了「什么时候才算做完」，于是每一步都在等你的确认。就像一个

上下文焦虑：Agent每跑几步就停下来问继续吗

而这个问题的根源，其实是单 Agent 架构的底层缺陷。一个模型既要规划、又要执行、还要自查——当这些角色全部压在同一个「脑子」里的时候，它的本能反应就是：慢下来，多问，少出错。

MiniMax 这次发布的产品 Mavis，要解决的就是这件事。

Mavis 是什么：比名字更重要的，是背后的 Team Engine

2026 年 5 月 13 日，MiniMax 正式把自家的 Agent 产品升级更名为 Mavis。

如果你觉得这名字有点眼熟——MiniMax as a Jarvis，致敬钢铁侠那个全能管家。意图很明显：你负责思考，我帮你把事干了。

但名字不是重点。真正值得聊的，是 Mavis 上线的核心能力：Team Engine。

传统 AI 智能体干活，靠的是一个模型自己拆任务、自己执行、自己检查。Team Engine 把这件事拆成了三个角色，各干各的：

Leader（统筹） ：负责拆解任务、分配任务、监督进度。只动嘴，不动手。
Worker（执行） ：只干自己那摊活，心无旁骛，不问全局。
Verifier（校验） ：独立质检，专门挑 Worker 的毛病。

这不是简单的「分工」。关键在第三层——Verifier 和 Worker 之间不是协作关系，是对抗关系。

Worker 干完活，Verifier 来挑刺。Verifier 说这不对，Worker 就得回去改。谁也没法蒙混过关。

我把这套架构叫 AI 智能体的「三省六部」：中书省拆任务，六部各地执行，都察院盯着纠错。跟历史上所有好制度一样，

Team Engine三层架构：Leader统筹、Worker执行、Verifier质检

实测：让 Agent 给 Agent「挑刺」，会发生什么

APPSO 的编辑做了深度实测。让我还原一下最关键的那个场景——编程研究任务。

Leader 先把任务拆开，分配给 5 个 Worker。Worker 各自执行，完成后把结果交给 Leader。

然后好玩的事来了。

有一个 Worker 跑了 12 分钟没动静。Leader 等不及了——自己开了一个 bash 终端，主动发命令去检查状态。不是「要继续吗」那种卑微询问，而是直接上手查。就像项目经理发现下属摸鱼，二话不说跑去工位盯着屏幕看。

等 5 个 Worker 全部跑完，Leader 又生成了 5 个 Verifier ——APPSO 形象地管这叫「小黄帽」，专门负责质检。

Verifier 上来就翻数据：你这里不对。判「失败」。对应的 Worker 重新启动，修正错误。然后 Verifier 再审，再挑毛病。

五组一对一对抗，来回数十轮。过程中 Mavis 还表示「学到了新东西」，顺便更新了记忆。

最终给出来的报告，每一个数据前面都

对抗式验证：Worker vs Verifier一对一对抗

另一个任务是深度研究报告——基于权威口径数据分析五一假期旅游市场。因为持续对抗验证，所花的时间比单 Agent 长了不少，但最终的报告「干净不少，也更加可信」。

还有一个线下活动策划任务：启动 9 个并行任务（场地调研、竞品抓取、主题策划、商业计划书、网页开发），中途持续追加需求（合同模板、财务表格、PPT），最终交付了 10 多个文件，xls、ppt、html、md 全都有。

那种感觉不是「AI 帮我干了点活」，而是「AI 替我跑了一个小团队」。

「三省六部」vs「拍脑门」：这次为什么真的不一样

聊到这里，你可能想问：多 Agent 协作又不是什么新概念，过去半年 ChatGPT、Manus、Genspark 都在搞，Mavis 到底哪里不一样？

区别在于：之前的多 Agent，本质上是 Prompt 编排的角色扮演。Mavis 做的，是工程层面的状态机。

传统做法：给模型一个 Prompt，说「你现在是项目经理，你下面有 5 个执行者，你要……」然后模型就开始演。能不能演好，全看 Prompt 写得怎么样和模型当天的「心情」。它随时可能串戏，随时可能偷懒，随时可能「我觉得差不多了，就这样吧」。

而 Mavis 的做法：Leader、Worker、Verifier 不是「演」出来的角色，而是在系统架构层面做了状态管理、上下文隔离和对抗式硬约束。Verifier 必须给出通过/不通过的判定；Worker 被驳回必须重跑。这不是建议，这是机制。

打个比方——

传统多 Agent 像是在剧组里给演员发了角色描述，演技好不好全看状态。
Mavis 是直接写了剧本加一套排练制度，每个角色有明确的走位、台词审查、NG 重来。

这背后是一个重要的工程理念转变：用确定性来根治随机性。

大模型天然是不可控的，这是事实。但你不必接受这个缺陷。你可以用工程层面的严密性，在最外层加上一层确定性约束。让模型在你设计的「笼子」里发挥创造力，而不是放任它在开放空间里随机游走。

这也是 Mavis 解决那个经典问题的方式：AI 智能体既当裁判又当选手。 现在裁判和选手是两个人了，而且裁判只对规则负责，

三省六部vs拍脑门：Prompt角色扮演 vs 工程硬约束

IM 连接的革命：秒回与执行解耦

Mavis 另一个有意思的设计，是对即时通讯场景的处理。

它接入了微信和飞书两个 IM 管道，扫码就能用。但关键不在「能连 IM」，而在于它把 「秒回」和「执行」解耦了。

什么意思？

你用 AI 智能体最烦的是什么？等它干活的时候，你不能做别的事。你跟它说「帮我做个调研」，然后聊天窗口就卡住了——你不知道它是在跑还是在卡死，发新消息又怕打断它的上下文。

Mavis 的处理方式完全不同：你发任务，它秒回「收到，开始」。然后后台默默跑。你可以立刻发第二个任务、第三个任务。每个任务独立启动，互不干扰。

APPSO 做了极限测试：在飞书里极短时间内连续分配了 8 个任务。没有任何语境错乱，每个任务都在自己的轨道上跑。

这背后的技术支撑是上下文隔离——每个 Agent Team 只看到跟自己任务相关的信息摘要，只在自己需要细节的时候才去读全文。就像一个开放式办公室里，每个小组只关心自己白板上的内容，隔壁在干什么跟你没关系。

这种设计把 IM 从一个「只能一件一件来」的对话窗口，变成了一个「

IM连接革命：秒回与执行解耦，上下文隔离

共识成本：多 Agent 不是越多越好

聊了这么多 Mavis 的好，但 MiniMax 自己也在发布中坦诚提了一个概念——我觉得这恰恰是整件事最有诚意的地方。

共识成本（Cost of Consensus）。

多 Agent 更可靠，但它更贵。这个「贵」不只是 Token 消耗的倍数增长。MiniMax 把它拆成了三个维度：

第一，交接成本。 信息在 Agent 之间传递，不是原样转发就行了。Leader 要把任务拆解成 Worker 能理解的格式，Worker 要把执行结果整理成 Verifier 能校验的格式。每一次交接都需要重新组织信息，相当于每多一层协作就多一层「翻译」。

第二，共享成本。 即便每个 Agent 只看跟自己任务相关的信息摘要，随着团队规模扩大，光是存储和分发这些摘要本身就要消耗额外的算力和时间。

第三，聚合成本。 Leader 最终要把所有 Worker 的结果汇总成一份交付物，这个汇总本身就需要花费大量 Token 去理解、整合、统一格式和逻辑。

所以 MiniMax 明确说了：Agent Team 不是默认选项，它是为「贵且复杂」的任务准备的策略选项。

这句话很诚实，也很重要。多 Agent 不是「越多越好」，而是「越对抗越可靠」。对抗的代价是成本，但在复杂任务面前，这笔成本是值得的——就像一个几百万的项目，你不会只派一个实习生去对接，你会配一个完整的团队，哪怕人力成本翻倍。

贵，但贵在认真。

共识成本三维模型：交接成本、共享成本、聚合成本

最后几句

回过头看，Mavis 这次发布最打动我的，不是某个功能有多酷炫，而是一个底层思路的转变——

过去所有人都在追一个目标：让模型更聪明。更大的参数、更长的上下文、更低的幻觉率。这条路当然有价值，但它有一个天花板：模型永远不可能 100% 确定。

而 Mavis 代表的思路是：我不需要每个 Worker 都完美，我只需要确保有人盯着他们，并且盯着的人不负责任何执行。

这不是让 AI 变得更聪明——这是在给 AI 装组织架构、装制度、装监督机制。

在真实的人际工作里，我们也不需要同事多聪明——只是别偷懒，别耍小聪明，往往就够了。

而 Mavis 做的，就是让 AI 没法偷懒。

以上，觉得有收获，点个赞、在看、转发支持一下；想不错过更新，记得星标⭐。下次见。