国产大模型再掀风云!新高度揭秘,AI领域卷出新天际!

159 阅读9分钟

虽说如今新大模型发布必须有点拿得出手的干货,但MiniMax这次发布的M1推理模型还真是太亮眼了不止亿点点了,看到MiniMax官推发布的消息,真的震惊,MiniMax-M1既做到了超长上下文,又做到了更高的训练效率,而且还只花费了53万美元的强化学习训练成本,完全满足了『既要又要还要』的心理诉求,这真是颠覆大模型格局的改进。

我们来具体看看MiniMax-M1到底有多少亮点:

基准榜单成绩

推理模型的表现,重要指标就是在数学和编程领域,如下图所示,在主要的基座测试中,MiniMax-M1模型与DeepSeek-R1 和 Qwen3-235B 这些开源模型相比,完全不落下风,有些基座甚至更优,尤其在TAU-Bench和MRCR测试中的表现,领先得非常明显。

有海外网友总结了这样一张表 x.com/TeksEdge/st… ,对比之下,可以看到在更大范围的基准测试中,真的是大幅领先,MiniMax-M1的80K版本在很多方面甚至都超过了Claude Opus 4,这还真有点惊人,要知道Opus 4可是Anthropic家的最新的大杯模型,最能打的一个了,在MiniMax-M1面前居然居于下风。

重点要说一下TAU-Bench和MRCR,TAU-Bench是Tool-Agent-User,是代理工具使用基准,MRCR是检测LLM在长文本中大海捞针能力的测试。MiniMax-M1在TAU-Bench 上的表现超越了 Gemini 2.5 Pro,在长上下文理解基准MRCR上超越了 OpenAI o3 和 Claude 4 Opus,很明显,MiniMax-M1的优势在于工具使用和长文本任务,这些优势太重要了,因为可以转化为对于AI Agent的更好支持。

训练成本大幅降低

根据MiniMax的技术报告,M1模型是在512块H800 GPU上只花了三周时间就训练完成,强化学习部分花费了大约53万美元,当然,这只考虑了租用GPU训练的成本,不包括研发成本,不过,对比其他推理模型至少几百万美元的单次训练成本,MiniMax-M1的训练成本真的是非常低了!

这成果非常厉害,也难怪国外网友表示:英伟达股票又要跌?

更短的时间,更低的成本,意味着大模型将来的迭代速度会更快,而且均摊下来大模型的生产成本也会更低,这也是国产大模型目前很明显的竞争优势。

超长上下文长度

MiniMax-M1的输入token可达100万长度,输出token可达80K长度,是DeepSeek R1支持的上下文长度的8倍,和其他同类模型o3、Gemini 2.5 Pro、Claude 4等相比,也占明显优势,也就是说,MiniMax-M1就是目前上下文长度最大的推理模型。

超长上下文长度可是太有用了,输入长度越大,代表大模型能够理解的内容越多,输出长度越大,代表思考过程也可以更长,从而更彻底地进行推理,得到更精准的结果。

看MiniMax-M1的这些成绩单十分让人振奋,很自然让人会想,他们是怎么做到的呢?

MiniMax不光以Apache协议开源了M1模型,还提供了M1模型的技术报告,链接在这里 github.com/MiniMax-AI/… ,看了之后,果然,优异的表现来自于不凡的技术突破。

混合注意力推理模型和Lightning Attention

现在大模型表现要获得大幅度跃升,必然要在架构上做大幅度创新,MiniMax-M1这次也不例外,采用的是混合注意力推理模型(hybrid-attention reasoning model),配合Lightning Attention机制,可以非常高效地提高测试时计算(Test-Time Compute)的能力和效率,而测试时计算就是推理模型能够做复杂推理的基础。

现代大模型几乎都是基于Transformer架构或者其变体,如同2014年Transformer的论文名Attention is all you need所言,Transformer中最重要的就是注意力(Attention)机制了,传统的注意力机制的计算复杂度是O(N^2 x d),其中N是token的序列长度,d是每个token对应embedding的维度,N^2是因为每一个token都要和序列中其他token产生关注,这意味着,计算所需要时间和空间都和序列长度的平方成正比,这样资源消耗的增长是很大的,也是传统Transformer提高上下文长度很困难的主要原因。

MiniMax-M1采用的是Lightning Attention,这种注意力机制其实在MiniMax之前的模型Text-01中就使用过,那时就取得了不俗的效果,现在Lightning Attentioin在M1中再接再厉,可见MiniMax模型系列具备技术延续性。

简单来说,Lightning Attention采用分而治之(Divide-and-Conquer)的策略,把输入token序列拆分成若干很小的块,在每个小块内部进行attention,然后再在块与块之间进行attention,以此避免每一个token之间都要进行attention,在经过精妙的内存优化技术,最后达到O(N * d ^2),而d往往是一个常数,所以实际上就是O(N)的线性复杂度。

Lightning Attention工作机制

计算复杂度从O(N^2)降低到O(N),Lightning Attention使得大模型可以支持更长的输入输出序列,同时也带来更快的性能,和DeepSeek R1对比,通常产生10万个token的输出,MiniMax-M1只需要25%的计算资源。这意味着测试时计算的成本也大大降低,推理消耗的成本也会越来越显得低廉,这会促进推理应用的进一步普及。

CISPO

推理模型必然需要强化学习RL,所以很有必要看看采用了什么强化学习方法,MiniMax-M1发明的新方法叫做CISPO,全称Clipped IS-weight Policy Optimization,可以翻译成『截断重要性抽样权重策略优化』,这个方法真的是一个很不错的优化。

传统的强化学习方法,比如近端策略优化(PPO)还有DeepSeek提出的群体相对策略优化(GRPO)在训练过程中都会减掉(Clip)一些比较少出现但是对于『思考』过程很重要的token,比如『然而』『等等』这些看起来很虚的词,但是这些实际上代表思维过程,它们被剪掉之后,就无法作用于模型的梯度更新,从而导致训练不稳定。

CISPO 的做法不像 PPO/GRPO 那样直接减掉或者限制token的更新,相反,它选择Clip重要性采样权重(Importance Sampling Weights),这是一种用于在离线更新时校正分布的机制,这样做的好处是,即使是那些在推理过程中很关键但机率较低的token,其梯度贡献也能被保留下来,CISPO 通过这种『剪辑重要性采样权重而非token更新』的方法,这种方法的确非常巧妙,使训练更加稳定,并提高了强化学习的效率。

从结果看来,CISPO 比 字节的DAPO 和DeepSeek的GRPO这些优化方式都要快很多。

MiniMax-M1有两个版本,一个40K,一个80K,如果要充分利用长文本的优势当然选择80K,在github上可以找到MiniMax-M1开源版本,如果想要直接试用,可以访问MiniMax Chat产品,目前已全球上线深度思考模式,国内地址

chat.minimaxi.com ,海外地址 chat.minimax.io/。

如果想要直接试用编程功能,可以用huggingface :huggingface.co/spaces/Mini…

对于比较复杂的编程问题,可以产出不错的结果,正好也可以看一下Thinking Process,tokens的消耗是巨量的,没有长文本支持还真不行。

写在最后

从性能表现和创新程度看,MiniMax-M1已经是一线推理模型的水平,不过除了M1的技术优势,更进一步可以理解一下MiniMax的技术路线。

首先,混合注意力模型和Lightning Attention突破了传统Transformer的限制,这种架构上的创新让大模型有更高的上限和潜力,可以预期MiniMax将来会有更强大的模型出现。

然后,就是MiniMax的发力方向,他们非常着重于降低训练成本,增加上下文长度,这非常契合AI Agent的发展需求,AI Agent对于tokens的消耗量很大,普通Agent的tokens消耗是Chat模式的4倍,如果是Multi Agent消耗则是Chat模式的15倍。随着AI Agent的发展,能够提供更低成本,更大上下文的大模型才能获得优势,前不久MiniMax也推出了自己的Agent,这应该说明MiniMax是按照这个策略在推进一系列产品,技术路线非常清晰明确。

总之,到2025年了,国产大模型在开源和成本控制上的优势非常明显了,很期待MiniMax后续推出更多亮眼的产品。

资料下载方式

点击下载