国产大模型再掀风云！新高度揭秘，AI领域卷出新天际！虽说如今新大模型发布必须有点拿得出手的干货，但MiniMax这次发布

虽说如今新大模型发布必须有点拿得出手的干货，但MiniMax这次发布的M1推理模型还真是太亮眼了不止亿点点了，看到MiniMax官推发布的消息，真的震惊，MiniMax-M1既做到了超长上下文，又做到了更高的训练效率，而且还只花费了53万美元的强化学习训练成本，完全满足了『既要又要还要』的心理诉求，这真是颠覆大模型格局的改进。

我们来具体看看MiniMax-M1到底有多少亮点：

基准榜单成绩

推理模型的表现，重要指标就是在数学和编程领域，如下图所示，在主要的基座测试中，MiniMax-M1模型与DeepSeek-R1 和 Qwen3-235B 这些开源模型相比，完全不落下风，有些基座甚至更优，尤其在TAU-Bench和MRCR测试中的表现，领先得非常明显。

有海外网友总结了这样一张表 x.com/TeksEdge/st… ，对比之下，可以看到在更大范围的基准测试中，真的是大幅领先，MiniMax-M1的80K版本在很多方面甚至都超过了Claude Opus 4，这还真有点惊人，要知道Opus 4可是Anthropic家的最新的大杯模型，最能打的一个了，在MiniMax-M1面前居然居于下风。

重点要说一下TAU-Bench和MRCR，TAU-Bench是Tool-Agent-User，是代理工具使用基准，MRCR是检测LLM在长文本中大海捞针能力的测试。MiniMax-M1在TAU-Bench 上的表现超越了 Gemini 2.5 Pro，在长上下文理解基准MRCR上超越了 OpenAI o3 和 Claude 4 Opus，很明显，MiniMax-M1的优势在于工具使用和长文本任务，这些优势太重要了，因为可以转化为对于AI Agent的更好支持。

训练成本大幅降低

根据MiniMax的技术报告，M1模型是在512块H800 GPU上只花了三周时间就训练完成，强化学习部分花费了大约53万美元，当然，这只考虑了租用GPU训练的成本，不包括研发成本，不过，对比其他推理模型至少几百万美元的单次训练成本，MiniMax-M1的训练成本真的是非常低了！

这成果非常厉害，也难怪国外网友表示：英伟达股票又要跌？

更短的时间，更低的成本，意味着大模型将来的迭代速度会更快，而且均摊下来大模型的生产成本也会更低，这也是国产大模型目前很明显的竞争优势。

超长上下文长度

MiniMax-M1的输入token可达100万长度，输出token可达80K长度，是DeepSeek R1支持的上下文长度的8倍，和其他同类模型o3、Gemini 2.5 Pro、Claude 4等相比，也占明显优势，也就是说，MiniMax-M1就是目前上下文长度最大的推理模型。

超长上下文长度可是太有用了，输入长度越大，代表大模型能够理解的内容越多，输出长度越大，代表思考过程也可以更长，从而更彻底地进行推理，得到更精准的结果。

看MiniMax-M1的这些成绩单十分让人振奋，很自然让人会想，他们是怎么做到的呢？

MiniMax不光以Apache协议开源了M1模型，还提供了M1模型的技术报告，链接在这里 github.com/MiniMax-AI/… ，看了之后，果然，优异的表现来自于不凡的技术突破。

混合注意力推理模型和Lightning Attention

现在大模型表现要获得大幅度跃升，必然要在架构上做大幅度创新，MiniMax-M1这次也不例外，采用的是混合注意力推理模型（hybrid-attention reasoning model），配合Lightning Attention机制，可以非常高效地提高测试时计算(Test-Time Compute)的能力和效率，而测试时计算就是推理模型能够做复杂推理的基础。

现代大模型几乎都是基于Transformer架构或者其变体，如同2014年Transformer的论文名Attention is all you need所言，Transformer中最重要的就是注意力(Attention)机制了，传统的注意力机制的计算复杂度是O(N^2 x d)，其中N是token的序列长度，d是每个token对应embedding的维度，N^2是因为每一个token都要和序列中其他token产生关注，这意味着，计算所需要时间和空间都和序列长度的平方成正比，这样资源消耗的增长是很大的，也是传统Transformer提高上下文长度很困难的主要原因。

MiniMax-M1采用的是Lightning Attention，这种注意力机制其实在MiniMax之前的模型Text-01中就使用过，那时就取得了不俗的效果，现在Lightning Attentioin在M1中再接再厉，可见MiniMax模型系列具备技术延续性。

简单来说，Lightning Attention采用分而治之（Divide-and-Conquer)的策略，把输入token序列拆分成若干很小的块，在每个小块内部进行attention，然后再在块与块之间进行attention，以此避免每一个token之间都要进行attention，在经过精妙的内存优化技术，最后达到O(N * d ^2)，而d往往是一个常数，所以实际上就是O(N)的线性复杂度。

Lightning Attention工作机制

计算复杂度从O(N^2)降低到O(N)，Lightning Attention使得大模型可以支持更长的输入输出序列，同时也带来更快的性能，和DeepSeek R1对比，通常产生10万个token的输出，MiniMax-M1只需要25%的计算资源。这意味着测试时计算的成本也大大降低，推理消耗的成本也会越来越显得低廉，这会促进推理应用的进一步普及。

CISPO

推理模型必然需要强化学习RL，所以很有必要看看采用了什么强化学习方法，MiniMax-M1发明的新方法叫做CISPO，全称Clipped IS-weight Policy Optimization，可以翻译成『截断重要性抽样权重策略优化』，这个方法真的是一个很不错的优化。

传统的强化学习方法，比如近端策略优化（PPO）还有DeepSeek提出的群体相对策略优化（GRPO）在训练过程中都会减掉(Clip)一些比较少出现但是对于『思考』过程很重要的token，比如『然而』『等等』这些看起来很虚的词，但是这些实际上代表思维过程，它们被剪掉之后，就无法作用于模型的梯度更新，从而导致训练不稳定。

CISPO 的做法不像 PPO/GRPO 那样直接减掉或者限制token的更新，相反，它选择Clip重要性采样权重（Importance Sampling Weights），这是一种用于在离线更新时校正分布的机制，这样做的好处是，即使是那些在推理过程中很关键但机率较低的token，其梯度贡献也能被保留下来，CISPO 通过这种『剪辑重要性采样权重而非token更新』的方法，这种方法的确非常巧妙，使训练更加稳定，并提高了强化学习的效率。

从结果看来，CISPO 比字节的DAPO 和DeepSeek的GRPO这些优化方式都要快很多。

MiniMax-M1有两个版本，一个40K，一个80K，如果要充分利用长文本的优势当然选择80K，在github上可以找到MiniMax-M1开源版本，如果想要直接试用，可以访问MiniMax Chat产品，目前已全球上线深度思考模式，国内地址

chat.minimaxi.com ，海外地址 chat.minimax.io/。

如果想要直接试用编程功能，可以用huggingface ：huggingface.co/spaces/Mini…

对于比较复杂的编程问题，可以产出不错的结果，正好也可以看一下Thinking Process，tokens的消耗是巨量的，没有长文本支持还真不行。

写在最后

从性能表现和创新程度看，MiniMax-M1已经是一线推理模型的水平，不过除了M1的技术优势，更进一步可以理解一下MiniMax的技术路线。

首先，混合注意力模型和Lightning Attention突破了传统Transformer的限制，这种架构上的创新让大模型有更高的上限和潜力，可以预期MiniMax将来会有更强大的模型出现。

然后，就是MiniMax的发力方向，他们非常着重于降低训练成本，增加上下文长度，这非常契合AI Agent的发展需求，AI Agent对于tokens的消耗量很大，普通Agent的tokens消耗是Chat模式的4倍，如果是Multi Agent消耗则是Chat模式的15倍。随着AI Agent的发展，能够提供更低成本，更大上下文的大模型才能获得优势，前不久MiniMax也推出了自己的Agent，这应该说明MiniMax是按照这个策略在推进一系列产品，技术路线非常清晰明确。

总之，到2025年了，国产大模型在开源和成本控制上的优势非常明显了，很期待MiniMax后续推出更多亮眼的产品。

资料下载方式

点击下载