MiniMax 开源 4M 超长上下文新模型!性能比肩 DeepSeek-v3、GPT-4o

524 阅读5分钟

开源模型上下文窗口卷到超长,达 400 万 token

刚刚,“大模型六小强” 之一 MiniMax 开源最新模型——

MiniMax-01 系列,包含两个模型:基础语言模型 MiniMax-Text-01、视觉多模态模型 MiniMax-VL-01。

MiniMax-01 首次大规模扩展了新型 Lightning Attention 架构,替代了传统 Transformer 架构,使模型能够高效处理 4M token 上下文。

在基准测试中,MiniMax-01 性能与顶级闭源模型表现相当。

MiniMax-Text-01 性能与前段时间大火的 DeepSeek-V3、GPT-4o 等打的有来有回:

如下图 (c) 所示,当上下文超过 20 万 token,MiniMax-Text-01 的优势逐渐明显。

在预填充延迟方面也有显著优势,在处理超长上下文时更高效,延迟更低:

网友直呼 “难以置信”:

开放权重,拥有 400 万 token 的上下文窗口!我原本以为这可能要五年后才会实现。

官方表示,MiniMax-01 是为支持之后 Agent 相关应用而预备的:

因为 Agent 越来越需要扩展的上下文处理能力和持续的内存。

目前官方还公开了 MiniMax-01 的 68 页技术论文,并且已将 MiniMax-01 在 Hailuo AI 上部署了,可免费试用。

另外,新模型 API 价格也被打下来了:

输入每百万 token0.2 美元,输出每百万 token1.1 美元。

下面是模型更多细节。

4M 超长上下文

MiniMax-Text-01

MiniMax-Text-01,参数 456B,每次推理激活 45.9B。

它创新性地采用了混合架构,结合了 Lightning Attention、Softmax Attention 以及 Mixture-of-Experts(MoE)。

并且通过 LASP+、varlen ring attention、ETP 等优化的并行策略和高效的计算通信重叠方法,MiniMax-Text-01 训练上下文长度达 100 万 token,推理时可以扩展到 400 万 token 上下文。

模型架构细节如下:

在 Core Academic Benchmark 上,MiniMax-Text-01 在 GPQA Diamond 上获得 54.4 分,超越 GPT-4o。

在长基准测试之 4M 大海捞针测试,MiniMax-Text-01 一水儿全绿。

也就是说,这 400 万上下文里,有细节 MiniMax-Text-01 是真能 100% 捕捉到。

除此之外,还有 LongBench v2、Ruler 基准测试,考验的是模型长上下文理解能力,包含基于长上下文输入的逻辑推理能力。

MiniMax-Text-01 模型在处理 Ruler 的长上下文推理任务时表现出显著的优势。

在 64K 输入级别的表现与顶尖模型 GPT-4o、Claude-3.5-Sonnet 等竞争力相当,变化微小,但从 128K 开始显现出明显的优势,并超越了所有基准模型。

LongBench-V2 包括不同难度级别的问答任务,涵盖多种上下文类型,包括单文档和多文档、多轮对话、代码仓库和长结构化数据等。团队考虑了两种测试模式:不使用思维链推理(w/o CoT)和使用思维链推理(w/ CoT)。

MiniMax-Text-01 在 w/ CoT 设置中实现了所有评估系统中的最佳结果,在 w/o CoT 中表现也很显著。

团队还用 MTOB( Machine Translation from One Book)数据集评估了模型从上****下文中学习的能力。

该任务要求模型在英语和 Kalamang(一种在公开数据中非常有限的语言)之间进行翻译,因此在训练语料库中,LLM 仅从一部语法书的部分内容和 375 个翻译示例中学习该语言。

测试结果显示,MiniMax-Text-01 在无上下文场景下 eng→kalam (ChrF) 得分最低,团队认为其它模型可能是在预训练或后训练数据中集加入了 kalam 相关数据。在 delta half book 和 full book 上,MiniMax-Text-01 超过了所有模型。

在 kalam→eng(BLEURT) 得分上 MiniMax-Text-01 也与其它模型表现相当。

MiniMax-VL-01

MiniMax-VL-01 采用多模态大语言模型常用的 “ViT-MLP-LLM” 框架:

  • 一个具有 3.03 亿参数的 ViT 用于视觉编码

  • 一个随机初始化的双层 MLP projector 用于图像适配

  • 以及作为基础 LLM 的 MiniMax-Text-01

MiniMax-VL-01 特别具有动态分辨率功能,可以根据预设网格调整输入图像的大小,分辨率从 336×336 到 2016×2016 不等,并保留一个 336×336 的缩略图。

调整后的图像被分割成大小相同的不重叠块,这些块和缩略图分别编码后组合,形成完整的图像表示。

MiniMax-VL-01 的训练数据涵盖标题、描述和指令。ViT 从头开始在 6.94 亿图像 - 标题对上进行训练。在训练过程的四个阶段,处理了总计 5120 亿 token。

最终,MiniMax-VL-01 在多模态排行榜上表现突出,证明了其在处理复杂多模态任务中的优势和可靠性。


网友们已开始第一波实测

得知新模型已在 Hailuo AI 上部署,网友们已紧忙赶往测试。

有网友使用相同的 prompt 将它和 Gemini、o1 对比,感叹 MiniMax-01 表现令人印象深刻。

下面这个测试也没能难倒它:

给我 5 个奇数,这些数的英文拼写中不包含字母 “e”。

感兴趣的童鞋可以玩起来了。

技术论文:filecdn.minimax.chat/_Arxiv_Mini…

参考链接:
[1]x.com/MiniMax__AI…
[2]huggingface.co/MiniMaxAI/M…
[3]huggingface.co/MiniMaxAI/M…