最新LLM模型架构对比图分享

ai大模型分享员

2025-11-11 128 阅读1分钟

最新LLM模型架构对比图分享

随着Qwen3 Next、Kimi K2、MiniMax M2等模型的发布，SebastianRaschka在博客上更新几张架构对比图，其绘制内容清晰易懂，摘取关键内容分享：【AI大模型教程】

模型时间线

全量注意力结构：DeepSeekV3.1->GLM4.6->MiniMax M2（最新）
混合注意力结构: Qwen3-Next->DeepSeekV3.2->KimiLinear(最新)
思考模型：Kimi K2 Thinking(最新)

1 Kimi K2 Thinking(对比 R1)

要点：

Kimi K2 Thinking 的上下文序列长度从128k增长到了256k；
模型大小1T，单Token由1共享专家+8个独立专家处理，激活参数32B；
字典长度：160K；
测评数据（未与DSR1对比）：

2 Qwen3 Next(对比Qwen3)

要点：

采用线性模块GDN（Gated DeltaNet）与Gated Attention混合，比例3:1；
上下文序列长度支持262k；
80B-A3B：模型大小80B，激活参数3B，单Token由1共享专家+10个独立专家处理；
在QK上采用zero-centered RMSNorm替换了标准的RMSNorm。

3 MiniMax-M2(对比Qwen3)

要点：

QK的正则采用了分头处理；
230B：激活参数10B，单Token由8个独立专家处理，无共享专家；
精度对比数据：

4 Kimi Linear(对比Qwen3 Next)

要点：

使用了改进的KDA（Kimi Delta Attention），KDA基于GDN改进了alpha项；
KDA与MLA模块采用3:1混合。