最新LLM模型架构对比图分享
随着Qwen3 Next、Kimi K2、MiniMax M2等模型的发布,SebastianRaschka在博客上更新几张架构对比图,其绘制内容清晰易懂,摘取关键内容分享:【AI大模型教程】
模型时间线
-
全量注意力结构:DeepSeekV3.1->GLM4.6->MiniMax M2(最新)
-
混合注意力结构: Qwen3-Next->DeepSeekV3.2->KimiLinear(最新)
-
思考模型:Kimi K2 Thinking(最新)
1 Kimi K2 Thinking(对比 R1)
要点:
- Kimi K2 Thinking 的上下文序列长度从128k增长到了256k;
- 模型大小1T,单Token由1共享专家+8个独立专家处理,激活参数32B;
- 字典长度:160K;
- 测评数据(未与DSR1对比):
2 Qwen3 Next(对比Qwen3)
要点:
- 采用线性模块GDN(Gated DeltaNet)与Gated Attention混合,比例3:1;
- 上下文序列长度支持262k;
- 80B-A3B:模型大小80B,激活参数3B,单Token由1共享专家+10个独立专家处理;
- 在QK上采用zero-centered RMSNorm替换了标准的RMSNorm。
3 MiniMax-M2(对比Qwen3)
要点:
-
QK的正则采用了分头处理;
-
230B:激活参数10B, 单Token由8个独立专家处理,无共享专家;
-
精度对比数据:
-
4 Kimi Linear(对比Qwen3 Next)
要点:
- 使用了改进的KDA(Kimi Delta Attention),KDA基于GDN改进了alpha项;
- KDA与MLA模块采用3:1混合。