最新LLM模型架构对比图分享

107 阅读1分钟

最新LLM模型架构对比图分享

随着Qwen3 Next、Kimi K2、MiniMax M2等模型的发布,SebastianRaschka在博客上更新几张架构对比图,其绘制内容清晰易懂,摘取关键内容分享:【AI大模型教程】

模型时间线

  • 全量注意力结构:DeepSeekV3.1->GLM4.6->MiniMax M2(最新)

  • 混合注意力结构:  Qwen3-Next->DeepSeekV3.2->KimiLinear(最新)

  • 思考模型:Kimi K2 Thinking(最新)

1 Kimi K2 Thinking(对比 R1)

要点:

  • Kimi K2 Thinking 的上下文序列长度从128k增长到了256k;
  • 模型大小1T,单Token由1共享专家+8个独立专家处理,激活参数32B;
  • 字典长度:160K;
  • 测评数据(未与DSR1对比):

2 Qwen3 Next(对比Qwen3)

要点:

  • 采用线性模块GDN(Gated DeltaNet)与Gated Attention混合,比例3:1;
  • 上下文序列长度支持262k;
  • 80B-A3B:模型大小80B,激活参数3B,单Token由1共享专家+10个独立专家处理;
  • 在QK上采用zero-centered RMSNorm替换了标准的RMSNorm。

3 MiniMax-M2(对比Qwen3)

要点:

  • QK的正则采用了分头处理;

  • 230B:激活参数10B, 单Token由8个独立专家处理,无共享专家;

  • 精度对比数据:

4 Kimi Linear(对比Qwen3 Next)

要点:

  • 使用了改进的KDA(Kimi Delta Attention),KDA基于GDN改进了alpha项;
  • KDA与MLA模块采用3:1混合。