Kimi-K2论文解读

347 阅读7分钟

摘要

Kimi在近期发布了最大规模开源模型K2,其为MOE架构,包含1.04T参数,32B激活,。K2 重点强调了其大规模的智能体(agentic)数据合成流水线和联合强化学习方法,模型通过与真实和合成环境的交互来增强其能力。实验评测显示,K2在agentic 能力和编程、数学、推理能力上均在开源非思考模型中取得最佳性能表现。

image.png

创新点总结

  • 提出改进MuonClip优化器,提升预训练token效率,增强预训练稳定性;
  • 预训练中的语料重述能够有效提升模型的预训练效果(即同一份语料,重述N次后训练,比同一份语料直接训练N次效果显著更好)
  • 提出并验证“专家稀疏度扩展定律”:在保持算力预算不变的前提下,提高专家稀疏度可提升性能;
  • 提出一种大规模工具调用数据合成范式,包括工具构建、任务轨迹合成、引入可交互执行器和轨迹质量评估筛选;
  • 提出一种统一的强化学习机制,可验证任务使用规则评判,不可验证任务则由模型自我评判排序;

1 引言

大语言模型(LLM)正逐步迈向​智能体智能(Agentic Intelligence),即模型在复杂且动态的环境中具备自主感知、规划、推理和行动的能力。实现智能体智能在预训练和后训练阶段存在如下挑战。

  • 预训练阶段:在高质量数据有限的约束下,提升​token 效率(每个 token 所携带的学习信号);
  • 后训练阶段:将先验转化为可操作行为,而像多步推理、长期规划和工具使用这类智能体能力,在自然数据中罕见,且扩展成本高,需可扩展的结构化高质量智能体轨迹合成方法。

本研究提出 ​Kimi K2​(1.04T参数,32B激活)的专家混合(MoE)模型,旨在解决智能体智能的核心挑战,并推动其能力边界。主要贡献涵盖预训练和后训练两个维度:

  • ​提出 MuonClip优化器,集成 token 高效的 Muon 算法与增强训练稳定性的 QK-Clip 机制,成功地在 15.5T token 上对 Kimi K2 进行预训练,​无任何Loss尖峰。
  • ​构建一条大规模智能体数据合成流水线,能够通过模拟和真实环境系统性地生成工具使用演示。
  • ​设计通用强化学习框架​,结合了可验证奖励机制(RLVR)与自我评估评分准则奖励机制。

2 预训练

模型架构为 类似 DeepSeek-V3 的 超稀疏 MoE 架构,引入MLA注意力机制;语料规模为15.5T高质量 token预训练。

image.png

2.1 MuonClip:结合权重裁剪的稳定训练

MuonClip是本文提出的全新优化器,继承 Muon 的平稳训练特性,并引入:

  • ​QK-Clip 机制:裁剪注意力 logits,缓解上下文长度增大导致的梯度爆炸;
  • ​避免不稳定 loss 峰值​:在超过 32k tokens 的长序列训练中显著提升稳定性;
  • ​无需额外 loss 重加权,易于大规模部署。

image.png

image.png

2.2 预训练数据

Kimi K2 使用 15.5 万亿 token 的高质量数据,其中包含​高比例合成数据(合成代码、工具调用、指令跟随样本);

同时,本文发现同样的知识,进行多样化重述后再训练比直接使用原语料训N遍效果更好(下表1);

image.png

2.3 模型架构

采用专家混合 MoE 架构:

  • 总参数:1.04T,激活参数:32B;
  • 专家数:384,激活数:8;

image.png

Kimi K2提出稀疏性扩展法则​:即在保持 FLOPs 不变的前提下提高专家稀疏度可提升性能,实验如下图;

image.png

  • 注意力头数:64(相较 DeepSeek-V3 的 128 减半,降低长序列推理成本);
  • 支持 128k token 上下文长度​(通过 YaRN 实现)。

2.4 训练配方

总训练 token 数:15.5T;包含3个主要阶段:

  • 阶段1:10T token:500步的学习率warmup之后固定 2e-4;
  • 阶段2:5.5T token:学习率使用 cosine 衰减至 2e-5;
  • 阶段3:长上下文激活阶段
    • 学习率由2e-5降低至7e-6
    • 继续训练 400B(4k 长度)+ 60B(32k 长度);
    • 最后使用 YaRN 扩展上下文至 128k

3 后训练

后训练包括有监督微调SFT和强化学习RL两个部分。

3.1 有监督微调

该阶段使用 Muon 优化器,聚焦复杂任务,如多轮指令、多模态提示、工具使用;

3.1.1 大规模工具调用数据合成

借鉴 ACEBench 的全面数据合成框架,本文开发一个流水线,能够大规模模拟真实工具使用场景,生成数万个多样且高质量的训练样本,包括以下几个阶段:

image.png

  1. 工具库构建:包括真实工具和合成工具:
    • 真实工具 约 3 000 个,从 GitHub MCP 仓库抓取现成接口说明;
    • 合成工具 超过2万个, 采用“层级Domain Evolution”方法,在金融交易、软件应用、机器人控制等顶级门类下递归派生子域并自动生成 TypeScript/JSON 描述的函数签名。
  2. 智能体多样化:用不同system prompt + 从库中随机采样的若干工具组合,合成数千种Agent,覆盖不同专长与行为模式。
  3. 任务生成:针对每个“代理‑工具集”自动出题,难度从简单到复杂,并为每题编写机器可读 Rubric(成功标准、期望调用模式、检查点);
  4. 多轮轨迹生成:
    • User Simulation:LLM 生成带不同沟通风格的用户人格;
    • Tool Execution Environment: 沙盒模拟器执行 tool call、维护对话状态并注入随机噪声(成功、部分失败、边界情况);
  5. 质量过滤:LLM Judge 按 Rubric 逐条评估,仅保留符合成功标准的轨迹;
  6. 真实环境增强:对编程等场景,在真实代码沙盒中执行,利用单元测试等客观指标返还结果,弥补模拟误差

下图展示了真实工具和合成工具使用t-SNE可视化后的分布,可以看到合成工具覆盖全面,分布均匀。

image.png

3.2 强化学习

强化学习是 Kimi K2 核心对齐手段,融合两类奖励:

  1. ​可验证奖励(如数学/逻辑/代码):
    • 自动检测是否满足输出结构、格式、正确性;
    • 包含结构化逻辑题、多表格推理、推理链验证等任务。
  2. ​自我评价奖励(Self-Critic Reward)​:
    • 用于主观偏好类任务(创意写作、风格、帮助性等);
    • 模型自身对候选输出成对排序打分;
    • 使用“自评优化器”持续更新策略(闭环评估 + 模型自我校准)。

对于每个问题 xx,从旧策略 πold\pi_{\text{old}} 中采样 KK 个响应 {y1,...,yk}\{y_1, ..., y_k\},优化新策略 πθ\pi_\theta 的目标如下:

image.png

其中:

  • rˉ(x)=1Ki=1Kr(x,yi)\bar{r}(x) = \frac{1}{K} \sum_{i=1}^K r(x, y_i):采样响应的平均奖励;
  • τ>0\tau > 0:正则化系数,用于提升训练稳定性。

与 SFT 相同,使用Muon 优化器来最小化该目标函数。

K2在RL训练中的其他机制还包括:

  • ​Budget Control:控制生成 token 上限;
  • ​PTX Loss​:Pretrain Loss 用于避免策略遗忘预训练阶段学习到的知识;
  • ​温度衰减策略​:训练后期降低探索性,收敛更稳定。

4 实验

4.1 后训练评估(Kimi-K2-Instruct)

模型在多个维度上取得 SOTA 表现,包括编程、工具使用、数学推理、长上下文任务和用户偏好。

image.png

4.2 基础模型评估(Kimi-K2-Base)

在不开启 RL 与指令对齐前,基础模型已具备强大能力,包括语言理解、数学推理、编程能力和中文能力。

image.png

4.3 安全性评估

模型在多维度的安全性评估数据集上表现良好。

image.png