Kimi-K2论文解读摘要 Kimi在近期发布了最大规模开源模型K2，其为MOE架构，包含1.04T参数，32B激活，。

摘要

Kimi在近期发布了最大规模开源模型K2，其为MOE架构，包含1.04T参数，32B激活，。K2 重点强调了其大规模的智能体（agentic）数据合成流水线和联合强化学习方法，模型通过与真实和合成环境的交互来增强其能力。实验评测显示，K2在agentic 能力和编程、数学、推理能力上均在开源非思考模型中取得最佳性能表现。

创新点总结

提出改进MuonClip优化器，提升预训练token效率，增强预训练稳定性；
预训练中的语料重述能够有效提升模型的预训练效果（即同一份语料，重述N次后训练，比同一份语料直接训练N次效果显著更好）
提出并验证“专家稀疏度扩展定律”：在保持算力预算不变的前提下，提高专家稀疏度可提升性能；
提出一种大规模工具调用数据合成范式，包括工具构建、任务轨迹合成、引入可交互执行器和轨迹质量评估筛选；
提出一种统一的强化学习机制，可验证任务使用规则评判，不可验证任务则由模型自我评判排序；

1 引言

大语言模型（LLM）正逐步迈向智能体智能（Agentic Intelligence），即模型在复杂且动态的环境中具备自主感知、规划、推理和行动的能力。实现智能体智能在预训练和后训练阶段存在如下挑战。

预训练阶段：在高质量数据有限的约束下，提升token 效率（每个 token 所携带的学习信号）；
后训练阶段：将先验转化为可操作行为，而像多步推理、长期规划和工具使用这类智能体能力，在自然数据中罕见，且扩展成本高，需可扩展的结构化高质量智能体轨迹合成方法。

本研究提出 Kimi K2（1.04T参数，32B激活）的专家混合（MoE）模型，旨在解决智能体智能的核心挑战，并推动其能力边界。主要贡献涵盖预训练和后训练两个维度：

提出 MuonClip优化器，集成 token 高效的 Muon 算法与增强训练稳定性的 QK-Clip 机制，成功地在 15.5T token 上对 Kimi K2 进行预训练，无任何Loss尖峰。
构建一条大规模智能体数据合成流水线，能够通过模拟和真实环境系统性地生成工具使用演示。
设计通用强化学习框架，结合了可验证奖励机制（RLVR）与自我评估评分准则奖励机制。

2 预训练

模型架构为类似 DeepSeek-V3 的超稀疏 MoE 架构，引入MLA注意力机制；语料规模为15.5T高质量 token预训练。

2.1 MuonClip：结合权重裁剪的稳定训练

MuonClip是本文提出的全新优化器，继承 Muon 的平稳训练特性，并引入：

QK-Clip 机制：裁剪注意力 logits，缓解上下文长度增大导致的梯度爆炸；
避免不稳定 loss 峰值：在超过 32k tokens 的长序列训练中显著提升稳定性；
无需额外 loss 重加权，易于大规模部署。

2.2 预训练数据

Kimi K2 使用 15.5 万亿 token 的高质量数据，其中包含高比例合成数据（合成代码、工具调用、指令跟随样本）；

同时，本文发现同样的知识，进行多样化重述后再训练比直接使用原语料训N遍效果更好（下表1）；

2.3 模型架构

采用专家混合 MoE 架构：

总参数：1.04T，激活参数：32B；
专家数：384，激活数：8；

Kimi K2提出稀疏性扩展法则：即在保持 FLOPs 不变的前提下提高专家稀疏度可提升性能，实验如下图；

注意力头数：64（相较 DeepSeek-V3 的 128 减半，降低长序列推理成本）；
支持 128k token 上下文长度（通过 YaRN 实现）。

2.4 训练配方

总训练 token 数：15.5T；包含3个主要阶段：

阶段1：10T token：500步的学习率warmup之后固定 2e-4；
阶段2：5.5T token：学习率使用 cosine 衰减至 2e-5；
阶段3：长上下文激活阶段
- 学习率由2e-5降低至7e-6
- 继续训练 400B（4k 长度）+ 60B（32k 长度）；
- 最后使用 YaRN 扩展上下文至 128k

3 后训练

后训练包括有监督微调SFT和强化学习RL两个部分。

3.1 有监督微调

该阶段使用 Muon 优化器，聚焦复杂任务，如多轮指令、多模态提示、工具使用；

3.1.1 大规模工具调用数据合成

借鉴 ACEBench 的全面数据合成框架，本文开发一个流水线，能够大规模模拟真实工具使用场景，生成数万个多样且高质量的训练样本，包括以下几个阶段：

工具库构建：包括真实工具和合成工具：
- 真实工具 约 3 000 个，从 GitHub MCP 仓库抓取现成接口说明；
- 合成工具 超过2万个，采用“层级Domain Evolution”方法，在金融交易、软件应用、机器人控制等顶级门类下递归派生子域并自动生成 TypeScript/JSON 描述的函数签名。
智能体多样化：用不同system prompt + 从库中随机采样的若干工具组合，合成数千种Agent，覆盖不同专长与行为模式。
任务生成：针对每个“代理‑工具集”自动出题，难度从简单到复杂，并为每题编写机器可读 Rubric（成功标准、期望调用模式、检查点）；
多轮轨迹生成：
- User Simulation：LLM 生成带不同沟通风格的用户人格；
- Tool Execution Environment：沙盒模拟器执行 tool call、维护对话状态并注入随机噪声（成功、部分失败、边界情况）；
质量过滤：LLM Judge 按 Rubric 逐条评估，仅保留符合成功标准的轨迹；
真实环境增强：对编程等场景，在真实代码沙盒中执行，利用单元测试等客观指标返还结果，弥补模拟误差

下图展示了真实工具和合成工具使用t-SNE可视化后的分布，可以看到合成工具覆盖全面，分布均匀。

3.2 强化学习

强化学习是 Kimi K2 核心对齐手段，融合两类奖励：

可验证奖励（如数学/逻辑/代码）：
- 自动检测是否满足输出结构、格式、正确性；
- 包含结构化逻辑题、多表格推理、推理链验证等任务。
自我评价奖励（Self-Critic Reward）：
- 用于主观偏好类任务（创意写作、风格、帮助性等）；
- 模型自身对候选输出成对排序打分；
- 使用“自评优化器”持续更新策略（闭环评估 + 模型自我校准）。

对于每个问题 $x$ ，从旧策略 $\pi_{\text{old}}$ 中采样 $K$ 个响应 $\{y_1, ..., y_k\}$ ，优化新策略 $\pi_\theta$ 的目标如下：