月之暗面发布的Kimi K2,具有目前开源模型中最大的参数量,具备非常强的coding能力。更重要的是,该模型从一开始就清晰地把Agentic作为该模型的核心能力,包括模型训练的整个过程都蕴含对该能力的重视。这与传统在聊天框中评测大模型基本性能是完全不同的范式,需要模型备极强的主动能力:能调动工具、拆解复杂任务、自动写代码等。
模型架构
从发布的信息来看,Kimi K2基本采用Deepseek v3的 MOE架构和MLA,减少了多头注意力,增加了专家数量,用于增加模型在Agent方面的能力:
● 总参数高达1T,即1000B,是目前最大的开源模型,其中激活参数320亿。
● 专家总数384个,每token启用8个,另配共有专家共享部分语义。
● 61 层结构、64 个attention heads,attention维度高达7168,激活函数采用SwiGLU。
● 最高支持上下文128K tokens。
核心技术
MuonClip 优化器:为大规模预训练而生
传统的 LLM 优化器如 AdamW 在极大规模 MoE 训练下,易遇到attention logits爆炸问题。为此,月之暗面提出了MuonClip,它在Muon优化器的基础上引入了新的稳定机制:
● 核心思想是对QK投影矩阵动态重标定(qk-clip),控制 attention logits 的数值幅度。
● 引入一个动态因子 η,根据当前 attention logit 最大值决定缩放比例,从源头解决数值不稳定问题。
● 实验表明该方法能在大规模训练(15.5T token)中实现全程无训练spike,显著优于传统手段。
这一优化器的设计逻辑体现了一个新趋势:不依赖扩展数据量,通过提升每个token的效率来获得更强智能。
大规模合成Agentic数据与RL体系
大规模Agentic数据生成
为了让模型真正具备多步调用工具的能力,月之暗面搭建了一套类似ACEBench的自动化训练数据生成pipeline:
● 构建了包含真实与合成工具的模拟环境,覆盖数百个领域与上千种工具。
● 生成多类型AI agent,并在环境中进行多轮交互。
● 引入LLM评分器,按照设定的评分标准自动评价每次交互是否有用,筛选高质量样本。
这样的流程大幅提升了训练数据的多样性、真实性与可控性,为后续 RL 奠定了强数据基座。
通用强化学习框架
Moonshot提出了一种通用RL框架,解决了过去强化学习只能作用于“可验证任务”的局限:
● 可验证任务(如数学、编程):可以通过自动评测器获得 reward
● 不可验证任务(如写报告):引入模型自评(self-judging),使用rubric-based得分
该通用强化学习系统采用了一种自我评判机制,其中模型充当自己的评论员,为不可验证任务提供可扩展、基于评分标准的反馈。基于策略的部署使用可验证的奖励,以持续更新评论员,使评论员保持对其最新策略评估准确性的持续改进。这可以被视为使用可验证的奖励来提高不可验证奖励估计的一种方法。
总结
Kimi K2的设计远超一个更大、更强的模型本身,Agentic-first设计体现真实执行力,不只是答题。传统LLM 偏向生成文本,而 Kimi K2将 agentic 能力(自动调用工具、执行多步任务)作为核心,从设计到评测均体现此路,简单聊天已无法衡量它的真正潜力。
目前在上下文长度和Agent能力与顶尖的闭源模型存在一定差距,但是其后续影响应该会与Deepseek V3&R1类似,对整个开源AI生态起到积极作用。
附录:Claude code的平替方法
由于K2原生兼容OpenAI和Anthropic接口规范,在K2发布不久,就有人手搓了一个工具,使用K2 API代替Claude API,仅需要原来1/5的价格,就能体验到最强Coding Agentic工具Claude Code。
● 第一步,访问platform.moonshot.ai获取 Kimi API Key;
● 第二步,在你本地有 Nodejs 环境的前提下,运行 npx kimicc 安装并启动;
● 第三步,在安装后可使用 kimicc 直接启动,并在提示下输入 API Key。
启动后会提示你输入 API Key,下次就无需再次设置。