Kimi2:又一次回到国产之巅

758 阅读6分钟

概述

Kimi自从1.5之后,淡出视野有一段时间了,以至于让人觉得月之暗面是不是快凉了。

前天(7月13日),Kimi 突然宣布发布开源的kimi2**,准确的说是Kimi K2模型,模型参数量是 1T。

1T = 1024B,要知道 DeekSeek的 V3 和 R1 模型,最大参数量也只是671B。

从参数量来说,Kimi K2 ≈ 1.5 DeepSeek-R1。

本文就来从理论和实践两个角度,挖掘一下这款新模型的潜力。

模型理论

目前,该模型只有一篇技术博客简单做了相关介绍,论文尚未公开。

开源地址:github.com/MoonshotAI/…

技术博客:moonshotai.github.io/Kimi-K2

1. 模型版本

该模型有两个版本:

  • Kimi-K2-Base: 基础模型,类似于 DeepSeek-r1-Zero,做相关研究的可以关注
  • Kimi-K2-Instruct: 在基础模型的基础上,后训练的模型,实际上调用的就是这个。

两个版本的模型结构一致,具体如下:

架构混合专家模型 (MoE)
总参数量1万亿 (1T)
激活参数量320亿 (32B)
层数(包含全连接层)61
全连接层数量1
注意力隐藏层维度7168
MoE隐藏层维度(单专家)2048
注意力头数量64
专家数量384
每token选择的专家数8
共享专家数量1
词表大小16万 (160K)
上下文长度12.8万 (128K)
注意力机制MLA(多头层叠注意力)
激活函数SwiGLU

2. 模型基准测试

图片

根据技术博客披露的基准对比情况,整体和Claude 4 Opus 不相上下,在数学和自然科学方面,取得了SOTA**的水准。

3. 技术细节

博客中没有写太多的技术细节,主要以下三点。

1.MuonClip优化器

Kimi 之前的工作提到过 Muon** 优化器,这项工作中,进一步发展为 MuonClip优化器,旨在解决因注意力计算爆炸导致的训练不稳定性问题。

这个优化器使得大规模预训练极其稳定,下图是损失随token的变化曲线,基本没出现不稳定的波动。

图片

2.Agent能力训练

受 ACEBench 启发,这项工作大规模模拟了现实世界的工具使用场景,以此去增强模型的 Agent 能力。

Agent与模拟环境和用户代理交互,创建逼真的多轮工具使用场景。LLM 评委根据任务评分标准评估模拟结果,筛选出高质量的训练数据。

具体流程如下图所示。

图片

3.通用强化学习

以往的强化学习是使用数学和编程竞赛进行学习,这类任务有标准答案,是可验证奖励的任务。

而撰写研究报告通常被视为不可验证的任务。为了让模型在这类任务中学习,采用自我判断机制,让模型充当自身的“批评家”,为不可验证任务提供可扩展的、基于评分标准的反馈。

模型测试

下面来进行测试,吹得再多没什么用,还得拉出来遛遛才能知道真实效果。

Kimi-K2 兼容 OpenAI/Anthropic API,兼容 Anthropic,这就意味着可以直接在 Cluade Code 里面直接配置这款模型。

如果想直接测试 Kimi-K2 的问答效果,可以直接登陆其官网,里面的模型已经支持K2。

在线地址:www.kimi.com/

图片

下面从程序员的角度来进行测试,核心目的是测试其在真实编程场景中的使用体验。

1. 创建API

首先需要登陆月之暗面控制台,创建一个API key。

月之暗面控制台:platform.moonshot.cn/console/api…

它的 key 只会在创建的时候显示一次,后续无法再次查看,因此看到时最好做一个记录,防止后续配置时找不到。

图片

2. 安装 Cluade Code

Cluade Code 在我之前的两篇文章中,分别介绍了 windows 和 Linux 的安装方式,没看过的读者可以跳转阅读,这里不重复赘述。

3. 配置环境变量

在 Linux 上,如果要在当前终端中,临时修改环境变量,可采用如下方式:

export ANTHROPIC_AUTH_TOKEN="你的API_Key"  # 替换你的真实Key
export ANTHROPIC_BASE_URL="https://api.moonshot.cn/anthropic"

如果要永久配置,可写入配置文件。

echo 'export ANTHROPIC_AUTH_TOKEN="你的API_Key"' >> ~/.bashrc  # 永久保存
echo 'export ANTHROPIC_BASE_URL="https://api.moonshot.cn/anthropic"' >> ~/.bashrc
source ~/.bashrc

对于 windows 用户,可打开编辑账户环境变量,对应修改相应的环境变量。

图片

配置完后,重新打开终端,输入claude就可以正常用了。

4. 实际测试

为了方便对比,我采用前文中整理的提示词,让它从零开始,写一个类OpenAI的聊天界面,具体 prompt 如下:

请帮我设计一个基于React的类OpenAI聊天界面,需满足以下功能:
1. **用户配置模块**
- 提供API Key输入框(支持本地存储,避免重复填写)
- 支持选择模型(如deepseek-v3/deepseek-R1等)和参数(temperature、max_tokens等

2. **对话交互界面**
- 仿ChatGPT的聊天布局:左侧历史会话列表,右侧主聊天区
- 支持多轮对话,保留上下文(通过messages数组传递历史记录)
- 实现流式响应(逐字输出效果),使用Server-Sent Events或OpenAI的stream参数

3. **功能增强**
- 消息Markdown渲染(代码高亮、链接解析等)
- 一键复制回复内容
- 响应耗时统计与token用量显示

4. **错误处理与状态管理**
- 网络错误、API限流等异常提示
- 加载状态动画(如发送中、流式响应时)

5. **技术栈建议**
- UI库:Ant Design或Material-UI
- 状态管理:Zustand或Context API
- 流式处理:使用`openai`库的`stream`参数或自定义SSE连接

**附加要求:**
- 提供完整的React Hooks实现方案
- 优先考虑TypeScript类型安全
- 兼容移动端布局
- 提供完整的readme.md文档

很快它列出了一长串任务清单。

图片

刚做完第一条,突然报错:

图片

看错误信息,原来是被限速了!

查阅官方文档,原来免费的账户有 15r 的体验额度,但没充钱,每分钟最多请求 3 次。

图片

遇到限速,只好先等等,等一分钟,再输入提示继续

大概这样连续 3-4 次,它终于把代码写完了。

运行界面,模型配置弹窗如下:

图片

问答也没出大问题,能流畅跑通,还顺带支持对话记录导出为 json 格式的功能。

图片

不过也存在一点小bug,比如问答没有流式输出,对话有删除键,但无法生效。

不过总体表现和Claude 4差不多了,比Cursor + gemini-2.5-pro的效果略优。

价格方面,做完这个任务,花费了 ¥1.45,相比于Claude 4花费的$2,成本约是后者的 1/10

图片

总结

Kimi K2 这款模型让我感觉月之暗面再次回到大模型的第一梯队。

现如今 Agent 逐渐成为趋势,Kimi K2 能够兼容 Anthropic,让它能够充分利用 Claude Code 的集成便携性,进一步发挥 Agent 的实用价值。

美中不足的一点就是 Kimi 没有什么会员机制,API 按量计费,这对高频使用来说,成本难以控制;对免费用户来说,较高的限速会导致体验会有所下降。