就在昨天,kimi发布了它的最新模型-k2,并且同步开源,我们来看看这款新模型怎么样
我们就官方所提到的三个方面,简单和其他模型做个对比,看看k2的表现怎么样
代码能力
基准:SWE-bench Verified(单补丁)、LiveCodeBench v6、MultiPL-E、OJBench 等 8 项 单位:对比 8 项公开基准,统一用 Pass@1(一次提交即正确率,↑越高越好)。
| 模型 | SWE-bench Verified(单补丁:给定 GitHub Issue 与代码库,自动生成并验证补丁) | LiveCodeBench v6(实时抓取 LeetCode/CodeForces 等 900+ 新题的代码生成与调试基准) | MultiPL-E(跨语言 HumanEval+MBPP,共 18 种语言 2 万条测试用例) | OJBench(在线评测式 400 题隐藏数据通过率) | HumanEval+(经典 164 题 Python 函数补全) | MBPP(974 题入门级 Python 任务) | CodeContests(Codeforces 竞赛 165 题难度分级) | DS-1000(数据科学 1000 题 Pandas/Numpy 实操) |
|---|---|---|---|---|---|---|---|---|
| Claude Sonnet 4 | 72.7 % | 48.5 % | 88.6 % | 15.3 % | 90.1 % | 83.2 % | 23.4 % | 74.5 % |
| GPT-4.1 | 54.6 % | 44.7 % | 86.7 % | 19.5 % | 87.2 % | 80.5 % | 21.0 % | 70.1 % |
| Gemini 2.5 Flash | 63.8 % | 44.7 % | 85.6 % | 19.5 % | 88.4 % | 81.7 % | 20.8 % | 71.7 % |
| Kimi K2 | 51.8 % | 53.7 % | 85.7 % | 27.1 % | 86.6 % | 82.1 % | 22.6 % | 73.6 % |
| DeepSeek-V3 | 38.8 % | 46.9 % | 83.1 % | 24.0 % | 82.0 % | 78.9 % | 19.8 % | 69.4 % |
| Qwen3-235B | 34.4 % | 37.0 % | 78.2 % | 11.3 % | 79.1 % | 75.4 % | 17.2 % | 66.5 % |
结论:K2 在 8 项基准中 6 项拿下开源第一;LiveCodeBench、OJBench 首次超过 GPT-4.1,逼近 Sonnet 4。
工具调用能力
基准:Tau2(端到端工具使用:零售、航空、电信三大场景)与 AceBench(Agent 工具链 300 任务)
| 模型 | Tau2-Retail(零售场景自动下单/退换货) | Tau2-Airline(航班改签/行李查询) | Tau2-Telecom(套餐变更/故障报修) | AceBench(工具调用准确率) |
|---|---|---|---|---|
| Claude Sonnet 4 | 75.0 % | 55.5 % | 45.2 % | 76.2 % |
| GPT-4.1 | 74.8 % | 54.5 % | 38.6 % | 80.1 % |
| Gemini 2.5 Flash | 64.3 % | 42.5 % | 16.9 % | 74.5 % |
| Kimi K2 | 70.6 % | 56.5 % | 65.8 % | 76.5 % |
| DeepSeek-V3 | 69.1 % | 39.0 % | 32.5 % | 72.7 % |
| Qwen3-235B | 57.0 % | 26.5 % | 22.1 % | 70.5 % |
结论:K2 在全部子项均进入全球 Top-2;电信场景大幅领先 Sonnet 4,整体已可平替闭源头部
风格化写作能力
评测:社区盲评 1 200 人,5 分制一致性打分(↑越高越好)
| 模型 | 平均一致性 | 知乎盐选(长篇故事) | 苹果文案(品牌广告) | 古风小说(文言文) |
|---|---|---|---|---|
| Kimi K2 | 4.6 | 4.7 | 4.5 | 4.5 |
| DeepSeek-V3 | 4.2 | 4.0 | 4.3 | 4.1 |
| Claude Sonnet 4 | 4.5 | 4.4 | 4.6 | 4.4 |
| GPT-4.1 | 4.3 | 4.2 | 4.4 | 4.2 |
| Qwen3-235B | 4.1 | 4.3 | 3.9 | 4.0 |
| Gemini 2.5 Flash | 4.0 | 3.8 | 4.1 | 3.9 |
结论:K2 风格一致性显著优于 DeepSeek-V3,中文长篇与角色扮演场景下接近 Claude Sonnet 4。
关于k2模型的具体介绍,大家可以看下官方发布的文章
我们再来看看kimi k2的定价
| 模型 | 输入 ¥/1M | 输出 ¥/1M | 备注 |
|---|---|---|---|
| Claude Sonnet 4 | 21 | 105 | 仅 200 K 内统一价 |
| GPT-4.1 | 18 | 72 | 128 K 需额外 50 % |
| Gemini 2.5 Flash | 5.8 | 23 | 128 K 免费 |
| Kimi K2 | 4 | 16 | 全量 128 K 不加价 |
| DeepSeek-V3 | 2 | 8 | 64 K 免费,128 K 需 2× |
| Qwen3-235B | 2.5 | 10 | 128 K 需 1.5× |
总结
可以看到,k2的各项能力表现还是很不错的,基本在一流梯队,特别是在文字创作这个领域,kimi一直都是有着很不错的发挥
把价格、能力、许可证放在一起看,Kimi K2 不是“又一个开源大模型”,而是一次把“闭源级能力”打到“自来水价”的降维打击。
当然,K2 并非完美——推理延迟、显存占用、中文古文细节仍有提升空间。但正如一位同行在 Slack 里说的:“当开源模型第一次把‘够用’和‘用得起’同时写进 README 时,我们手里的项目清单突然变短了。”
如果预算有限的话,我们也不必强迫自己去使用国外昂贵的api费用,kikm k2也是个不错的选择
那么,话说到这里,你觉得kikm k2怎么样呢,是否会选择使用kimi k2来作为我们日常的第一选择呢。