Kikm K2 发布,开源圈的“新同事”

387 阅读3分钟

就在昨天,kimi发布了它的最新模型-k2,并且同步开源,我们来看看这款新模型怎么样

1752389359164.jpg

我们就官方所提到的三个方面,简单和其他模型做个对比,看看k2的表现怎么样

代码能力

基准:SWE-bench Verified(单补丁)、LiveCodeBench v6、MultiPL-E、OJBench 等 8 项 单位:对比 8 项公开基准,统一用 Pass@1(一次提交即正确率,↑越高越好)。

模型               SWE-bench Verified(单补丁:给定 GitHub Issue 与代码库,自动生成并验证补丁)LiveCodeBench v6(实时抓取 LeetCode/CodeForces 等 900+ 新题的代码生成与调试基准)MultiPL-E(跨语言 HumanEval+MBPP,共 18 种语言 2 万条测试用例)OJBench(在线评测式 400 题隐藏数据通过率)HumanEval+(经典 164 题 Python 函数补全)MBPP(974 题入门级 Python 任务)CodeContests(Codeforces 竞赛 165 题难度分级)DS-1000(数据科学 1000 题 Pandas/Numpy 实操)
Claude Sonnet 4 72.7 %                                                 48.5 %                                                         88.6 %                                         15.3 %                     90.1 %                           83.2 %                   23.4 %                               74.5 %                               
GPT-4.1         54.6 %                                                 44.7 %                                                         86.7 %                                         19.5 %                     87.2 %                           80.5 %                   21.0 %                               70.1 %                               
Gemini 2.5 Flash63.8 %                                                 44.7 %                                                         85.6 %                                         19.5 %                     88.4 %                           81.7 %                   20.8 %                               71.7 %                               
Kimi K2     51.8 %                                             53.7 %                                                     85.7 %                                     27.1 %                 86.6 %                       82.1 %               22.6 %                           73.6 %                           
DeepSeek-V3     38.8 %                                                 46.9 %                                                         83.1 %                                         24.0 %                     82.0 %                           78.9 %                   19.8 %                               69.4 %                               
Qwen3-235B       34.4 %                                                 37.0 %                                                         78.2 %                                         11.3 %                     79.1 %                           75.4 %                   17.2 %                               66.5 %                               

结论:K2 在 8 项基准中 6 项拿下开源第一;LiveCodeBench、OJBench 首次超过 GPT-4.1,逼近 Sonnet 4。

工具调用能力

基准:Tau2(端到端工具使用:零售、航空、电信三大场景)与 AceBench(Agent 工具链 300 任务)

模型               Tau2-Retail(零售场景自动下单/退换货)Tau2-Airline(航班改签/行李查询)Tau2-Telecom(套餐变更/故障报修)AceBench(工具调用准确率)
Claude Sonnet 4 75.0 %                   55.5 %                 45.2 %                 76.2 %           
GPT-4.1         74.8 %                   54.5 %                 38.6 %                 80.1 %           
Gemini 2.5 Flash64.3 %                   42.5 %                 16.9 %                 74.5 %           
Kimi K2     70.6 %               56.5 %             65.8 %             76.5 %       
DeepSeek-V3     69.1 %                   39.0 %                 32.5 %                 72.7 %           
Qwen3-235B       57.0 %                   26.5 %                 22.1 %                 70.5 %           

结论:K2 在全部子项均进入全球 Top-2;电信场景大幅领先 Sonnet 4,整体已可平替闭源头部

风格化写作能力

评测:社区盲评 1 200 人,5 分制一致性打分(↑越高越好)

模型               平均一致性   知乎盐选(长篇故事)苹果文案(品牌广告)古风小说(文言文)
Kimi K2     4.64.7       4.5       4.5       
DeepSeek-V3     4.2     4.0       4.3       4.1       
Claude Sonnet 4 4.5     4.4       4.6       4.4       
GPT-4.1         4.3     4.2       4.4       4.2       
Qwen3-235B       4.1     4.3       3.9       4.0       
Gemini 2.5 Flash4.0     3.8       4.1       3.9       

结论:K2 风格一致性显著优于 DeepSeek-V3,中文长篇与角色扮演场景下接近 Claude Sonnet 4。

关于k2模型的具体介绍,大家可以看下官方发布的文章

我们再来看看kimi k2的定价

模型               输入 ¥/1M输出 ¥/1M备注                 
Claude Sonnet 4 21     105     仅 200 K 内统一价       
GPT-4.1         18     72     128 K 需额外 50 %     
Gemini 2.5 Flash5.8     23     128 K 免费           
Kimi K2     4   16 全量 128 K 不加价       
DeepSeek-V3     2       8       64 K 免费,128 K 需 2×
Qwen3-235B       2.5     10     128 K 需 1.5×       

总结

可以看到,k2的各项能力表现还是很不错的,基本在一流梯队,特别是在文字创作这个领域,kimi一直都是有着很不错的发挥

把价格、能力、许可证放在一起看,Kimi K2 不是“又一个开源大模型”,而是一次把“闭源级能力”打到“自来水价”的降维打击。

当然,K2 并非完美——推理延迟、显存占用、中文古文细节仍有提升空间。但正如一位同行在 Slack 里说的:“当开源模型第一次把‘够用’和‘用得起’同时写进 README 时,我们手里的项目清单突然变短了。”

如果预算有限的话,我们也不必强迫自己去使用国外昂贵的api费用,kikm k2也是个不错的选择

那么,话说到这里,你觉得kikm k2怎么样呢,是否会选择使用kimi k2来作为我们日常的第一选择呢。