月之暗面Kimi K2.6实测

0 阅读8分钟

月之暗面继Kimi K2.5之后,正式发布并开源了新一代旗舰Kimi K2.6。面对过去一段时间里阿里Qwen系列、字节豆包Seed、谷歌Gemini 3系、OpenAI GPT-5.4以及智谱GLM-5.1等的轮番冲击,月之暗面这次祭出了以开源姿态对标顶级闭源模型的"杀手锏"。官方宣称,Kimi K2.6在代码能力、长程任务执行(long-horizon execution)以及Agent集群(Agent Swarm)三大方向上均达到了行业领先水平。我们对其API版本kimi-k2.6进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是,本次评测侧重中文场景下的综合能力考察,且在评测框架中加入了coding维度。Kimi K2.6官方重点强调的三大能力——12小时以上的长程自主执行、300个子Agent协同的Agent Swarm架构、跨设备异构智能体协作(Claw Groups)——在当前评测任务中难以充分展开,读者可参考文末的官方评测数据获得更全面的了解。

kimi-k2.6版本表现:

  • 测试题数:约1.5万

  • 总分(准确率):72.9%

  • 平均耗时(每次调用):175s

  • 平均token(每次调用消耗的token):3885

  • 平均花费(每千次调用的人民币花费):100.4

1、新旧对决

需要提前说明的是,本轮评测引入了coding维度,故总分口径与以往不完全可比。对比上一代版本(Kimi-K2.5-Thinking),kimi-k2.6在核心能力和响应效率上都有明显的结构性变化,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能稳步提升:新版本准确率从70.8%提升至72.9%,提升了2.1个百分点,在整体榜单中的排名从第9位上升至第4位。
  • 代码能力显著提升:在新加入的coding维度,kimi-k2.6从54.5%提升至62.6%,提升了8.1个百分点,这与官方将"Advancing Open-Source Coding"作为本次迭代核心定位的叙事高度吻合。
  • 推理与教育维度有所提升:从细分领域来看,"推理与数学计算"从78.0%提升至82.5%,提升了4.5个百分点;"教育"从58.3%提升至62.4%,提升了4.1个百分点;"医疗与心理健康"从87.7%小幅提升至89.3%(+1.6%)。
  • 部分维度存在回调:新版本在"金融"(87.6%至86.4%,-1.2%)、"语言与指令遵从"(72.1%至71.6%,-0.5%)以及"agent与工具调用"(65.2%至63.2%,-2.0%)三个维度出现了小幅下降。其中Agent与工具调用维度的回调值得关注——官方在博客中将Agent Swarm和长程执行作为核心亮点,但在当前评测框架中,这一能力未能得到正向体现,可能来自评测范式的差异。
  • 响应时间大幅缩短:在总分提升的前提下,kimi-k2.6的平均耗时从338s缩短至175s,降幅约48%,用户在交互式场景中的等待体验将有明显改善。
  • Token消耗基本持平,平均花费上涨:平均token消耗从3842微升至3885,而输出价格从21.0元/百万token上调至27.0元/百万token(+28.6%),每千次调用花费相应从77.1元上涨至100.4元(+30.2%)。结合准确率提升2.1个百分点来看,这是一次"定价上调换能力提升"的正常代际定价策略,成本效率比是否合适,取决于读者对代码与长程执行能力的具体需求。

2、横向对比

在当前主流大模型竞争格局中,kimi-k2.6作为月之暗面的开源旗舰表现如何?考虑到本次官方主打"开源编码SOTA"的定位,我们重点从开源阵营内部、同档成本区间以及代际演进这三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 百元档位的处境:在每千次花费80至130元的中高成本区间,kimi-k2.6(72.9%,100.4元)与claude-opus-4.6(70.0%,96.5元)、gpt-5.4-high(72.6%,122.3元)同处一档。从总分来看,kimi-k2.6与gpt-5.4-high基本持平(+0.3%),相比claude-opus-4.6具备一定优势(+2.9%),在该档位具备较强的竞争力。
  • 向下看同厂商开源:值得关注的是,同为月之暗面的Kimi-K2.5-Thinking(70.8%,77.1元)以更低的花费提供了接近的准确率,两者差距仅2.1个百分点,但花费低约23%。对于成本敏感的场景,上一代版本仍是极具成本效率比的选择。
  • 向下看更低价位的同级选手:更引人注目的是,qwen3.5-plus(73.3%,22.9元)和Doubao-Seed-2.0-pro(72.8%,22.5元)以约四分之一的调用成本,提供了与kimi-k2.6基本持平甚至略高的准确率。这意味着在纯中文综合场景下,kimi-k2.6在成本效率比维度并不占优——它的核心竞争力需要放到长程任务、Agent集群等本评测框架未能充分覆盖的场景中才能体现。

新旧模型对比

  • 月之暗面自身迭代清晰:从kimi-k2.6(72.9%,第4位)到Kimi-K2.5-Thinking(70.8%,第9位)再到更早的Kimi-K2-Thinking(65.0%,第36位),月之暗面的代际演进路径非常清晰——每一代都带来2至5个百分点的稳步提升。
  • 头部格局新一轮洗牌:榜单前五的位置已被各家最新旗舰包揽——qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)和Doubao-Seed-2.0-pro(72.8%)。kimi-k2.6作为开源阵营的新晋代表,稳稳站在了头部梯队之中。
  • 与其他厂商新模型的定位差异:相比gemini-3-flash-preview(71.2%,53.5元)、GLM-5.1(70.7%,73.8元)、qwen3.6-plus(70.7%,41.6元),kimi-k2.6在准确率上具备一定优势,但在平均调用花费上也明显更高,定位更偏向复杂任务而非轻量交互。

开源VS闭源对比

  • 开源阵营的新标杆:在总榜前10中,开源模型占据3席,分别为qwen3.5-plus(73.3%,第3位)、kimi-k2.6(72.9%,第4位)和Qwen3.5-122B-A10B(70.9%,第8位)。kimi-k2.6以开源身份跻身榜单前四,与多数顶级闭源商用模型同台竞技。
  • 跨阵营成本效率比对比:同为开源的qwen3.5-plus(73.3%,22.9元)在准确率和成本上都优于kimi-k2.6(72.9%,100.4元)。这种差距的背后是两款模型的差异化定位——kimi-k2.6更强调在长程Agent场景的深度能力,而qwen3.5-plus在综合中文任务上展现了更好的成本效率。
  • 开源生态价值:kimi-k2.6的核心增量价值之一在于其生态层面——官方同步发布了Agent Swarm、Claw Groups异构协作框架、以及Kimi Code CLI等一整套开源工具链,并获得了Vercel、Ollama、Fireworks、Baseten等多家开发者平台的公开背书。这部分价值是准确率数字难以体现的。

3、官方评测

根据月之暗面官方博客(www.kimi.com/blog/kimi-k… K2.6将自身定位为"开源编码领域的最新推进者",核心亮点集中在长程代码任务、Agent Swarm架构以及主动式智能体三大方向。

长程代码任务

kimi-k2.6在跨语言(Rust、Go、Python、Zig等)、跨任务类型(前端、DevOps、性能优化)的长程编码任务上展现出较强的泛化能力。在官方披露的案例中,kimi-k2.6在一台Mac上本地部署Qwen3.5-0.8B模型,通过Zig这一小众语言实现并优化推理:在4000多次工具调用、超过12小时的连续执行和14轮迭代中,将吞吐量从约15 tokens/s提升至约193 tokens/s,最终达到比LM Studio快约20%的速度。

另一项案例中,kimi-k2.6对一款运营8年的开源金融撮合引擎exchange-core进行了13小时的自主重构,发起超过1000次工具调用,精确修改了4000多行代码,最终在已接近性能极限的引擎上实现了中位吞吐量185%的提升(0.43提升至1.24 MT/s)和性能吞吐量133%的提升(1.23提升至2.86 MT/s)。

编码驱动的设计能力

基于底层编码能力,kimi-k2.6可以将简单提示词转化为完整的前端界面,生成包含美学英雄区、交互元素、滚动触发动画等结构化布局;并进一步扩展到包含认证、用户交互、数据库操作的轻量级全栈工作流。官方建立了Kimi Design Bench内部基准,分为视觉输入任务、落地页构建、全栈应用开发和通用创意编程四个类别。

主动式Agent与可靠性

官方披露了一个由kimi-k2.6驱动的Agent连续自主运行5天的案例,完成监控、事件响应、系统运维等任务,展示了持续上下文、多线程任务处理和从告警到处置的全周期执行能力。

官方Claw Bench基准覆盖编码任务、IM生态集成、信息研究与分析、定时任务管理、记忆利用五个领域,结果显示K2.6在任务完成率和工具调用准确率上相较K2.5均有明显提升。

官方基准测试

官方将Kimi K2.6与GPT-5.4(xhigh)、Claude Opus 4.6(max effort)、Gemini 3.1 Pro(thinking high)以及Kimi K2.5进行了横向对比,覆盖Agentic、Coding、Reasoning & Knowledge、Vision四大类共计30余个基准。其中较为突出的结果包括:DeepSearchQA(f1-score)达到92.5%(领先明显)、SWE-Bench Pro达到58.6%(领先闭源对手)、Terminal-Bench 2.0达到66.7%(与闭源顶级模型基本持平)。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear