DeepSeek V4 还没影,月之暗面先把王炸甩出来了。
4月20日,Moonshot AI 正式发布 Kimi K2.6 —— 一个 1万亿参数的开源大模型。
这不是那种"开源了但你也跑不起来"的摆设。1T总参数,实际每次推理只激活32B,384个专家里选8个干活。再加上INT4量化和MLA注意力机制,普通开发者用消费级硬件就能本地部署。
更关键的是成绩单:
SWE-Bench Pro(真实软件工程任务):58.6分。GPT-5.4 的成绩是 57.7,Claude Opus 4.6 是 53.4,Gemini 3.1 Pro 是 54.2。
HLE-Full(人类最后的考试):54.0分。GPT-5.4 是 52.1,Claude Opus 4.6 是 53.0,Gemini 3.1 Pro 是 51.4。
一个开源模型,在最重要的两个基准上同时超过了三大闭源巨头。
不只是跑分高,关键在于"能干多久的活"
大模型圈有个公开的秘密:很多模型跑分很好看,但真让它干一个完整的工程任务,十几步就开始犯迷糊了。
K2.6 解决的正是这个问题。它的核心能力叫 long-horizon execution——长程执行。
什么意思?你给它一个真实的工程目标,比如"给这个项目加一套完整的权限系统",它可以:
- 连续工作12个小时以上,不跑偏,不遗忘上下文
- 执行超过4000个协调步骤,包括读代码、改代码、跑测试、修bug
- 同时调度300个子Agent,并行处理不同子任务
这不是 demo 里展示一下就完了的功能。它的256K上下文窗口保证了在超长任务中不会丢失关键信息。
想象一下,你周五下班前给它一个任务,周一回来发现它已经提了PR,跑通了测试,还写了文档。这不是科幻,是K2.6设计的使用场景。
为什么是月之暗面?
在中国AI模型公司里,月之暗面一直是个特别的存在。
DeepSeek 靠超低成本训练出圈,但走的是低调路线,V4到现在还是"deafening silence"。百度、阿里的模型更多服务自家生态。
月之暗面选了一条不同的路:用开源去正面硬刚全球最强的闭源模型。
K2.6 不是在某个细分场景上侥幸超过了闭源模型,而是在 SWE-Bench Pro、HLE-Full、SWE-bench Multilingual(76.7)、BrowseComp(83.2)、CharXiv(86.7)等多个核心基准上全面领先。
而且生态落地的速度非常快。发布当天,vLLM、OpenRouter、Cloudflare Workers AI、Baseten、MLX、Ollama 就已经全部支持。你可以直接在本地通过 Ollama 跑起来,也可以用云端 API。
这对中国开发者意味着什么?你现在就能用一个SOTA级别的开源模型,而不需要依赖任何海外闭源API。
"Agent群"才是真正的变量
K2.6 最被低估的能力是它的多Agent架构——"Claw Groups"。
当前主流的AI编程工具,比如 Cursor、Copilot,本质上还是"一个模型 + 一个上下文窗口"。即使用了Agent模式,也是单线程地一步步执行。
K2.6 的思路完全不同:它把一个大任务拆成子任务,分配给不同的子Agent并行执行,然后协调汇总结果。
300个子Agent同时工作,意味着一个过去需要一个团队干一周的重构任务,可能几个小时就完成了。
这不是渐进式的效率提升,是范式变化。
对我们意味着什么
三个判断:
第一,开源模型追上闭源的时间差在急剧缩短。 从GPT-4到DeepSeek V3追平用了一年多,从GPT-5.4到K2.6反超只用了几个月。如果你还在花大量预算买闭源API,该重新评估了。
第二,长程Agent能力将重新定义"AI编程"。 今天的AI编程工具本质是"智能补全",K2.6展示的是"自主工程"。能在无人干预下持续12小时解决复杂工程问题——这才是AI真正能替代人力的形态。
第三,中国AI公司正在从"跟随者"变成"定义者"。 月之暗面没有去卷价格战,而是用开源的方式在最硬的技术指标上证明自己。当一个中国公司的开源模型能让 GPT-5.4 在关键基准上屈居第二,格局已经变了。
K2.6 在 Product Hunt 上线当天就冲到了第3名(150票),热度还在持续攀升。
不管你是开发者、创业者还是投资人,这个模型都值得你今天就去试试。Kimi.com、Ollama、OpenRouter,随便哪个入口都行。
有些变化,等你回过神来再跟就晚了。