我第一次听过,要超过 Claude 的模型是 GLM-4.7。
最近 Kimi k2.5 发布之后,又有人说 Kimi 比 Claude 好用了。
我本不以为然,但是有两个数据让我想认真对待这个模型了。
一个是 OpenClaw 的数据:
数据显示,在龙虾中用的最多的是 Kimi k2.5。
另一个是 OpenRouter 推特:
他也说了 Kimi k2.5 是 OpenClaw 上最流行的模型。
这让我的好奇心爆表,我很想看一下,这个火爆的模型强在哪里?
我的经验是:不管别人怎么说,只有自己试过才知道。
昨天抽空测了一遍,过程还挺起伏的。
一上来就被我骂傻逼……拍桌子了……但是测到最后却发现还不错!
下面分享一下我的体验过程。
你不是在逗我吧?!
当我想要测试一下 Kimi k2.5 的时候,我首先是去找他有没有 coding plan,找了一圈发现官网只有 API 充值调用。我就不太想充!然后想起来,我有一个火山的 coding plan。里面刚好包含了最新的 Kimi k2.5,所以我就把模型切换成了 Kimi k2.5。
然后把它接入 Claude Code 开始测试了。
第一轮测试我就被气死了。
我的需求是,帮我在桌面创建一个文件夹。简单测试一下它的命令调用能力。
没想到,它不但没有创建成功,还完全胡说八道,还给我秀表情包!!!
我考虑到它可能是偶尔马失前蹄,所以给了它第二次机会。
但是……依旧失败,看来是稳定发挥了。
你们看看黄色框中的命令,就知道它错的有多么离谱了。
我 Windows 下哪里来的 /nmt 路径啊,上来就用 WSL 命令?是要秀一把就你会 Ubuntu 是么?关键是最后事情也没办成啊。
为了排除 Claude Code 的问题,我把火山的后端模型换成 GLM-4.7,其他不变。
GLM-4.7 一把搞定。
到这里,我基本已经开始骂娘了,你们这些人吹什么牛逼一个比一个强。连基本的文件创建都做不到???
但是,我觉得这个事情有点违背常识。2026 年,不可能有模型会这么弱。
所以,谨慎起见。我还是拿免费的 Trae 上的 Kimi k2.5 测试了一下。
结果是——完全没问题。
这就让我有点看不准了。
因为 Trae 上能成功啊,但是也有可能是 Trae 的功劳。
为了验明正身,我又去官网找了找,终于发现 Kimi Code 了。
原来他们的编程套餐在这里,而且发现他们家也搞了一个编程智能体 Kimi Code CLI。
前面都是在第三方平台的接口下测试,肯定有点偏差,所以我直接开了一个 Kimi Code 套餐。
然后安装了他们的 CLI。
这 CLI,看起来还有点小清新的感觉!
好像不是你的锅!
原汁原味的官方工具装好了,立马测试一下:
这次就非常正常。
而且可以看到他调用了 Shell 工具,调用了正确的 mkdir 指令,在正确的路径创建了文件夹。
这才是正常的表现。
那么刚开始发生了什么?我只能想到是不是字节的火山平台“偷工减料”了。
允许我吐槽一会儿。
火山的这个套餐我是开了三个月,但是它那个速度和编码质量实在是不敢恭维。从我对比 GLM-4.7 官方套餐的结果来看,应该是要比官方的慢一倍,效果也差一些。
另外火山有一点让人很无语,切换模型居然要去后台切换???而且不开启 thinking,也不说怎么开启……找了半天找不到资料。
这就让人很难评了!
小伙子还不错啊!
拿到新的 CLI 还有点小兴奋,赶紧来试一把,提个简单需求看看。
需求还是那个需求,之前用这个指令测试过很多模型:
用 React 开发个人博客,要求功能完善,设计美观,专业级 UI 和 UX。
别看这句话很简单,也没有很细的需求,但是好多模型都得折腾一会儿,而且错漏百出。
我之前测过,Claude Code 正常完成这个需求,大概要十几分钟。
GLM 大概 20 分钟左右,火山上的模型基本要到 40 多分钟,可能最后启动不了。
Kimi Code 大概是用了 10 分钟多一点点:
这速度是非常不错了,而且过程非常干净,很少出现红色错误。完成这个任务大概消耗了 8% 的区间配额。
最终的结果也还可以:
功能模块基本是完整的,布局上没有明显的 Bug,动效还可以。不说多优秀,但是基本上改改就能用了。
接入 Claude Code 试试看:
根据它们提供的 API,我通过 cc-switch 把 Kimi 接入了 Claude Code。
这个配置也很简单,找到 Kimi for Coding 然后填写一下 API key 就可以了。
然后启用配置:
然后就可以打开 Claude Code 了,给同样的需求,让它来实现。
Claude Code 自然是轻松搞定了:
Claude Code 的工程能力不用质疑,而且最终反馈都非常清晰,每次都感叹它的总结写的真好。所以我都是在 CLAUDE.md 中指定,让它把反馈写到对话记录里的,方便以后查看。
最终的网页效果也不错。
这个张小明是哪位大佬啊?每次都是他!
换到 Claude Code,13 分钟左右,也算快的。中间遇到了错误,但是自己解决了。配额消耗大概在 21% 左右。这个配额好像消耗的有点多,可能自家工具优化会好一些,也可能是项目代码不一样,属于随机抖动。
测量两把,消耗如下:
我是最低档的 Andante 会员,49 元一个月那档。使用的模型就是它们的最新发布的旗舰模型 K2.5。
从简单的测试来看,体感还不错。
然后看了下大模型竞技场上 Code Arena 的评分:
这个评分可能比较接近真实情况。
目前的排名是 Kimi k2.5 第 5 名,GLM-4.7 第 7 名,MiniMax 第 8 名。
从实力的角度来说,Claude Code Opus 4.5,GPT-5.2-high,Gemini 3 Pro 还是排在国产前面,说 Kimi k2.5 比 Claude Opus 强,这个肯定是不客观的。
但是国产模型的编程套餐价格普遍在 50 元以内,相比 20 美金,非常有优势。
目前大概就是这个情况,随着国产模型的能力提升,性价比在上升,但是绝对实力还是差点意思。
以后有空再深度对比下 GLM-4.7 和 Kimi k2.5。
也可以把 Kimi k2.5 配置到 OpenClaw 里面玩玩。编程套餐不用担心 token 超了啊。超了就自然限流了,不用额外收费。
AI 编程领域,国外模型已经完全能用了,国内模型也基本能用了,接下来就看开源模型,能不能直接用了。
2026 肯定特别精彩。