Kimi2.6 出来后各榜单上评分都很高,怕在这个供给不足的市场里会遇到要抢 GLM 名额一样的场景,赶紧安利朋友一起买入。
买完后,发现 Kimi 的算力确实充足。
当然,也可能是因为社区里一堆吐槽 Kimi2.6 的人,有很多博主自身做了真实的测评,效果上看 Kimi2.6 要差于跟它评分相近的 GLM-5.1,Qwen-3.6
被我安利买 Kimi 的冬熊(外号)也第一时间给了我反馈,其效果远差于 Gpt-5.4
当冬熊说出 codex 的时候,我就知道这老小子没怎么仔细看我前 2 篇文章
也对,那两篇文章篇幅太长了,所以,在这里我简单说下
同一个Agent,为什么换个跑分相近的模型之后效果会差很多
必须还得祭出这张图
上篇文章我们聊到过, Agent = Model + Harness
既然 Harness 一样,为什么换个分数相近的 Model,整个 Agent 像换了一个人一样?
具体原因如下:
- Harness 是动态的,它必须跟随模型的能力演进不断调整。
- 大模型在预训练阶段已经绑定工具了,ChatGPT -- Codex
- 大模型跟工具共同进化,形成行为闭环
前 2 点在之前的文章里有细说,感兴趣的朋友可以移步:
在这,我也简单聊下,闭环是什么?
- 用户使用 Codex
- 产生真实行为数据(怎么写代码、怎么调用工具)
- 这些数据反哺 ChatGPT
- ChatGPT 行为更适配 Codex
- Codex 再优化 Harness
闭环后,循环,继续加强。
这时候可以看出强如 Kimi2.6 也会在 Codex 上被 ChatGPT-5.4 吊打。让 Kimi 跑 Codex,这就像啥,允许我夸张一点说,就像让 Android App 跑在 IOS 上一样。
当然,前面还没能解释清楚,为什么很多博主测出来, Kimi2.6 效果不如 GLM-5.1 呢。
我目前只能给到一个猜测,不一定对,仅供参考:
- 得搞清楚那些博主用的什么工具来测的,还是直接调用 Api?
- Kimi 自己做了 KimiCode 这些工具
- GLM 目前还没有推出自己的工具,但有针对各类工具做优化,且其在 Cluade Code 上,优化最多
大模型跟工具是共同进化的系统,这也是我敢安利冬熊买 Kimi 的原因之一