同一个Agent,为什么换模型之后效果差很多

9 阅读2分钟

Kimi2.6 出来后各榜单上评分都很高,怕在这个供给不足的市场里会遇到要抢 GLM 名额一样的场景,赶紧安利朋友一起买入。
买完后,发现 Kimi 的算力确实充足。
当然,也可能是因为社区里一堆吐槽 Kimi2.6 的人,有很多博主自身做了真实的测评,效果上看 Kimi2.6 要差于跟它评分相近的 GLM-5.1,Qwen-3.6
被我安利买 Kimi 的冬熊(外号)也第一时间给了我反馈,其效果远差于 Gpt-5.4

0bac5f586ae2f4435dbd7e0a25008bc7.jpg

当冬熊说出 codex 的时候,我就知道这老小子没怎么仔细看我前 2 篇文章
也对,那两篇文章篇幅太长了,所以,在这里我简单说下

同一个Agent,为什么换个跑分相近的模型之后效果会差很多

必须还得祭出这张图

image_061475158675264.png

上篇文章我们聊到过, Agent = Model + Harness
既然 Harness 一样,为什么换个分数相近的 Model,整个 Agent 像换了一个人一样?

具体原因如下:

  1. Harness 是动态的,它必须跟随模型的能力演进不断调整。
  2. 大模型在预训练阶段已经绑定工具了,ChatGPT -- Codex
  3. 大模型跟工具共同进化,形成行为闭环

前 2 点在之前的文章里有细说,感兴趣的朋友可以移步:

在这,我也简单聊下,闭环是什么?

loop.png

  1. 用户使用 Codex
  2. 产生真实行为数据(怎么写代码、怎么调用工具)
  3. 这些数据反哺 ChatGPT
  4. ChatGPT 行为更适配 Codex
  5. Codex 再优化 Harness

闭环后,循环,继续加强。

这时候可以看出强如 Kimi2.6 也会在 Codex 上被 ChatGPT-5.4 吊打。让 Kimi 跑 Codex,这就像啥,允许我夸张一点说,就像让 Android App 跑在 IOS 上一样。

当然,前面还没能解释清楚,为什么很多博主测出来, Kimi2.6 效果不如 GLM-5.1 呢。
我目前只能给到一个猜测,不一定对,仅供参考:

  1. 得搞清楚那些博主用的什么工具来测的,还是直接调用 Api?
  2. Kimi 自己做了 KimiCode 这些工具
  3. GLM 目前还没有推出自己的工具,但有针对各类工具做优化,且其在 Cluade Code 上,优化最多

大模型跟工具是共同进化的系统,这也是我敢安利冬熊买 Kimi 的原因之一