Kimi K2.5实测：吊打国外模型硅谷闭源模型不再等于性能的天花板，Kimi K2.5 提供了更具性价比的选择。这次

硅谷闭源模型不再等于性能的天花板，Kimi K2.5 提供了更具性价比的选择。这次 K2.5 的表现让人更加振奋，是那种肉眼可见的进步和爽感，写到这里，虽然测的有点累了，不过人还是相当的兴奋，就像当初熬夜测 Gemini 3 一样。

这次，K2.5 是一个全能型的统一模型，最大的特点就是视觉、编程、Agent 一口气全包。K2.5 模型能力提升如下：支持多模态理解，Kimi 终于补全了多模态的空白，而且一次性支持图片+视频理解；支持推理和非推理的思考模式切换；前端审美设计能力可以和 Gemini 3 Pro 一战了。

Kimi K2.5各项能力跑分对比图表

基于 K2.5，Kimi 一口气放出了 4 个产品：

1、开源的 Claude Code——Kimi code：全面支持 Skills，Benchmark 分数高，无需 MCP 即可支持视频输入。 2、Visual Coding：能看图或视频复刻网页，还能做视觉调整，并能一键部署。 3、Agent 集群：智能体军团，可根据任务创建多达 100 个 Agent 分身，并自主分工协作。 4、Office Agent：PPT、Word、Excel 审美和设计能力全面提升。

整体测试下来最大的感受是 K2.5 的 coding 能力提升比较明显，特别是前端审美能力，在一些 case 上甚至还超过 Gemini 3 Pro。比如，这个是我用 K2.5 一句话复刻的 X 首页：相对比之下，这是我当时同样的提示词用 Gemini 3 复刻的 X 页面：可以看到 K2.5 除了复刻页面的每一个元素，甚至连页面中的图片都复刻了，而不是用占位符替代。

Kimi K2.5复刻的X首页界面截图

我又让它复刻小红书首页，也做的很好。

如果你也想体验这种顶级模型的魅力，其实不必受限于单一工具。像 nunu.chat 这种多模型聚合平台就非常给力，它是类似 ChatGPT 的 AI chat 平台，集成了海外顶级大模型优势，国内直连就能丝滑使用，还有大量免费额度，非常适合极客折腾。

NunuAI产品截图

因为 K2.5 能理解视频，我又上传了一个点击交互的视频，K2.5 能理解视频中的交互，并像人一样能看清每一个交互后的页面，然后复刻。这是我复刻的带有交互的 B 站首页。我还测试了个 APP 复刻的场景，直接录制了一段操作即刻的视频，然后丢给 K2.5，输入提示词：复刻视频中的 APP 页面，包括交互，保证 APP 页面可用。可以看到，复刻的挺不错，视频中的交互，K2.5 理解后并输出成了页面，而且效果相当好，这或许就是 Visual Coding 的魅力所在吧。

然后我又做了个带有手势交互的小游戏，需要唤起摄像头并理解我的手势，来模拟粒子炸开的效果。K2.5 一次就完成了这个效果，效果相当棒，而且代码开发的速度非常快。我记得当时 Gemini 3 我做过一个做 macos 操作系统的 case，当时挺震撼的，于是我输入同样的提示词给 K2.5。同样一次，就出来了这样一个，很不错的效果。真棒，而且整个一次性生成，就简简单单一个提示词，整个的 macos 风格的感觉就都出来了。为了继续捶打，我又做了个实验，把架构图传过去，希望生成可编辑的版本，K2.5 同样完成的非常出色。

此外，我对 Agent Swarm 模式进行了测试，说的简单点，这是个 Agent 的军团，能创建无数个分身来帮扶完成复杂的任务。我输入这样一大串提示词：请模拟 5 位风格极度反差的知名艺术家或视觉流派，为当代「打工人」设计 5 个系列、每个系列 10 张的微信表情包。可以看到它开始并行调用 5 个 Agent 来帮我生成不同艺术风格的表情包。

Agent集群并行生成表情包任务演示

表情包图片生成的远比我想象中的快，有智能体军团并行的效率太高了。

最后我针对 Kimi code 进行了测试，在 cli 中 input 图片变得如此丝滑，好像还是第一次。比如我直接把这张图丢到 cli 终端中，让 K2.5 做下理解。可以看到把图片拖到 Kimi Code 后，自动带出路径：

Kimi Code在终端理解架构图过程

Kimi Code 先是调用 ReadMediaFile 这个读取图片和视频文件的 agent 来理解图片。这个 agent 最多能读取 100MB 大小的文件。之后就给我一份详细的解释，效果不错，整个流程模型自身就具备理解能力，这太舒服了。

同样将视频直接丢给 kimi code，也完全能理解。然后我利用 remotion-best-practices 这个 skills 以及配音 skills，将刚才的视频做一下翻译配音。这里 skills 有一个分层加载机制，并且会按照以下优先级加载。其中 Kimi CLI 内置了 2 个 Skills：最终就出来一个做了中文配音的数字人混剪视频了，效果还是非常 nice 的。

其实一开始 kimi 的 k2 模型在代码能力上已经表现的相当不错。前端审美以及对图片视频的理解能力有了很大提升，特别是在 kimi code 中可以丝滑地理解图片和视频还是非常舒服的。整体测试下来，k2.5 给我带来了不少的惊喜，接下来我也会尝试用它来进行工程化的实践。好啦，感谢你喜欢我的文章，我们下一期见。