Kimi K2.5发布：视频转代码真的香，原生Agent集群，还带了个Kimi Code今天Kimi发布了K2.5模型，

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

今天Kimi发布了K2.5模型，带来了两个让人眼前一亮的能力——看懂视频写代码，以及原生的Agent集群。

第一个能力是GPT和Claude都不具备的：很多时候你想做个功能，用文字描述半天说不清楚，但录个屏就能让AI秒懂。

第二个能力虽然Claude Code也有subagents，但K2.5的Agent集群是模型原生能力，不需要用户手动配置或调用命令。复杂任务K2.5会自动决定要不要召唤“分身”、召唤几个、怎么分工，全程自动化。

听起来有点玄？我直接拿实际项目测了，确实有点东西。

核心要点

Kimi K2.5原生支持图片和视频输入，能直接从录屏理解交互逻辑并生成代码
Agent集群能自动创建100个子Agent并行处理，最多支持1500个步骤，效率提升4.5倍
掌握Word、Excel、PPT等Office软件的中高阶技能，能生成准专业级文档
同步发布的Kimi Code支持VS Code、Cursor等主流IDE，配置简单
复杂项目上和GPT、Claude还有差距，但视觉理解和协作能力是国产独家
承认一点：Agent集群目前还在Beta测试，普通用户暂时用不上全部功能

直接录屏，K2.5就能复现出来

我测了两个场景，一个是Kimi官方文档的网页，一个是“且听”这款App的操作界面。

我直接录了段Kimi官方文档的操作视频扔给它，没有任何文字描述，只有一句话，“生成视频展示一样的网页”。

K2.5自己拆解了页面结构、导航逻辑、甚至滚动触发效果，然后写出了一个基本一致的网页。

**
**

不说100%像素级复刻，但核心交互和布局真的很到位。这要是以前，你得先截图、标注、写需求文档，然后AI才能开始干活。

第二个测试更狠——录了个“且听”App的操作视频。

这可是移动端的交互，手势滑动、页面切换、动画效果，K2.5都能看懂，然后用代码实现出来。

**
**

效果有点超预期。虽然细节打磨上还需要调整，但基本的操作流程和视觉效果都复现出来了。

截图识别也很精准

视频能力强是一回事，日常开发中更常用的其实是图片识别。

比如“且听”app实现的布局问题：

直接把页面截图发给K2.5，就说了句“设备模拟下有问题”：

它马上就识别出来了我想表达的意思，根本不用我多解释，直接给出了修复方案和代码。

Agent集群：模型原生的自动协作

这次K2.5最大的创新其实是Agent集群。虽然Claude Code也有subagents功能，但两者有本质区别：

Claude Code的subagents需要你提前配置好各个子Agent的职责、工具权限，然后在对话中明确调用，或者写清楚描述让它自动匹配。本质上是一个工程化的解决方案。

Kimi K2.5的Agent集群是模型的原生能力。你不需要配置任何东西，K2.5会根据任务复杂度自己决定：要不要创建子Agent、创建几个、各自负责什么、怎么协作。全程自动化，就像你招了个项目经理，他自己组建团队、分配任务。

官方给的数据是：最多可以调度100个子Agent，并行处理1500个步骤。相比单Agent执行，关键步骤数减少3-4.5倍，实际运行时间最高缩短4.5倍。

举个例子，官方演示中给K2.5投喂了40篇关于心理学和AI的论文，让它写一份综述。K2.5的做法是：

主Agent先通读40篇论文，保证上下文完整
自动创建几个子Agent，分别负责不同章节撰写
主Agent负责把关验收，汇总成一份几十页的专业PDF

整个过程你只需要说“帮我写个综述”，剩下的全自动。不需要提前定义“文献分析Agent”“章节撰写Agent”这些角色。

这种协作模式在处理大规模搜索、多文档整合、复杂报告生成这类任务时特别有用。以前单个Agent可能要跑几小时，现在并行处理几十分钟就搞定。

不过有一点要说明：Agent集群目前还在Beta测试阶段，只对部分用户开放。所以上面说的是基于官方演示和文档的理解。等正式开放了我会实际测试，到时候单独写一篇详细体验。

Office能力也很实用

除了编程和Agent，K2.5还掌握了Word、Excel、PPT、PDF这些常用软件的中高阶技能。

比如在Word里添加批注、在Excel里用透视表做财务模型、在PDF里写LaTeX公式，这些都能做。而且支持长文档输出，万字论文或者百页报告都能生成。

官方说法是“助用户直接交付准专业水平的办公文档”。我理解这个“准专业”的意思是：不能完全替代专业人士，但对于大部分日常办公需求已经够用了。

这个能力对非开发人员其实更实用。比如产品经理要写需求文档、运营要做数据分析报告，以前都得自己慢慢磨，现在直接让K2.5生成个初稿，再基于这个初稿调整，效率能提升不少。

Kimi Code配置很简单

K2.5发布的同时，Kimi也推出了自己的编程工具——Kimi Code。支持命令行和主流IDE集成。我上面的测试就是用Kimi Code完成的。

安装很简单，一行命令就搞定：

Linux/macOS:

curl -LsSf https://cdn.kimi.com/binaries/kimi-cli/install.sh | bash

Windows (PowerShell):

Invoke-RestMethod https://cdn.kimi.com/binaries/kimi-cli/install.ps1 | Invoke-Expression

装完运行 kimi --version 验证一下就行。

第一次用需要登录，直接 /login 会自动打开浏览器授权。

如果你想用API密钥，就用 /setup 进入配置向导。

VS Code用户更方便，插件市场搜“kimi code”直接装。

装完侧边栏就会多个Kimi的小机器人图标，只要命令行登录过，这边就能直接用。

Kimi Code的特色是能充分发挥K2.5的多模态优势——你可以直接输入图片和视频进行编程辅助。而且它能自动发现你现有的技能，迁移到新的工作流中。

官方还开源了背后的Agent SDK，想自定义Agent体验的可以去GitHub看看：github.com/MoonshotAI/…

视觉理解是真的强，但复杂项目还差点

说实话，在复杂的企业级项目上，K2.5和GPT Codex、Claude比还是有差距的。

我试过让它重构一个几千行的老项目，虽然能理解整体架构，但生成的代码在边界情况处理、错误处理这些细节上不如Codex和Claude稳。

还有个问题是提示词容错度。Claude那种你说得模糊点也能猜对意图的能力，K2.5还达不到。你得把需求说得相对明确，它才能给出好结果。

但是——视觉理解和原生Agent集群这块是真的亮点。

至于Agent协作，Claude Code的subagents需要手动配置和调用，而K2.5的Agent集群是模型原生能力，全自动决策和分工。

虽然都能实现多Agent协作，但用户体验完全不同：一个是你自己当项目经理，一个是AI自己当项目经理。

四种模式，各有用处

现在在Kimi.com或者Kimi App上可以选择四种模式：

快速模式：最快响应，适合简单对话
思考模式：深度推理，适合复杂问题
Agent模式：擅长深度研究、Office文档生成、网页开发
Agent集群模式：适合需要并行处理的复杂任务（Beta）

根据任务选对模式很重要。比如你要快速问个知识点，用快速模式就行；要生成PPT或者复杂报告，就得上Agent模式；如果是多文档综述这种大工程，等Agent集群正式开放了再用。

总结一下

Kimi K2.5在视觉理解编程和AI协作这两块走到了前面。国产模型终于有了GPT和Claude都做不到的核心能力。

如果你经常需要从设计稿实现页面、或者看着别人的产品做类似功能，K2.5的视觉理解能力绝对值得一试。如果你要处理大量文档、生成复杂报告，Agent集群（等正式开放后）也会是个很强的助手。

但如果是大型项目的复杂重构、或者对代码质量和稳定性要求特别高的场景，现阶段Claude 和GPT Codex可能还是更稳妥的选择。

工具没有完美的，看场景选最合适的就好。Kimi Code配合K2.5用起来很顺手，Office能力对非开发人员也很实用。值得加入你的AI工具箱。

更多内容，请关注【子昕AI编程】微信公众号！