Kimi K2.5发布:视频转代码真的香,原生Agent集群,还带了个Kimi Code

444 阅读8分钟

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

今天Kimi发布了K2.5模型,带来了两个让人眼前一亮的能力——看懂视频写代码,以及原生的Agent集群

第一个能力是GPT和Claude都不具备的:很多时候你想做个功能,用文字描述半天说不清楚,但录个屏就能让AI秒懂。

第二个能力虽然Claude Code也有subagents,但K2.5的Agent集群是模型原生能力,不需要用户手动配置或调用命令。复杂任务K2.5会自动决定要不要召唤“分身”、召唤几个、怎么分工,全程自动化。

听起来有点玄?我直接拿实际项目测了,确实有点东西。

核心要点

  • Kimi K2.5原生支持图片和视频输入,能直接从录屏理解交互逻辑并生成代码
  • Agent集群能自动创建100个子Agent并行处理,最多支持1500个步骤,效率提升4.5倍
  • 掌握Word、Excel、PPT等Office软件的中高阶技能,能生成准专业级文档
  • 同步发布的Kimi Code支持VS Code、Cursor等主流IDE,配置简单
  • 复杂项目上和GPT、Claude还有差距,但视觉理解和协作能力是国产独家
  • 承认一点:Agent集群目前还在Beta测试,普通用户暂时用不上全部功能

直接录屏,K2.5就能复现出来

我测了两个场景,一个是Kimi官方文档的网页,一个是“且听”这款App的操作界面。

图片

我直接录了段Kimi官方文档的操作视频扔给它,没有任何文字描述,只有一句话,“生成视频展示一样的网页”。

K2.5自己拆解了页面结构、导航逻辑、甚至滚动触发效果,然后写出了一个基本一致的网页。

图片

**
**

不说100%像素级复刻,但核心交互和布局真的很到位。这要是以前,你得先截图、标注、写需求文档,然后AI才能开始干活。

图片

第二个测试更狠——录了个“且听”App的操作视频。

这可是移动端的交互,手势滑动、页面切换、动画效果,K2.5都能看懂,然后用代码实现出来。

图片

**
**

效果有点超预期。虽然细节打磨上还需要调整,但基本的操作流程和视觉效果都复现出来了。

截图识别也很精准

视频能力强是一回事,日常开发中更常用的其实是图片识别。

比如“且听”app实现的布局问题:

图片

直接把页面截图发给K2.5,就说了句“设备模拟下有问题”:

图片

它马上就识别出来了我想表达的意思,根本不用我多解释,直接给出了修复方案和代码。

Agent集群:模型原生的自动协作

这次K2.5最大的创新其实是Agent集群。虽然Claude Code也有subagents功能,但两者有本质区别:

Claude Code的subagents需要你提前配置好各个子Agent的职责、工具权限,然后在对话中明确调用,或者写清楚描述让它自动匹配。本质上是一个工程化的解决方案。

Kimi K2.5的Agent集群是模型的原生能力。你不需要配置任何东西,K2.5会根据任务复杂度自己决定:要不要创建子Agent、创建几个、各自负责什么、怎么协作。全程自动化,就像你招了个项目经理,他自己组建团队、分配任务。

官方给的数据是:最多可以调度100个子Agent,并行处理1500个步骤。相比单Agent执行,关键步骤数减少3-4.5倍,实际运行时间最高缩短4.5倍。

举个例子,官方演示中给K2.5投喂了40篇关于心理学和AI的论文,让它写一份综述。K2.5的做法是:

  1. 主Agent先通读40篇论文,保证上下文完整
  2. 自动创建几个子Agent,分别负责不同章节撰写
  3. 主Agent负责把关验收,汇总成一份几十页的专业PDF

整个过程你只需要说“帮我写个综述”,剩下的全自动。不需要提前定义“文献分析Agent”“章节撰写Agent”这些角色。

这种协作模式在处理大规模搜索、多文档整合、复杂报告生成这类任务时特别有用。以前单个Agent可能要跑几小时,现在并行处理几十分钟就搞定。

不过有一点要说明:Agent集群目前还在Beta测试阶段,只对部分用户开放。所以上面说的是基于官方演示和文档的理解。等正式开放了我会实际测试,到时候单独写一篇详细体验。

Office能力也很实用

除了编程和Agent,K2.5还掌握了Word、Excel、PPT、PDF这些常用软件的中高阶技能。

比如在Word里添加批注、在Excel里用透视表做财务模型、在PDF里写LaTeX公式,这些都能做。而且支持长文档输出,万字论文或者百页报告都能生成。

官方说法是“助用户直接交付准专业水平的办公文档”。我理解这个“准专业”的意思是:不能完全替代专业人士,但对于大部分日常办公需求已经够用了。

这个能力对非开发人员其实更实用。比如产品经理要写需求文档、运营要做数据分析报告,以前都得自己慢慢磨,现在直接让K2.5生成个初稿,再基于这个初稿调整,效率能提升不少。

Kimi Code配置很简单

K2.5发布的同时,Kimi也推出了自己的编程工具——Kimi Code。支持命令行和主流IDE集成。我上面的测试就是用Kimi Code完成的。

安装很简单,一行命令就搞定:

Linux/macOS:

curl -LsSf https://cdn.kimi.com/binaries/kimi-cli/install.sh | bash

Windows (PowerShell):

Invoke-RestMethod https://cdn.kimi.com/binaries/kimi-cli/install.ps1 | Invoke-Expression

装完运行 kimi --version 验证一下就行。

图片

第一次用需要登录,直接 /login 会自动打开浏览器授权。

如果你想用API密钥,就用 /setup 进入配置向导。

图片

VS Code用户更方便,插件市场搜“kimi code”直接装。

图片

装完侧边栏就会多个Kimi的小机器人图标,只要命令行登录过,这边就能直接用。

图片

Kimi Code的特色是能充分发挥K2.5的多模态优势——你可以直接输入图片和视频进行编程辅助。而且它能自动发现你现有的技能,迁移到新的工作流中。

官方还开源了背后的Agent SDK,想自定义Agent体验的可以去GitHub看看:github.com/MoonshotAI/…

视觉理解是真的强,但复杂项目还差点

说实话,在复杂的企业级项目上,K2.5和GPT Codex、Claude比还是有差距的。

我试过让它重构一个几千行的老项目,虽然能理解整体架构,但生成的代码在边界情况处理、错误处理这些细节上不如Codex和Claude稳。

还有个问题是提示词容错度。Claude那种你说得模糊点也能猜对意图的能力,K2.5还达不到。你得把需求说得相对明确,它才能给出好结果。

但是——视觉理解和原生Agent集群这块是真的亮点。

至于Agent协作,Claude Code的subagents需要手动配置和调用,而K2.5的Agent集群是模型原生能力,全自动决策和分工。

虽然都能实现多Agent协作,但用户体验完全不同:一个是你自己当项目经理,一个是AI自己当项目经理。

四种模式,各有用处

现在在Kimi.com或者Kimi App上可以选择四种模式:

  • 快速模式:最快响应,适合简单对话
  • 思考模式:深度推理,适合复杂问题
  • Agent模式:擅长深度研究、Office文档生成、网页开发
  • Agent集群模式:适合需要并行处理的复杂任务(Beta)

图片

根据任务选对模式很重要。比如你要快速问个知识点,用快速模式就行;要生成PPT或者复杂报告,就得上Agent模式;如果是多文档综述这种大工程,等Agent集群正式开放了再用。

总结一下

Kimi K2.5在视觉理解编程和AI协作这两块走到了前面。国产模型终于有了GPT和Claude都做不到的核心能力。

如果你经常需要从设计稿实现页面、或者看着别人的产品做类似功能,K2.5的视觉理解能力绝对值得一试。如果你要处理大量文档、生成复杂报告,Agent集群(等正式开放后)也会是个很强的助手。

但如果是大型项目的复杂重构、或者对代码质量和稳定性要求特别高的场景,现阶段Claude 和GPT Codex可能还是更稳妥的选择。

工具没有完美的,看场景选最合适的就好。Kimi Code配合K2.5用起来很顺手,Office能力对非开发人员也很实用。值得加入你的AI工具箱。

更多内容,请关注【子昕AI编程】微信公众号!