把Kimi K2.5逼到极限：前端设计超强，人人都能做PPT啦！跨学科能力还不错，视觉识别能力也确实具备了，能处理绝大多

在前天Kimi K2.5发布了，这次Kimi K2.5对标的是国外顶级的模型，包括GPT 5.2（xhigh）、Claude Opus 4.5以及Gemini 3 Pro。

这幅跑分图的核心是：跨学科的硬核推理、实用的网页浏览、交互和调研Agent拿到了第一，在代码、图像和视频能力上逼近第一梯队，其中部分测试中超越了国外的顶尖大模型，例如例如长视频场景。

这次Kimi K2.5最强大的变化是将视觉理解和推理融合了代码、Agent，让用户降低和AI交互的门槛，截图、录屏，Kimi都能直接理解并且复刻。

其次是Agent集群能力，让K2.5能够自己创建多达100个分身，并行处理1500个步骤。

充了199元的30天会员，现在就去体验看看。

参考人物、书籍风格

搜索+生成网站设计

第一个案例，直接上强度，跑分既然是跨学科知识强，那看看AI能不能具有星野道夫的审美和强大的前端开发能力。

Prompt：首先你是一个具备高度审美的网页设计专家，然后把自己想象成是星野道夫，按照森林、冰河与鲸那本书来设计中国风景画册网站，需要具备丰富的动效。

最开始很不错，真的去看书了。

但我没想到比搜索更硬核的是，自己去生图了，而且它还挺遵从事实？洱海边真的有枯树，所以反而更好奇它会给我开发出一个什么样的网站。

整体下来还是蛮好的，但意境方面可能不太写实，生态可能也只是局限在了风景部分，缺少了生物部分。

它确实把自己想象成星野道夫了，甚至还用AI生图给出了自己的肖像，也有了在旅行时候的日志，指令遵循度很高。

但AI似乎也进入了下一个阶段，从出现幻觉变成了主动制造幻觉。

体验链接：

a6is2zzx55z3u.ok.kimi.link

参考视频，生成有强度网站设计

这个阶段，我直接上强度了，因为网上很多大神已经测试过简单版的复刻，所以第二个测试也很硬核，我找到了一个很神秘的网站，各种按钮随机的出现，图片的随机的弹出，甚至无法找到它的规律...

算了，直接让Kimi复刻，我只是输入了1句提示词，想测试下模型的极限。

Prompt：你是一个有高度审美的网页设计专家，请基于这个视频的设计元素、交互、各页面设计，像素级复刻单独的html网站

这一个环节，在我的测试中并没有成功，确实具备比较多的动效，在加载时会渐变出现，也会有左右摆动的元素效果。

但直接掉落的组件无规则的弹跳，可能还是太难了，调了几次没成功，视频左上角说明了是v4版本，但其实和下面v1版本的差距并不大。

体验链接：

2rosuqucbm32m.ok.kimi.link

基于链接，复刻网站UI

依旧是强度十分大的网站：

abigailkahan.com/home/

应该也是失败了。

在等待的时候，我也让kimi code、claude code（glm4.7）、codex，同步测试下。

这里我们可以看到左侧的kimi是8888端口，中间的codex是8000端口，右边的glm+claude code 是8001端口。

3者都实现了这个逻辑，录屏只展示kimi和glm的效果哈，大概的实现逻辑我也问了codex，它这么回复

这个实现方式的话，应该很多AI还是都能做到的。

总结测试结果，链接复刻，Kimi Agent模式失败，Coding CLI成功，GPT、GLM也成功。

继续测试，

无连线的产品原型图复刻UI

直接给1-2个页面做UI，那我觉得没什么意思，大部分的Agent都能做到，于是试试多页的交互，这是我1-2年前随手画的记账小程序的原型，上面甚至连连线都没有。

Prompt：将其转化成可交互的UI原型图，基于iOS 26的视觉创新来设计。

最终的给我实现了3个画面：首页、明细页、创建页，首页要切换的图表垂直的排列了，也没有管初始态没登录的时候，也没有个人中心。

体验的链接：

52m446ublykgo.ok.kimi.link

连线平台产品原型图复刻UI

ok，接下来试试平台型的产品，并且加上了连线。

Prompt：基于原型转成可交互的，审美顶级的提示词调试网站，至于什么是顶级的，你自己想

但还是有信息丢失，具备提示词输入+模型选择和输出，丢掉了列表页、变量设置部分和模型思考部分，以及帮我加了一些其他没有的内容。所以我决定继续给它上强度。

Prompt：丢掉了列表页、变量设置部分和模型思考部分，以及你加了很多快速开始、项目、历史记录、数据集之类的空导航标签。你自己去搜索全网的提示词调试工具是怎么做的，基于我原型，给我最佳实现，每一个页面你都必须是有功能交互的。

第二次之后，删掉了无用的功能，在左侧增加了一个切换提示词的列表，并且也补全了变量和思考，以及token相关的逻辑，整体来看还算ok。

体验链接：

ylivtjrzsb3au.ok.kimi.link

搞搞PPT

可能是太多人涌入，导致算力不够，在被毒打后的我在想，Kimi现在这么硬核都会自己作图了，那我是不是可以测试它的第二个功能，人人精通Office？

继续开整。

开局踩雷联网搜索和plan and excute的大坑，规划错了后面全错，联网搜索的信息太杂了，信源可能都很脏。

Deepseek R1的新闻明显比最近的疑似V4架构的engram、OCR2要更多，更别说v3.2了。

重新澄清后，集群就废了，后面都是普通Agent的数据，但好在数据变对了，然后做出了很酷的图，忽然很期待最终的PPT效果。

有图标、有图表，有真实的数据，也有配图，可以直接编辑，整体来说满意度还是比较高的。

本来想在ppt的场景测Agent集群，但因为前面断了，放一段之前测到一半的case。

多Agent！！！多Agent！！！

前天发文Deepseek OCR模型的时候，其实是崩溃的，Qwen3、ds ocr2、kimi2.5 还有clawd，根本体验、测评不完。

于是想着能不能让kimi的集群来打工

面对复杂任务，K2.5 不再是一个包揽一切的「全能专家」，而是化身为一支即时组建的「专业团队」。它能根据任务需求，现场调度多达 100 个分身，并行处理 1500 个步骤。所有的角色分配与任务拆解，无需预设，全由 K2.5 现场决策。

OK Computer，公众号：月之暗面 KimiKimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

那就来测试我的复杂场景

1）查询类任务
找到论文和代码地址->找到更多的科学信源->结合Engram的知识，一起给我解答
2）创作类任务
给我公众号文章
3）设计&前端编程类任务
给我html格式排版
4）后端编程类任务
查询是否支持在线调用->判断是否能够本地部署->判断怎么部署

这个场景要199元/月的会员才能体验，如果真的那么强大，那对比Manus 300块一个月还是能立省100。

付费完毕后发现，增加了43次额度，每次消耗3次，那其实199也不是无限用的。

言归正传，Prompt如下

deepseek刚发布了新的模型deepseek-OCR2，请你找到论文和代码的地址，给我讲解。讲解要包括：这次模型的核心机制是什么，有哪些突破，对业务和个人有什么影响，同步找下推特、reddit等论坛相关的解读、评价，前不久还发布了engram机制，这2者在一起能碰撞出什么火花？这个部分给我html格式的最终文章，方便我一键复制到公众号修改。同时告诉我是否具备在线的API调用，如果不能是否支持本地部署，但我是Apple M2 Pro，16G，不确定是否扛得住。

进入之后是典型的hello world，这个复古感让我感觉回到了windows时代。

可以看到创建了并行的子代理完成任务，这句熟悉的我diss claude code指令终于会自己命令自己了！！！

至少从视觉上看，有五个专家在为我服务，具体的时间有些忘记了，大概3分钟左右，前4个任务就完成了，最后1个任务我问它能不能在线调用和部署的问题。

但等待的过程，我给忘记了，然后含泪发布了写完的文章，我把Kimi做的放在了第二篇文章里，朋友们可以看看最终的html格式。

体验下来，跨学科能力还不错，视觉识别能力也确实具备了，能处理绝大多数的场景，在复杂场景下还有一段路要走，但还是值得高兴！！

在PPT的场景，确实和以前不一样了，能调研、能排版、能自己插入数据图表、能自己配图，整体来说都轻松了不少。

在复杂场景里，也没有出错，成功的同时完成了调研、创作、设计、编程的任务，但我还没有找到能让它并行100个专家，1500个步骤的事情。

如果朋友们有这类任务可以告诉我让我来玩玩。