把Kimi K2.5逼到极限:前端设计超强,人人都能做PPT啦!

91 阅读9分钟

在前天Kimi K2.5发布了,这次Kimi K2.5对标的是国外顶级的模型,包括GPT 5.2(xhigh)、Claude Opus 4.5以及Gemini 3 Pro。

这幅跑分图的核心是:跨学科的硬核推理、实用的网页浏览、交互和调研Agent拿到了第一,在代码、图像和视频能力上逼近第一梯队,其中部分测试中超越了国外的顶尖大模型,例如例如长视频场景。

这次Kimi K2.5最强大的变化是将视觉理解和推理融合了代码、Agent,让用户降低和AI交互的门槛,截图、录屏,Kimi都能直接理解并且复刻。

其次是Agent集群能力,让K2.5能够自己创建多达100个分身,并行处理1500个步骤。

充了199元的30天会员,现在就去体验看看。

参考人物、书籍风格

搜索+生成网站设计

第一个案例,直接上强度,跑分既然是跨学科知识强,那看看AI能不能具有星野道夫的审美和强大的前端开发能力。

Prompt:首先你是一个具备高度审美的网页设计专家,然后把自己想象成是星野道夫,按照森林、冰河与鲸那本书来设计中国风景画册网站,需要具备丰富的动效。

最开始很不错,真的去看书了。

但我没想到比搜索更硬核的是,自己去生图了,而且它还挺遵从事实?洱海边真的有枯树,所以反而更好奇它会给我开发出一个什么样的网站。

整体下来还是蛮好的,但意境方面可能不太写实,生态可能也只是局限在了风景部分,缺少了生物部分。

它确实把自己想象成星野道夫了,甚至还用AI生图给出了自己的肖像,也有了在旅行时候的日志,指令遵循度很高。

但AI似乎也进入了下一个阶段,从出现幻觉变成了主动制造幻觉。

体验链接:

a6is2zzx55z3u.ok.kimi.link

参考视频,生成有强度网站设计

这个阶段,我直接上强度了,因为网上很多大神已经测试过简单版的复刻,所以第二个测试也很硬核,我找到了一个很神秘的网站,各种按钮随机的出现,图片的随机的弹出,甚至无法找到它的规律...

算了,直接让Kimi复刻,我只是输入了1句提示词,想测试下模型的极限。

Prompt:你是一个有高度审美的网页设计专家,请基于这个视频的设计元素、交互、各页面设计,像素级复刻单独的html网站

这一个环节,在我的测试中并没有成功,确实具备比较多的动效,在加载时会渐变出现,也会有左右摆动的元素效果。

但直接掉落的组件无规则的弹跳,可能还是太难了,调了几次没成功,视频左上角说明了是v4版本,但其实和下面v1版本的差距并不大。

体验链接:

2rosuqucbm32m.ok.kimi.link

基于链接,复刻网站UI

依旧是强度十分大的网站:

abigailkahan.com/home/

应该也是失败了。

在等待的时候,我也让kimi code、claude code(glm4.7)、codex,同步测试下。

这里我们可以看到左侧的kimi是8888端口,中间的codex是8000端口,右边的glm+claude code 是8001端口。

3者都实现了这个逻辑,录屏只展示kimi和glm的效果哈,大概的实现逻辑我也问了codex,它这么回复

这个实现方式的话,应该很多AI还是都能做到的。

总结测试结果,链接复刻,Kimi Agent模式失败,Coding CLI成功,GPT、GLM也成功。

继续测试,

无连线的产品原型图复刻UI

直接给1-2个页面做UI,那我觉得没什么意思,大部分的Agent都能做到,于是试试多页的交互,这是我1-2年前随手画的记账小程序的原型,上面甚至连连线都没有。

Prompt:将其转化成可交互的UI原型图,基于iOS 26的视觉创新来设计。

最终的给我实现了3个画面:首页、明细页、创建页,首页要切换的图表垂直的排列了,也没有管初始态没登录的时候,也没有个人中心。

体验的链接:

52m446ublykgo.ok.kimi.link

连线平台产品原型图复刻UI

ok,接下来试试平台型的产品,并且加上了连线。

Prompt:基于原型转成可交互的,审美顶级的提示词调试网站,至于什么是顶级的,你自己想

但还是有信息丢失,具备提示词输入+模型选择和输出,丢掉了列表页、变量设置部分和模型思考部分,以及帮我加了一些其他没有的内容。所以我决定继续给它上强度。

Prompt:丢掉了列表页、变量设置部分和模型思考部分,以及你加了很多快速开始、项目、历史记录、数据集之类的空导航标签。你自己去搜索全网的提示词调试工具是怎么做的,基于我原型,给我最佳实现,每一个页面你都必须是有功能交互的。

第二次之后,删掉了无用的功能,在左侧增加了一个切换提示词的列表,并且也补全了变量和思考,以及token相关的逻辑,整体来看还算ok。

体验链接:

ylivtjrzsb3au.ok.kimi.link

搞搞PPT

可能是太多人涌入,导致算力不够,在被毒打后的我在想,Kimi现在这么硬核都会自己作图了,那我是不是可以测试它的第二个功能,人人精通Office?

继续开整。

开局踩雷联网搜索和plan and excute的大坑,规划错了后面全错,联网搜索的信息太杂了,信源可能都很脏。

Deepseek R1的新闻明显比最近的疑似V4架构的engram、OCR2要更多,更别说v3.2了。

重新澄清后,集群就废了,后面都是普通Agent的数据,但好在数据变对了,然后做出了很酷的图,忽然很期待最终的PPT效果。

有图标、有图表,有真实的数据,也有配图,可以直接编辑,整体来说满意度还是比较高的。

本来想在ppt的场景测Agent集群,但因为前面断了,放一段之前测到一半的case。

多Agent!!!多Agent!!!

前天发文Deepseek OCR模型的时候,其实是崩溃的,Qwen3、ds ocr2、kimi2.5 还有clawd,根本体验、测评不完。

于是想着能不能让kimi的集群来打工

面对复杂任务,K2.5 不再是一个包揽一切的「全能专家」,而是化身为一支即时组建的「专业团队」。它能根据任务需求,现场调度多达 100 个分身,并行处理 1500 个步骤。所有的角色分配与任务拆解,无需预设,全由 K2.5 现场决策。

OK Computer,公众号:月之暗面 KimiKimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力

那就来测试我的复杂场景

1)查询类任务
找到论文和代码地址->找到更多的科学信源->结合Engram的知识,一起给我解答
2)创作类任务
给我公众号文章
3)设计&前端编程类任务
给我html格式排版
4)后端编程类任务
查询是否支持在线调用->判断是否能够本地部署->判断怎么部署

这个场景要199元/月的会员才能体验,如果真的那么强大,那对比Manus 300块一个月还是能立省100。

付费完毕后发现,增加了43次额度,每次消耗3次,那其实199也不是无限用的。

言归正传,Prompt如下

deepseek刚发布了新的模型deepseek-OCR2,请你找到论文和代码的地址,给我讲解。讲解要包括:这次模型的核心机制是什么,有哪些突破,对业务和个人有什么影响,同步找下推特、reddit等论坛相关的解读、评价,前不久还发布了engram机制,这2者在一起能碰撞出什么火花?这个部分给我html格式的最终文章,方便我一键复制到公众号修改。同时告诉我是否具备在线的API调用,如果不能是否支持本地部署,但我是Apple M2 Pro,16G,不确定是否扛得住。

进入之后是典型的hello world,这个复古感让我感觉回到了windows时代。

可以看到创建了并行的子代理完成任务,这句熟悉的我diss claude code指令终于会自己命令自己了!!!

至少从视觉上看,有五个专家在为我服务,具体的时间有些忘记了,大概3分钟左右,前4个任务就完成了,最后1个任务我问它能不能在线调用和部署的问题。

但等待的过程,我给忘记了,然后含泪发布了写完的文章,我把Kimi做的放在了第二篇文章里,朋友们可以看看最终的html格式。

体验下来,跨学科能力还不错,视觉识别能力也确实具备了,能处理绝大多数的场景,在复杂场景下还有一段路要走,但还是值得高兴!!

在PPT的场景,确实和以前不一样了,能调研、能排版、能自己插入数据图表、能自己配图,整体来说都轻松了不少。

在复杂场景里,也没有出错,成功的同时完成了调研、创作、设计、编程的任务,但我还没有找到能让它并行100个专家,1500个步骤的事情。

如果朋友们有这类任务可以告诉我让我来玩玩。

图片