先给结论:有明显进步,但不巨大!
这次测试 K2.7 最大的感受不是能力增强了多少,而是配额根本就到了没法用的地步。
我就做了几个测试,直接把一周的配额干完了。 注意是一周,不是5小时,也不是一天!
我这几天看到的不是令人震惊的结果,而是满屏的429!还有402,最后还看到了403! 就差一个404~~!
这TM还能干什么?!
好了,抱怨完了,我们就可以理性地来看一些实际的情况。
虽然难受,基本都在等配额恢复,但是经过不懈的努力,还是跑了几套测试的!
都赶在一起更新,脑子都测麻了!
关了一批,又一批。我都分不清谁是谁了!
我们还是从最近在测试的“超级玛丽”入手,这个很经典,大家都看得懂,而且我在 Fable 挂掉之前做了测试,可以作为对比。
我就直接先上对比吧!
这些都是模型手搓JS完成的,没有网上抄,也没有引用现成的包!
好坏大家应该一眼就能看出来,无论是地图,角色,音乐,都是两个级别的。
唯一让人欣慰的是,这次K2.6能跑完全程,走到最后。
然后我来说一下过程和更多测例子!
1、如何使用
Kimi 这次更新的模型是 K2.7 Code。目前应该还没有全量开放,仅针对 Code 套餐订阅者!
官网地址是:
打开之后就会弹出新模型提示。
值得一提的是,Kimi 是有自己的 Code 工具的。前阵子刚完成了重构并开源。最早是 Python 写的,后来改成了主流的 TypeScript 路线。用它们自家的CLI,会更全面一些。
安装方式如下:
Kimi Code 是支持多平台安装的。Windows 下面,注意这是 irm 命令,要打开 PowerShell 进行安装。
完整命令是:
irm https://code.kimi.com/kimi-code/install.ps1 | iex
安装完成之后重启终端,然后输入 kimi 就可以启动了。启动之后记得 /login 进行登录。
登录的时候大概有三个选项,选第一个 Kimi Code 用户登录。
2、超级玛丽
登录成功之后,就可以开始测试了。
完整的题目是这样的:
帮我写一个网页版的超级玛丽吧!玩法和界面可以参考经典版! 要能够玩通第一关,没有明显 bug。如果你不理解这个游戏规则,可以先检索一下。如果你已经知道了,就直接开干。
你只有一次机会。希望你能好好把握。
这个提示词很简单。
但是最后一句话有点东西,聪明的大模型很容易感受到压力,而会使用更长的时间来进行思考。
Kimi整体来说启动还是很快的:
很快就制定了开发计划。
创建项目基础文件(HTML/CSS/JS)
实现游戏核心引擎(物理、碰撞、相机)
设计并实现第一关地图
实现马里奥、敌人、道具、方块交互
实现通关判定和 UI
.....
而且做完了知道自己先测试一下:
这个逻辑是对的,而且也是当前的模型+智能体进步的一大体现。
这一个步骤,也在实际场景中发挥了作用:
首轮生成,这里有一个明显的bug,太高了,跳不过去。自我修正的时候修正了这个问题。
但是检查太多,会有一个恶果:
很快就用到 rate_limit 了。这个时候 Kimi 初级套餐的配额问题就暴露无疑了。k2.6就已经捉襟见肘了,现在更是雪上加霜。
为了跑这一个例子,我就得等好几个 5 小时,当然还有一些其他例子。但是一个 5 小时配额是绝对不够的。
一波带走:
而且你们发现这个比例没。
一个 5 小时周期占用了 20% 的周用量。也就是说如果我一天不停跑,最多可以干掉 60%,也就是两天干完。其实几天前我已经干了 63% 的周配额,也就是说这三天,我基本干了 163% 的周配额。
而我只是做了几个页面测试而已,根本没做什么项目开发。
这配额是“又短又快”,不是真男人!
经过几轮的等待,终于验证成功了。
总结报告如下:
整个执行过程还是花费了很多Tokens和时间的,相比k2.6嘛表现也稳了很多。
我可以让你们看一下K2.6的结果:
这是在Claude Code里跑的,完全没法用,连主角都没有。
然后在KimiCode里面跑的结果:
这个有人,可以滑动,但是无法跳跃,所以活不过一屏。详见这一篇《Kimi版超级玛丽效果“惊人”,配额不足5厘米!》
下面就是K2.7的效果:
虽然还有有点抽象,但是至少能玩了!
从这个例子,还是等看出比较明显的进步的。
9个前端例子
大家都说国内 Kimi 的前端是比较强的,而且我也是赞同的。
所以非常有必要来测一波。这 9 个例子,一般有新模型出来,我都会测一测,找找感觉。所有大模型训练数据最丰富的就是前端了,所以这一关必须先过。
为了偷懒,我都是把 9 个例子整理成一个文档,然后直接让它读取文档,依次完成。
我还特别强调了其中一个例子不要做,这一点基本的模型都可以识别出来。
而且我们也可以再次看到它的验证机制:
做完之后,先做了一波验证。
不过这一次的验证整体来说还是比较敷衍的。
可能我想偷懒,它也想偷懒。
当一次性给的问题很多,它就是随便做一下,既没有消耗太多 Tokens,也没有消耗太多时间。
结果嘛,也是参差不齐!
比如让它做个 3D 太阳系,它的结果是这样:
注意我的需求是这样的:
用一个 HTML 文件实现一个交互式 3D 太阳系模型(可用 Three.js 或纯 CSS 3D),
要求:
- 包含太阳 + 八大行星 + 月球,按真实比例缩放轨道(大小可艺术化处理)
- 每颗行星有真实的自转和公转,速度比例接近真实
- 太阳发光(glow 效果),行星有各自的颜色/纹理
- 土星要有光环!
- 鼠标可以拖拽旋转视角,滚轮缩放
- 点击任意行星弹出信息卡片(名称、直径、距太阳距离、有趣冷知识)
- 背景是星空粒子
**关键技术点:**
- 3D 渲染能力(Three.js 或 CSS 3D transforms)
- 天文物理知识(轨道比例、公转自转速度)
- 鼠标/触摸交互(拖拽旋转、缩放)
- UI 信息卡片设计
- 粒子系统(星空背景)
---
它这个结果明显是很离谱,就一个粗糙的橘黄色球和一个圈。如果打分的话只能给个 10 分,百分制。
整体来说还是有点蠢。我明明叫它一次一个,慢慢做。它刷刷刷就糊弄完了。
这样肯定不行的。它犯蠢,就只能我费力了。
所以,无论是人还是模型,不能偷懒,该做的还是得好好做。
我只能一个一个复制粘贴来测试了。
果然,一个一个测试好了很多。但是429又来了。
Kimi 这个小屁孩是真的没长大的秒男。
天知道,我等了多少个轮回,等待是这个世界上最痛苦的事情。我一度想放弃测试了。就为了这 0.1+ 的版本,浪费我一个周末,太不合算了。
但是开弓没有回头箭。时间成本已经进去了,怎么都得硬着头皮往后走。
然后又遇到了 402,哈哈哈哈!
笑死个人啊!
我其实已经退订了,而结束日期刚好在我测试的间隙。如果再晚一天,我就可以测完了,现在只能再花 49 续一个月了。
单独测试之后,效果好多了。
单独测试主要是提高了下限,但是上限并不会因此改变。没有太突出的地方!
就五子棋这个例子,UI + 智商双双在线!好评!
我们最近测过一个例子,Fable 表现惊人。作为对比,也贴一下 Kimi K2.7 的表现。
还是太抽象了,完全看不到具体的细节!
Opus4.8 就能秒了它:
最要命的还是配额,最后把周配额消耗完了,还是没有把这些例子全部跑完。
批量跑偷懒严重,分开跑,消耗巨大!
对了,中途我还让它跑了一个坦克大战,结果有点抽象:
作为对比,我贴一张 Fable 5的效果图:
这TM才叫复刻啊!
所有的测试例子我都放在:topai.jarvisuni.com/
因为我的配额已经耗尽,我就无法深入测试了。最后给大家贴一张基准图吧
基准是不靠谱的,尤其是国产模型的基准图。刷分刷榜是一个很简单的事情。但是从这个图的整体比例,可以看出一些端倪。
首先是 K2.7 相比 K2.6有明显进步,是可以感知的进步。
但是还不够,因为即便是在它自己做的这个最拿得出手的几个基准中,也远不如 GPT 和 Claude!这里面还有好多重要的基准是完全没有贴出来的,为什么不贴,大家可以合理推测一下。
我自己测试的整体感觉也是,相比之前的版本能力上肯定有提升,但是不大,重点是工程能力上的优化。也就是说会更加实用和好用。 这个自我升级,是应该肯定的。但是放眼整个大模型市场,它肯定不是最优秀的存在。国内 GLM5.2 要比它全面和强大不少,国外的 Claude 基本上能秒它。
最要命的是,我用 Claude Pro(最低档)配最变态最贵的 Fable,5 小时配额也能跑 1.5 轮测试,每轮结果非常好。而周配额是 5 小时配额的 10 倍,Kimi 只有 5 倍。现在已经不是比效果了,比配额都比不过了。
如果你们觉得我的描述还不够直观,我给你们看个图表。
这是 Kimi 差不多 1.5 个星期的量:
我要补充一下,为什么最近七天,能到 1.5 个星期的量。
因为它中间重置了一次,我三天前用了 63%,这两天又用了 100%!
算上缓存总共也就 19.5 M 左右。扣掉缓存,输入 + 输出 1 M 都不到,我真的是有点难以想象,怎么会这么少。
再来对比一下 Claude:
刚好 Claude 也重置了一次,我用了也差不多 1.5 周的样子。它的 tokens 有 176 M!
当然最近七天还不算什么:
最近 30 天我用掉了 14 亿!
Claude 套餐其实“性价比”非常高,性能拉满,价格也才一百多一点,最近 30 天用掉了 14 亿,中途还停了两个星期。主要是出的东西好啊,不用反复调整,不犯低级错误!
所以,作为一个正常人类,我有了 Claude、GPT、Gemini、GLM5.2 的订阅,DeepSeek 随用随取的情况下,我没理由选 Kimi 2.7。图它什么,图它能力一般,消耗又快么?
当然,如果你用不上国外模型,GLM 抢不到的情况下,Kimi 2.7 也是一个不错的选择,毕竟在国内真的能有点用处的模型也不是太多。我会比较推荐智谱 GLM、Kimi、DeepSeek 这三家,它们各有各的优点。