0.01元升级GLM Pro,再测一把GLM5!

0 阅读5分钟

上次对国产模型进行测试的时候,有人问为什么不用 GLM5?

好的,那我们就测起来:

已经从一年几百的 Lite,升级到一千多的 Pro 了。今天就来测试一下 GLM5 和智谱的 Coding Pro 套餐。因为智谱送了 4000 多,所以我实际上只花了 0.01 元。

之前不测,是因为我希望大家都以最低档的套餐为标准。

而智谱的 Lite 还无法用 GLM5。

然后有朋友说要把GLM 的 API给我测,非常感动。

因为测试其他模型的时候都用上了他们自家最强的模型,所以我也觉得有必要换上 GLM5 了。

既然升级了,那就赶紧来跑一跑对比一下。最近我们写了一个游戏防沉迷工具,就拿这个来做对比测试,这样就有很多参考对象了。

核心需求是这样的:

做一个倒计时关闭游戏的工具,我和小孩子约定了,每天一起玩游戏,但是常常忘了时间,或者
到时间了有拖拖拉拉不肯推出所以我希望设计有个工具可以在角落上显示倒计时,然后时间
快到了会有提醒,时间到了直接退出游戏我主要是在windows上完,我希望你用windows的原
生开发技术来实现这个功能我希望先讨论方案,比较运行逻辑啊,交互细节啊,UI设计啊

这是 GLM5 一次搞定的效果:

然后对比一下 GLM 4.7的效果:

相比而言,新版本的界面做了美化,不再是原生的组件,另外功能变得更加简洁实用了。

这主要体现出,之前的方案有很多内容,还需要滚动条来查看,会对使用者造成巨大理解负担。这次一屏就解决了,而且核心功能都在了。

另外悬浮层也做了优化,从大圆形变成比较小的长方形,这样就不会影响游戏体验了。

而且这个区域是可以拖动的,能自定义位置。

这个悬浮层会有三种状态,默认为绿色,少于五分钟就会变成黄色,少于一分钟就会有红色提醒。

这种渐进式提醒交互体验是不错的。另外这一次他结束程序的逻辑也是选择了直接关闭当前全屏的游戏,而放弃了选进程那种方式。

因为分辨进程对有些人来说有难度。

当前的界面、逻辑、交互已经非常接近 Claude Opus 了。Opus 有一点还是比较好,就是最后 10 秒会有一个全屏提醒,这样玩家很清楚是时间到了,还给程序留了一些保存时间。但是 GLM5 是没有的,时间到了直接关闭。玩得激烈的时候,可能会感觉很突然。

上面是结果,我们来看看过程。GLM 4.7 的时候,给他需求之后,它没有问我任何问题,就自己开始做方案了,导致有些地方不是很满意。

而 GLM5 问的非常详细,激发了三次 ASK 功能。

第一轮是:

这一轮问到了时间设置,显示位置,提醒方式,游戏识别。

第二轮:

这一轮涉及到了关闭方式,提前提醒,暂停功能

第三轮:

这一轮是问你选择 .NET 版本。

其实这个版本问题,我之前还专门咨询过。如果选4.8基本上就不用带运行时了。软件可以非常小,后来想想大家都不缺几十M,就还是选择新一点的框架吧。

说这一个,主要是为了表达的,它能考虑到这一点,也不错。

当所有问题都回答完成,生成计划之后,又问了一次:

问的非常细致,方方面面都考虑到了。

这就需要模型有一种全局能力。

当它接收到需求的时候,立马就能想到这个软件会涉及到哪些问题。并针对这些问题生成可选项和最优解。

可选项已经非常全面了,最优解方面感觉还可以提升一下。

写代码的过程中,只出现了一次标红,比之前的版本三次标红好多了。

最后总耗时为 8 分 2 秒!

消耗的 token 如下:

占区间额度的 8%,这其中我还问了一些其实问题,实际上还要少一些。根据官方资料,因为 GLM5 Pro 的配额是 Lite 的 5 倍,使用 GLM5 的话消耗量会会比GLM4.7 多2到3倍。整体看了一下还可以!

这个GLM Pro 我应该是消耗不完了!

https://www.bigmodel.cn/glm-coding?ic=UXKQUXJKU3

以后可以多跑跑测试。

如果有兴趣的你们可以回看了一下其他模型的表现GLM5在国产模型中肯定是比较突出的!

另外,我已经把Claude,Gemin3.1Pro,Codex5.3,GLM5 这些比较能看的软件,全部放到网盘里里面了。

这个是Codex5.3开发的 :

Codex5.3就是细节过度丰富!会不停的弹窗弹窗,已经不是防沉迷了,而是弹窗广告了,哈哈! 当然整个逻辑没啥问题,还是比较完整的。

这个是Gemini3.1pro:

Gemini3.1Pro这一次智商在线,设计的还不错。完成度很高! 它也是选择了进程这种方式。但是它可以做到很智能的控制。游戏启动自动计时,游戏切出来自动停止。

这是 Claude Opus4.6:

Opus4.6唯一一个自己设计了主题的模型,刚开始很简约,现在已经在我的强迫下,增加了一堆功能。 可以简约,也可以强大了!

国外这几家,整体来说第一个版本就已经比较完善了,但是最终效果,也是有我的功劳,我懂了嘴,提出了改进要求。

有兴趣的可以玩一玩对比一下。 获取关键词:StopGame。