你好,我是袋鼠帝。 我是真没想到,AI圈能卷到这种程度。。 国庆前,Anthropic发布了Claude4.5,智谱这边也放了个大招,全面开源了他们目前最强的模型:GLM-4.6。
真是不让人消停啊。
最后决定还是给自己放放假,好好休息一下 不过在老家待几天后,就开始有点无聊(好多同学、朋友都不在老家了)。
说出来你可能不信,我无聊到开始跑Case(人还是要给自己找点事儿)。 主要想看看,目前市面上哪个大模型跑出来的代码效果最好,反正也是把Prompt丢过去,几分钟后看效果。 我选择了几个我常用的模型,国外的有Gemini 2.5 Pro,GPT5,还有Claude-4.5-Sonnet。国内的,选了GLM-4.6,Kimi-K2。 一上来,我就想复刻一个我高中时代最爱玩的游戏:神庙逃亡。 高中那会儿,我时不时就会借室友的手机玩几局,大学无聊时也会翻出来玩,这款游戏给我留下了深刻的印象。 虽然是个老游戏,但它涉及程序化生成各种复杂地形、玩家控制、碰撞检测等等,对AI的代码能力和逻辑推理都是不小的考验。 结果呢,这项任务对大模型来说,貌似很难一次性跑出理想的效果。我试了一圈,都不太行。 claude-4.5-sonnet也就生成了一个这玩意儿,这离我理想中的神庙逃亡相去甚远啊
一开始,我对GPT5和Claude-4.5-Sonnet寄予厚望。 但跑了几轮之后,我发现,GPT5写代码有点太拉胯了。。 写的慢就算了,写出来的东西要么简陋,要么一堆bug,而且修几轮都修不好。直接就被我Pass了。 Claude-4.5-Sonnet虽然很强,但在我跑的这些Case里,效果并不算理想。
反而最让我惊喜的是GLM-4.6。 我给出的10个有挑战性的Case里,有7个,最终都是用GLM-4.6跑出来的。
当然,我得承认这并不客观,毕竟这只是在我自己跑的这少量Case里面,GLM-4.6战胜了Claude-4.5-Sonnet。 但我确实没想到,GLM-4.6能跑出这么好的效果。 我挑了几个有代表性的Case,给你看看这个次的GLM-4.6,到底能做到什么程度。 文末还有GLM-4.6快速接入Claude Code爽用的方案,墙裂推荐有开发需求的朋友试试。 >/ 经典黄金矿工,重现童年记忆 既然神庙逃亡搞不定,那就降低一些难度,开发一个小学时候经常玩的4399经典小游戏:黄金矿工。
Prompt:请生成一个经典的“黄金矿工”游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定:核心玩法机制:钩爪摆动与发射: 游戏界面上方有一个矿工和他的卷轴,一个钩爪会自动左右来回摆动。当玩家按下任意键(或鼠标点击)时,钩爪会沿着当前方向直线发射出去。 抓取与回收: 如果钩爪在伸出路径上碰到了地下的任何物品,它会抓住该物品并开始自动收回。回收的速度取决于所抓物品的重量,例如,小金块回收快,而巨大的岩石回收则非常慢。 关卡目标: 每个关卡都有一个明确的时间限制(如60秒)和一个目标金额。玩家必须在规定时间内,抓取到总价值超过目标金额的物品才能成功过关。 地下物品设定: 黄金: 有多种不同尺寸和形状的金块。体积越大,价值越高,但也越重。 钻石: 体积小,价值非常高,回收速度很快,是优先抓取的目标。 石块: 价值极低,但异常沉重,抓到会浪费大量宝贵时间,应尽量避免。 福袋(问号袋): 价值随机的袋子,可能开出高额金钱、力量药水或少量金钱。 炸药桶: 如果钩爪不小心抓到它,它会立刻爆炸,并摧毁其周围一定范围内的所有物品(包括黄金和钻石)。 商店与道具系统: 在每个关卡成功结束后,会进入一个商店界面。玩家可以用当前关卡赚到的、超出目标金额的钱来购买道具,以备下一关使用。 可购买的道具示例: 炸药 (Dynamite): 当钩爪在回收过程中抓到了不想要的低价值物品(如石块)时,玩家可以按下一个特定按键使用炸药,将其在钩爪上直接炸毁,让钩爪立即空手收回,节省时间。 力量药水 (Strength Potion): 在下一个关卡中,矿工的力量会增强,回收所有物品的速度都会显著提升。 幸运草 (Lucky Clover): 在下一个关卡中,从福袋中获得好东西的概率会增加。 视觉与界面要求: 游戏应采用经典的2D卡通风格,矿工形象生动,黄金和钻石闪闪发光。 用户界面必须清晰地显示三个核心信息:① 剩余时间、② 当前已获得的金额、③ 本关的目标金额。 UI风格:漫画书风格,街机游戏UI,波普艺术,荧光粉和青色,半色调网点背景,粗描边字体,倾斜布局,高对比度,复古90年代,动态图形,硬阴影
GLM-4.6它不仅能精准复刻游戏的核心玩法,包括钩爪摆动、抓取回收逻辑、关卡目标、地下物品设定,甚至连商店和道具系统都能实现。 更牛的是,它知道小东西能快速拉回,大物体拉的慢。 而且理解了经典2D卡通、以及我给的UI风格,审美完全在线啊。 分享链接: chat.z.ai/s/a6628c69-… >/ 3D生态系统 光会复刻经典还不够,我还想看看模型们有没有「创造世界」的能力。 于是,我布置了一个难度更高的任务,生成一个基于程序化生成的3D地形沙盒前端页面。
Prompt:创建一个基于程序化生成的3D地形沙盒前端页面。可以设定种子值来生成独特的山脉、峡谷、湖泊或岛屿。更重要的是,可以实时调整天气参数:例如,增加降雪量,观察地面逐渐被白雪覆盖;调高风速,看树木摇摆,云层快速移动;或者引发一场暴雨,地面出现水洼并形成溪流。所有的地形和天气效果都应具备高度的视觉真实感和流畅的动态变化。
除了GLM-4.6,其他模型都没跑出我理想的效果来,要不就是一直显示地形生成中,要不就是生成的效果很low。 分享链接: chat.z.ai/s/1ed08fff-… 而GLM-4.6一次就搞定了 这个结果,让我再次感受到了GLM-4.6代码能力的恐怖之处。 这不是简单的网页开发,这是在用代码模拟一个微缩的、动态的自然生态。它需要AI不仅懂前端代码,还得懂一点3D图形学,懂一点物理学、美学,才能把视觉真实感和流畅动态变化这两个要求实现好。 换做是半年前的模型,你提这种需求,它大概率只会给你一个静态的3D场景,或者一堆根本跑不起来的报错代码。 >/ 复刻简版抖音
Prompt:创建一个功能精简、核心体验完整的短视频应用原型。重点是复刻抖音标志性的全屏沉浸式视频流、上下滑动切换和核心的社交互动功能。1. 核心体验:全屏沉浸式视频流 (For You Page)布局: 移动端优先,强制竖屏。视频内容应占满整个屏幕,没有任何白边或黑边。交互: 这是最重要的功能。用户通过向上或向下滑动屏幕来切换到下一个或上一个视频。切换必须流畅,有自然的过渡动画。 播放: 视频进入视野后应自动开始播放,并且默认开启声音。当一个视频播放完毕后,应自动循环播放。 2. 视频播放器界面 (UI Overlay) 在播放的视频上方,应有一个半透明的用户界面层,包含以下可交互元素: 右侧垂直排列: 发布者头像: 点击可进入该用户的个人主页。 点赞按钮: 一个心形图标,可点击点赞。点赞后图标变为红色。 评论按钮: 一个对话气泡图标,点击可打开评论区。 分享按钮: 一个箭头图标,用于分享(在原型中,点击后可只显示一个“已分享”的提示)。 底部区域: 用户名: @username 的形式。 视频描述/标题: 支持显示多行文字和 #话题标签。 音乐信息: 一个旋转的黑胶唱片图标,旁边显示音乐或声音的名称。 3. 核心用户交互 (User Interactions) 点赞: 用户可以通过两种方式点赞:① 单击右侧的心形图标;② 快速双击屏幕任意位置。双击点赞时,屏幕上应出现一个短暂的、放大的心形动画。 评论: 点击评论图标后,一个评论区面板应从屏幕底部平滑地向上滑出,占据半个屏幕。该面板顶部显示评论列表,底部有一个输入框,允许用户发表新评论。用户可以向下滑动或点击外部区域关闭该面板。 4. 基础用户系统与个人主页 (User Profile) 用户认证: 实现一个简单的用户注册和登录系统。 个人主页: 顶部: 显示用户头像、用户名、关注/粉丝/获赞总数,以及一段个人简介。 视频列表: 顶部下方是一个网格布局,以缩略图的形式展示该用户发布的所有视频。点击任意缩略图,即可进入一个只播放该用户视频的视频流页面。 5. 视频上传流程 (Upload Process) 入口: 在主导航栏上有一个醒目的“+”号按钮。 流程: 点击“+”号后,打开手机的相册,允许用户选择一个已经录制好的短视频文件。 选择视频后,进入一个发布页面,用户可以在此页面填写视频的描述/标题。 点击“发布”按钮,视频上传至服务器,并出现在所有用户的信息流中。 6. 整体导航 (App Navigation) 底部标签栏 (Tab Bar): 应用底部应有一个固定的导航栏,包含至少三个核心标签: “首页 (Home)”: 即核心的视频信息流页面。 “发布 (+)”: 中间的上传按钮。 “我 (Me)”: 进入当前登录用户的个人主页。
这个案例,考验的是AI对复杂交互和产品逻辑的理解。 GLM-4.6不仅能生成较为完整的简版抖音原型代码,还能复刻抖音标志性的上下滑动切换和核心的社交互动功能。 这意味着,GLM-4.6已经能从产品经理和交互设计师的角度去思考了。 >/ 物理粒子、烟雾,解压神器 这个案例纯粹是为了好玩,和解压
Prompt:创建一个全屏的、基于物理模拟的交互式画布。用户用鼠标在上面滑动,可以搅动预设的、多种色彩的粘性流体,创造出类似丙烯画或土耳其湿拓画的惊艳效果。还可以一键切换到烟雾模式,鼠标的轨迹会变成一股袅袅升起的彩色烟雾,可以被吹散和扰动。整个过程非常解压 生成了一个基于物理模拟的交互式画布,用鼠标搅动各种色彩的粘性流体或彩色烟雾,效果非常解压。
所以,我发现GLM-4.6在前端交互和物理模拟方面也很强。 分享链接: chat.z.ai/s/4dead107-… >/ 制作PPT,检查审美
Prompt:生成孟菲斯风格的精美PPT,主题是【什么是AI Agent】
GLM-4.6的审美能力有了质的飞跃。 这个PPT,无论是配色、构图还是字体选择,都充满了高级感。 分享链接: chat.z.ai/s/f2b4f9e0-… 最气人的是GPT5,只给了我一个大纲...
国庆体验下来,我心中的模型编程能力排名是(仅供参考): Claude-4.5-Sonnet > GLM-4.6 > Claude-4-Sonnet > Gemini 2.5 Pro ≈ Kimi-K2 > GPT5 但GLM-4.6甚至在很多Case里面超越了Claude-4.5-Sonnet,确实是出乎了我的意料。我当时跑完就挺兴奋的,不知道说了多少次 卧槽 而且别忘了,它还是开源的。 后面我在X上冲浪一圈发现,GLM-4.6已经悄悄在海外杀疯了。
它在LLM Arena(全球公认的基于用户匿名盲测投票的榜单)上,全球所有开源模型中排名第一。包括所有闭源模型后,全球排名第四,国内第一。 不清楚LLM Arena含金量的朋友,可以看看卡兹克的这篇文章,这真的是实打实的全世界用户盲测后选出来的。比起那些各种花里胡哨的跑分,我更相信这个榜单。
地址:lmarena.ai/ 之前GLM-4.6在Hugging Face Trending(趋势)上排第一,不过今天掉了,排到了第二,但现在趋势第一是一个TTS模型(没啥可比性)
GLM-4.6也成为了海外开发者的新宠。 在OpenRouter上,GLM的付费调用量远远超过其他国产大模型。
我之前也写过GLM-4.5,用它开发了一款NanoBanana的MVP应用。 当时GLM-4.5给我的感觉是速度快,写功能很稳定,质量也高,不过审美比较一般。 这次使用GLM-4.6,体验提升还是很明显。 首先是审美提升肉眼可见,之前生成的UI感觉有点朴实,现在能精准的生成我想要的UI风格。 其次,是写功能的时候,基本上不太需要抽卡,它的理解和生成更精准了。就算偶尔有bug,修改一两轮就可以解决。 官方数据显示,GLM-4.6比4.5在性能上提升了27%。 并且上下文窗口从128K扩展到了200K,能处理更长的代码和更复杂的项目。 独特的模型架构,将推理、代码和智能体能力融合到一个统一模型中,也大大提高了模型的泛化能力。 我现在对一款编程模型的要求有5点:
1.速度要快; 2.上下文长度要长; 3.工具调用能力要稳定; 4.前端审美要在线; 5.全栈开发能力要强。 而GLM-4.6,基本满足了我的所有要求。 所以它才这么受欢迎,它确实称得上是目前国产、以及开源的最强Coding模型。
接入Claude Code,真香
我注意到,在平均token消耗上,GLM-4.6比GLM-4.5节省30%以上,在同类模型中是最低的。
不过虽然GLM-4.6本身就很节省token,而且价格便宜,但Claude Code这类AI CLI工具,天然就是非常消耗token的。 上次我用GLM-4.5开发那个NanoBanana的MVP项目,半天时间就消耗了将近50元的token费用(如果是用claude模型,估计要花大几百了)。 说实话,还是有点肉疼。 所以,时隔一个月,我再次去开了智谱的Coding Pro套餐。 这次直接花了300块钱包季了,量大管饱。 相比Claude-4.5-Sonnet动辄数百上千的费用,这性价比,高得没边了。
接入claude code之后,我只想说,真香。。畅用的感觉真的太爽了 我最近用GLM-4.6+Claude Code,测试了好些mcp工具,和不同的玩法,后续有机会分享出来 有需要的朋友可以扫码
或者点击文末的「阅读原文」也可以直达。 下面,我再快速教你,怎么稳定、快速地接入GLM-4.6,以及怎么把Claude Code升级到最新版。 首先接入GLM-4.6。 直指本源,不搞那些花里胡哨的环境变量配置。 直接修改Claude Code优先级最高的配置文件settings.json。 这个文件在你的系统用户家目录下的.claude隐藏文件夹里。 如果你是Windows系统,路径一般是C:\Users\你的用户名.claude。 如果你是Mac系统,路径一般是~/.claude。 如果在对应目录下找不到这个settings.json文件,可以自己新建一个。
内容就是一个简单的json格式。 把ANTHROPIC_AUTH_TOKEN的值替换成你的智谱apikey,然后保存,重启Claude Code。 就搞定啦~
退出到终端,直接输入claude update命令就可以把claude code升级到最新版。 我的是Mac,所以加了个sudo,用最高权限执行,否则会报错。
升级之后像下面这样 这时它可能不会说自己是GLM-4.6模型了,问题不大,背后用的还是GLM-4.6
是因为升级之后,会自动把settings.json里面配置的模型名称glm-4.6去掉,所以它回答默认的claude模型 加回来就好了
「最后」 我感觉智谱这几个月进化真快 最近的GLM-4.5和GLM-4.6都给我带来了不少惊喜,是那种用过之后让我产生兴奋感的东西。 特别是GLM-4.6这次是真在海外杀疯了 不仅在多个权威榜单上力压群雄,拿下了全球开源第一,国内第一,甚至在实际编程体验上,都能跟国际顶尖的闭源模型掰手腕。 当年的Linux,凭借着开放,协作,透明的开源精神,最终打败了闭源的商业帝国,成为了今天服务器,云计算,乃至整个互联网的基础。 在大模型这个领域,我相信,历史会再次重演。 闭源模型在短期内,会因为数据和资本的优势,能跑很快。 但从长远来看,最终的胜利,一定属于那个能够汇聚全球开发者智慧,不断迭代,不断进化的,开放的生态。 GLM-4.6这次的成功,标志着中国已经把开源模型打到了头部,与美国的闭源头部模型,都能正面硬刚了! 能看到这里的都是凤毛麟角的存在! 如果觉得不错,随手点个赞、在看、转发三连吧~ 如果想第一时间收到推送,也可以给我个星标⭐ 谢谢你耐心看完我的文章~