续费了 Claude Opus 4.6。用上 GLM-5 后,我又把它取消了……

0 阅读12分钟

GLM-5 77.8% 的 SWE‑bench 得分与 1 美元/M 的定价,终结了我每月 20 美元的 Claude 依赖(附完整提示词)

GLM-5 迭代很快,我会持续更新这篇文章,记录新功能与定价变动。欢迎收藏。

我本来在试用 Claude Opus 4.6,但在下载 GLM-5 四小时后,我又一次取消了订阅。

不是测试一周后。不是对比完基准分数后。仅仅四小时。

接下来 6 分钟里,你会看到让我最终下定决心的真实 SWE‑bench 分数、能以 6% 成本实现 Claude 级代码能力的提示词结构,以及这个7440 亿参数、MIT 开源协议、在受制裁华为芯片上训练出来的模型,为什么可能真正终结每月 20 美元的 AI 订阅时代。

先铺垫一下。当时是凌晨两点。我开着十五个标签页,一杯冷掉的咖啡,还有那种短时间内测太多模型才会有的疲惫。我刚深度测完 Kimi K2.5(很强,视觉智能体简直杀疯了),然后 Claude Opus 4.6 发布(显然也很顶),接着 GPT-5.3 也来了(还行吧)。说实话,我已经麻了。我告诉自己,再也不点任何“新模型发布”的通知。

然后我刷到了 X 上的帖子。“Pony Alpha。”7440 亿参数。在受美国制裁的华为昇腾芯片上训练。

我还是点了进去。

快速导航(给赶时间的人)

只想看数据?→ 第二小时

只想知道意义何在?→ 第三小时

只想看代码?→ 实际使用教程

只想抄提示词?→ 提示词指南


背景——模型疲劳是真的

你大概懂这种感觉。2026 年,顶尖大模型像 Spotify 单曲一样疯狂发布。每周都有新的“史上最强模型”——刷新一项基准、登顶一个榜单、多一个订阅档位要考虑。

我刚花了三天用 Kimi K2.5。月之暗面的模型确实优秀:256K 上下文、视觉智能体、丝滑的推理能力。我都准备长期用了。然后 Anthropic 出了 Opus 4.6。行吧,我得测测。SWE‑bench 冲到 80.9%。很强。

接着 OpenAI 放了 GPT-5.3。推理更强,工具调用更好。我嘟囔一句“行”,又开了个 API 测试标签页。

Image

作者自制

然后 GLM-5 来了。

我盯着屏幕。“我不行了,”我对着空气说,“真的顶不住了。”

但 timeline 已经炸了。X 上所有人都在为“Pony Alpha”疯狂——这是官方发布前几天从 GitHub PR 泄露的内部代号。YouTube 封面全在喊“逆天”“Claude 杀手”。还有硬件这件事——这个 7440 亿参数的模型,完全在华为昇腾芯片上训练,就是美国政府警告全球都可能违反出口管制的那种。

“硅长城”正在裂开,而中国的实验室证明了:不用英伟达,也能训出顶尖大模型。

我叹了口气。冲了杯新咖啡。

打开了 Hugging Face 页面。


第一小时——怀疑

说实话:我一开始是怀疑的。

我对“国产大模型”有刻板印象:数学强、跑分猛、文笔偶尔生硬,可能 C++ 很强但闲聊很尬。我以为又是一个 DeepSeek——厉害,但偏工程化。

模型大小 1.5TB。我直接开了 API 实例。

第一个提示词:
我让它重构一段我卡了两天的 Python 脚本。异步一团糟,错误处理全靠“胶带+信仰”。没什么花活,就是我真实要做的工作。

它 8 秒就回了。

不是速度,是质量。它不只是重写函数,还点出了我没发现的竞态条件,给异步上下文管理器推荐了具体模式,还提供三种不同实现并讲清权衡。带完整类型注解。还有单元测试。

我往后一靠。“等等,什么情况?”

我看了眼价格。输入 1 美元/百万 tokens。对比一下,Claude Opus 4.6 大概是它的 15 倍。我眼前是一个 7440 亿参数的混合专家模型(MoE)——256 个专家,每 token 激活 40B——响应却比 70B 稠密模型还轻快。智谱集成了 DeepSeek 的稀疏注意力,这解释了速度,但连贯性才是惊喜。它能在 200K 全窗口内稳稳跟住上下文,不跑偏。

然后我看到了许可证。

MIT 协议。
不是“半开源”,不是“仅限研究”。是真正的 MIT:商用、修改、分发——无任何限制

我看了眼我的 Claude Pro 标签页。每月收我 20 美元那个。

我又看了眼 GLM-5。只要几美分。

我心里动了一下。


第二小时——基准分数的真相

我需要数据。手感是好,但我以前也被“看起来很会写代码”骗过。我拿出测 Opus 4.6 的同一套基准套件。相同提示词、相同评估脚本、完全公平对比。

结果出来时有点离谱:

Image

只差 3 个点。这是代码能力的差距。Claude 仍然领先,但微乎其微——小到生产环境里你根本感觉不到。但 BrowseComp?GLM-5 直接碾压。这是智能体基准:网页浏览、工具调用、多步检索。决定一个东西是“聊天机器人”还是“真的能用”的关键。

Image

来源:Z.ai GLM-5 博客

我算了一遍。又算了一遍。

我的 Claude Pro 订阅:20 美元/月。再加高峰期 API 费用——有时还要多 30–50 美元。我这种用量,每月大概 60–70 美元

GLM-5 API 定价:输入约 1 美元/百万 tokens,输出 3.2 美元/百万。按我上个月跑的 1000 万 tokens 算:输入 10 美元,输出 5 美元。总共 15 美元

我盯着计算器。这不是“更便宜”。这是完全另一个维度。差不多便宜 15 倍,却保留 95% 的能力

我拿起信用卡。

不是续费,是取消 Claude。

取消页面问原因。我差点打“找到了更好的”,但感觉不对。我不只是找到更好的。我找到了解脱——一个 7440 亿参数、MIT 开源的模型,就算智谱改规则,我也能自己本地跑。没有厂商绑定,没有每月 20 美元的“生产力税”。

我点了确认。

确认邮件进了收件箱。距离我第一次打开 GLM-5 文档,只过了四小时

更多基准:z.ai/blog/glm-5


第三小时——华为因素

Image

作者自制

我本应该去睡觉。结果一头扎进了信息黑洞。

GLM-5 技术文档里轻描淡写提了训练栈:“华为昇腾 910C,MindSpore 框架。”我知道昇腾——华为的 AI 芯片。美国商务部 2025 年 5 月就发过警告:在全球任何地方使用昇腾都可能违反出口管制。英伟达 H100 被禁入中国。大家默认中国实验室会落后。

而智谱没用一颗 CUDA 核心,训出了 7440 亿参数的顶尖模型。

我翻出路透社的报道。“硅长城”叙事——中国打造不依赖美国技术的自主 AI 基础设施——不再是理论。这是实锤。当 OpenAI 和 Anthropic 按小时租英伟达集群时,智谱在受制裁的硬件上做出了同级别的东西。

影响瞬间就清晰了:
如果不用英伟达也能训顶尖大模型,那颗 4 万美元一颗芯片的护城河就没了。
如果能开源权重,专有 API 的绑定就破了。
顶尖 AI 整套经济模式——昂贵、中心化、美国主导——第一次迎来了真正的挑战者。

我算了下 16 倍的价差。这不只是智谱大方。这是结构性优势。他们不用付英伟达税,不用付加州房租。这家刚在 1 月香港 IPO、估值 67 亿美元的公司,能在能力追平美国对手的同时,在价格上直接碾压。

“Pony Alpha”这个代号现在合理了。这是一匹特洛伊木马。不只是一个模型——是另一种做 AI 的方式

我看着空空的 Claude 订阅页面。取消确认还在收件箱里亮着。

凌晨 4:12。我累瘫了。

“在读下一部分前——你最想试哪种方式?Ollama、OpenRouter 还是 Z.AI?评论区留 1、2、3。”


第四小时——实际使用教程

我睡不着,第四小时全在压力测试——研究怎么把它用到极致。

10 分钟内跑起 GLM-5 的三种方式

我懂那种感觉:读了 1500 字吹爆模型,热血上头,然后撞上一堆默认你有 Kubernetes 集群和 MLOps 博士学位的文档。这里不会。
三种上手方式,从“零门槛”到“完全体智能体”。


方式 1:Ollama Cloud(免费——随便玩玩首选)

最快体验 GLM-5 的方法,不用下 1.5TB,不用绑信用卡。Ollama 在免费额度里加了 glm-5:cloud,限制比你想的宽松得多。

打开终端:

ollama serve

开新终端:

ollama run glm-5:cloud

完事。你正在跟一个 7440 亿参数模型聊天。免费。

最狠的功能:Ollama 的 launch 命令可以直接把它接入 Claude Code(或 Cline、Kilo Code、OpenCode),无缝替换。我跑了这条:

ollama launch claude --model glm-5:cloud

然后我的 Claude Code 界面——快捷键、文件浏览器、所有东西都没变——底层直接换成 GLM-5。不用 20 美元订阅。工作流完全不变。

Image

适合谁:好奇、想在自己代码库上测试、或者暂时不想花钱的人。


方式 2:OpenRouter(已有 API 密钥首选)

如果你已经在用 OpenRouter(很多人都在用,同时切 GPT-5、Claude、DeepSeek),GLM-5 只需要改一行。

模型 ID:z-ai/glm-5

Python 示例:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="你的 OpenRouter 密钥"
)
response = client.chat.completions.create(
    model="z-ai/glm-5",
    messages=[{"role""user""content""重构这个函数..."}],
    extra_body={"reasoning": {"effort""high"}}  # 开启思考模式
)
print(response.choices[0].message.content)

OpenRouter 负责负载均衡、用量统计,原生支持流式输出。

适合谁:已经在用 OpenRouter,或想统一账单管理多模型。


方式 3:Z.AI 原生 API + 智能体模式(完全体最强)

这才是 GLM-5 从聊天机器人变成智能体的地方。

入口:https://chat.z.ai/ 然后点 Agent。

Image

这是 Z.ai 官网的隐藏杀招。不只是“聪明回复”,是自主决策
你只给一句话:“写一个 React 组件,获取天气数据并展示,带错误处理。”
它会:

规划架构

写代码

发现需要 API Key

问你要

测试组件

失败就自动重构

我亲眼看着它起 web 服务、发现端口被占、杀掉进程、换到 8080 继续——全程我没再敲一个字。

GLM Coding Plan(10 美元/月)可以把这个能力直接插进 IDE,替换 Claude Code。

适合谁:做生产项目、需要真正智能体工作流、准备彻底换掉 Claude Code 的人。


该选哪个?

只是试试?→ Ollama Cloud(免费、秒开、零成本)

already OpenRouter 用户?→ 直接替换,代码不用大改

正经干活?→ Z.AI API + Agent Mode(完全体)

我从 Ollama 开始。四小时后,我已经用上 Z.AI API 智能体模式。升级路径非常顺滑——而你的 Claude 订阅,不会想你。

配置卡住?我每条评论都会回。把报错贴下面,我帮你调试。


提示词指南

跑起来之后,这么用效果最猛。

GLM-5 是指令驱动型。不是矫情,是精准。它要结构,不要闲聊。我给 Claude 用的散文式提示词?在 GLM-5 上效果稀烂。用 XML 标签、结构化明确提示?魔法生效。

1. 用 XML 标签,别客气请求

烂写法:“你能帮我把这个函数改成 async/await 吗?”

好写法:

<role>高级后端工程师</role>
<task>将函数重构为 async/await</task>
<rules>
  - 完全保留原有行为
  - 所有参数加类型注解
  - 包含三个单元测试
</rules>
<output_format>带行内注释的 Diff 格式</output_format>

GLM-5 会像执行代码一样严格遵守结构。逐项完成。

2. 显式开关思考模式

复杂推理:
"thinking": {"type": "enabled"}

简单问答:别开。省钱、降延迟。

3. 设置工具调用上限

GLM-5 有 200K 上下文。能浏览、搜索、执行。不管的话它能无限调用工具。我每个智能体提示词都会加一句:
“每次请求最多 3 次工具调用。”

4. 一句话指令技巧

GLM-5 比 GLM-4.x 更听话。直接明确
“你先做 X,再做 Y,最后做 Z。”
不要模糊。它不猜客气话和潜台词——只执行你写死的内容。

我用这套结构再跑了一遍之前的 Python 重构。还是 8 秒——但输出更紧凑。错误处理更稳。单元测试第一次就全过。

那一刻我确定了。

这不是平替。不是“开源里算不错”。
用对提示词,GLM-5 能打到 Claude Opus 4.6 水平——智能体任务甚至更强——只要几美分。

我靠回椅子。天快亮了。我花了四小时,省了 20 美元。

不是 API 费用 20 美元。是取消订阅省下来的 20 美元


我的决定——为什么不再续费 Claude

根本不想换。我先说清楚。我已经换烦了。每个新模型都意味着新提示词、新怪癖、新坑要踩。我想安定下来。选一个主力。停止优化。

但 GLM-5 让我不换反而不理性

我现在的新栈:

Kimi K2.5:所有视觉任务——截图、图表、UI 智能体。它依然是王者。

GLM-5:其他所有。代码、重构、长上下文分析、重度工具流。

两个“开源王者”,价格都比专有模型低一个数量级。

Claude Opus 4.6 依然很强。如果你在受监管的企业、需要 Anthropic 的安全文档、那最后 3% 的推理质量值得每月 20 美元——那你继续用。我理解。

但 95% 的编码任务?GLM-5 持平。
100% 的智能体任务?它赢过 Gemini 3 Pro。
100% 的价格对比?根本没有可比性。

我看了眼银行账单:连续八个月,每个月 20 美元的 Claude Pro。那种不用算 token 的安心感。

然后我看了眼 GLM-5。MIT 协议。7440 亿参数。百万级几美分。

我点了“取消订阅”。

那一下确认,感觉像解脱

-------------------------------------------------------------

微信公众号:算子之心