续费了 Claude Opus 4.6。用上 GLM-5 后，我又把它取消了……我本来在试用 Claude Opus 4

GLM-5 77.8% 的 SWE‑bench 得分与 1 美元/M 的定价，终结了我每月 20 美元的 Claude 依赖（附完整提示词）

GLM-5 迭代很快，我会持续更新这篇文章，记录新功能与定价变动。欢迎收藏。

我本来在试用 Claude Opus 4.6，但在下载 GLM-5 四小时后，我又一次取消了订阅。

不是测试一周后。不是对比完基准分数后。仅仅四小时。

接下来 6 分钟里，你会看到让我最终下定决心的真实 SWE‑bench 分数、能以 6% 成本实现 Claude 级代码能力的提示词结构，以及这个7440 亿参数、MIT 开源协议、在受制裁华为芯片上训练出来的模型，为什么可能真正终结每月 20 美元的 AI 订阅时代。

先铺垫一下。当时是凌晨两点。我开着十五个标签页，一杯冷掉的咖啡，还有那种短时间内测太多模型才会有的疲惫。我刚深度测完 Kimi K2.5（很强，视觉智能体简直杀疯了），然后 Claude Opus 4.6 发布（显然也很顶），接着 GPT-5.3 也来了（还行吧）。说实话，我已经麻了。我告诉自己，再也不点任何“新模型发布”的通知。

然后我刷到了 X 上的帖子。“Pony Alpha。”7440 亿参数。在受美国制裁的华为昇腾芯片上训练。

我还是点了进去。

快速导航（给赶时间的人）

•

只想看数据？→ 第二小时

•

只想知道意义何在？→ 第三小时

•

只想看代码？→ 实际使用教程

•

只想抄提示词？→ 提示词指南

背景——模型疲劳是真的

你大概懂这种感觉。2026 年，顶尖大模型像 Spotify 单曲一样疯狂发布。每周都有新的“史上最强模型”——刷新一项基准、登顶一个榜单、多一个订阅档位要考虑。

我刚花了三天用 Kimi K2.5。月之暗面的模型确实优秀：256K 上下文、视觉智能体、丝滑的推理能力。我都准备长期用了。然后 Anthropic 出了 Opus 4.6。行吧，我得测测。SWE‑bench 冲到 80.9%。很强。

接着 OpenAI 放了 GPT-5.3。推理更强，工具调用更好。我嘟囔一句“行”，又开了个 API 测试标签页。

作者自制

然后 GLM-5 来了。

我盯着屏幕。“我不行了，”我对着空气说，“真的顶不住了。”

但 timeline 已经炸了。X 上所有人都在为“Pony Alpha”疯狂——这是官方发布前几天从 GitHub PR 泄露的内部代号。YouTube 封面全在喊“逆天”“Claude 杀手”。还有硬件这件事——这个 7440 亿参数的模型，完全在华为昇腾芯片上训练，就是美国政府警告全球都可能违反出口管制的那种。

“硅长城”正在裂开，而中国的实验室证明了：不用英伟达，也能训出顶尖大模型。

我叹了口气。冲了杯新咖啡。

打开了 Hugging Face 页面。

第一小时——怀疑

说实话：我一开始是怀疑的。

我对“国产大模型”有刻板印象：数学强、跑分猛、文笔偶尔生硬，可能 C++ 很强但闲聊很尬。我以为又是一个 DeepSeek——厉害，但偏工程化。

模型大小 1.5TB。我直接开了 API 实例。

第一个提示词：
我让它重构一段我卡了两天的 Python 脚本。异步一团糟，错误处理全靠“胶带+信仰”。没什么花活，就是我真实要做的工作。

它 8 秒就回了。

不是速度，是质量。它不只是重写函数，还点出了我没发现的竞态条件，给异步上下文管理器推荐了具体模式，还提供三种不同实现并讲清权衡。带完整类型注解。还有单元测试。

我往后一靠。“等等，什么情况？”

我看了眼价格。输入 1 美元/百万 tokens。对比一下，Claude Opus 4.6 大概是它的 15 倍。我眼前是一个 7440 亿参数的混合专家模型（MoE）——256 个专家，每 token 激活 40B——响应却比 70B 稠密模型还轻快。智谱集成了 DeepSeek 的稀疏注意力，这解释了速度，但连贯性才是惊喜。它能在 200K 全窗口内稳稳跟住上下文，不跑偏。

然后我看到了许可证。

MIT 协议。
不是“半开源”，不是“仅限研究”。是真正的 MIT：商用、修改、分发——无任何限制。

我看了眼我的 Claude Pro 标签页。每月收我 20 美元那个。

我又看了眼 GLM-5。只要几美分。

我心里动了一下。

第二小时——基准分数的真相

我需要数据。手感是好，但我以前也被“看起来很会写代码”骗过。我拿出测 Opus 4.6 的同一套基准套件。相同提示词、相同评估脚本、完全公平对比。

结果出来时有点离谱：

只差 3 个点。这是代码能力的差距。Claude 仍然领先，但微乎其微——小到生产环境里你根本感觉不到。但 BrowseComp？GLM-5 直接碾压。这是智能体基准：网页浏览、工具调用、多步检索。决定一个东西是“聊天机器人”还是“真的能用”的关键。

来源：Z.ai GLM-5 博客

我算了一遍。又算了一遍。

我的 Claude Pro 订阅：20 美元/月。再加高峰期 API 费用——有时还要多 30–50 美元。我这种用量，每月大概 60–70 美元。

GLM-5 API 定价：输入约 1 美元/百万 tokens，输出 3.2 美元/百万。按我上个月跑的 1000 万 tokens 算：输入 10 美元，输出 5 美元。总共 15 美元。

我盯着计算器。这不是“更便宜”。这是完全另一个维度。差不多便宜 15 倍，却保留 95% 的能力。

我拿起信用卡。

不是续费，是取消 Claude。

取消页面问原因。我差点打“找到了更好的”，但感觉不对。我不只是找到更好的。我找到了解脱——一个 7440 亿参数、MIT 开源的模型，就算智谱改规则，我也能自己本地跑。没有厂商绑定，没有每月 20 美元的“生产力税”。

我点了确认。

确认邮件进了收件箱。距离我第一次打开 GLM-5 文档，只过了四小时。

更多基准：z.ai/blog/glm-5

第三小时——华为因素

作者自制

我本应该去睡觉。结果一头扎进了信息黑洞。

GLM-5 技术文档里轻描淡写提了训练栈：“华为昇腾 910C，MindSpore 框架。”我知道昇腾——华为的 AI 芯片。美国商务部 2025 年 5 月就发过警告：在全球任何地方使用昇腾都可能违反出口管制。英伟达 H100 被禁入中国。大家默认中国实验室会落后。

而智谱没用一颗 CUDA 核心，训出了 7440 亿参数的顶尖模型。

我翻出路透社的报道。“硅长城”叙事——中国打造不依赖美国技术的自主 AI 基础设施——不再是理论。这是实锤。当 OpenAI 和 Anthropic 按小时租英伟达集群时，智谱在受制裁的硬件上做出了同级别的东西。

影响瞬间就清晰了：
如果不用英伟达也能训顶尖大模型，那颗 4 万美元一颗芯片的护城河就没了。
如果能开源权重，专有 API 的绑定就破了。
顶尖 AI 整套经济模式——昂贵、中心化、美国主导——第一次迎来了真正的挑战者。

我算了下 16 倍的价差。这不只是智谱大方。这是结构性优势。他们不用付英伟达税，不用付加州房租。这家刚在 1 月香港 IPO、估值 67 亿美元的公司，能在能力追平美国对手的同时，在价格上直接碾压。

“Pony Alpha”这个代号现在合理了。这是一匹特洛伊木马。不只是一个模型——是另一种做 AI 的方式。

我看着空空的 Claude 订阅页面。取消确认还在收件箱里亮着。

凌晨 4:12。我累瘫了。

“在读下一部分前——你最想试哪种方式？Ollama、OpenRouter 还是 Z.AI？评论区留 1、2、3。”

第四小时——实际使用教程

我睡不着，第四小时全在压力测试——研究怎么把它用到极致。

10 分钟内跑起 GLM-5 的三种方式

我懂那种感觉：读了 1500 字吹爆模型，热血上头，然后撞上一堆默认你有 Kubernetes 集群和 MLOps 博士学位的文档。这里不会。
三种上手方式，从“零门槛”到“完全体智能体”。

方式 1：Ollama Cloud（免费——随便玩玩首选）

最快体验 GLM-5 的方法，不用下 1.5TB，不用绑信用卡。Ollama 在免费额度里加了 glm-5:cloud，限制比你想的宽松得多。

打开终端：

ollama serve

开新终端：

ollama run glm-5:cloud

完事。你正在跟一个 7440 亿参数模型聊天。免费。

最狠的功能：Ollama 的 launch 命令可以直接把它接入 Claude Code（或 Cline、Kilo Code、OpenCode），无缝替换。我跑了这条：

ollama launch claude --model glm-5:cloud

然后我的 Claude Code 界面——快捷键、文件浏览器、所有东西都没变——底层直接换成 GLM-5。不用 20 美元订阅。工作流完全不变。

适合谁：好奇、想在自己代码库上测试、或者暂时不想花钱的人。

方式 2：OpenRouter（已有 API 密钥首选）

如果你已经在用 OpenRouter（很多人都在用，同时切 GPT-5、Claude、DeepSeek），GLM-5 只需要改一行。

模型 ID：z-ai/glm-5

Python 示例：

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="你的 OpenRouter 密钥"
)
response = client.chat.completions.create(
    model="z-ai/glm-5",
    messages=[{"role": "user", "content": "重构这个函数..."}],
    extra_body={"reasoning": {"effort": "high"}}  # 开启思考模式
)
print(response.choices[0].message.content)

OpenRouter 负责负载均衡、用量统计，原生支持流式输出。

适合谁：已经在用 OpenRouter，或想统一账单管理多模型。

方式 3：Z.AI 原生 API + 智能体模式（完全体最强）

这才是 GLM-5 从聊天机器人变成智能体的地方。

入口：https://chat.z.ai/ 然后点 Agent。

这是 Z.ai 官网的隐藏杀招。不只是“聪明回复”，是自主决策。
你只给一句话：“写一个 React 组件，获取天气数据并展示，带错误处理。”
它会：

•

规划架构

•

写代码

•

发现需要 API Key

•

问你要

•

测试组件

•

失败就自动重构

我亲眼看着它起 web 服务、发现端口被占、杀掉进程、换到 8080 继续——全程我没再敲一个字。

GLM Coding Plan（10 美元/月）可以把这个能力直接插进 IDE，替换 Claude Code。

适合谁：做生产项目、需要真正智能体工作流、准备彻底换掉 Claude Code 的人。

该选哪个？

•

只是试试？→ Ollama Cloud（免费、秒开、零成本）

•

already OpenRouter 用户？→ 直接替换，代码不用大改

•

正经干活？→ Z.AI API + Agent Mode（完全体）

我从 Ollama 开始。四小时后，我已经用上 Z.AI API 智能体模式。升级路径非常顺滑——而你的 Claude 订阅，不会想你。

配置卡住？我每条评论都会回。把报错贴下面，我帮你调试。

提示词指南

跑起来之后，这么用效果最猛。

GLM-5 是指令驱动型。不是矫情，是精准。它要结构，不要闲聊。我给 Claude 用的散文式提示词？在 GLM-5 上效果稀烂。用 XML 标签、结构化明确提示？魔法生效。

1. 用 XML 标签，别客气请求

烂写法：“你能帮我把这个函数改成 async/await 吗？”

好写法：

<role>高级后端工程师</role>
<task>将函数重构为 async/await</task>
<rules>
  - 完全保留原有行为
  - 所有参数加类型注解
  - 包含三个单元测试
</rules>
<output_format>带行内注释的 Diff 格式</output_format>

GLM-5 会像执行代码一样严格遵守结构。逐项完成。

2. 显式开关思考模式

复杂推理：
"thinking": {"type": "enabled"}

简单问答：别开。省钱、降延迟。

3. 设置工具调用上限

GLM-5 有 200K 上下文。能浏览、搜索、执行。不管的话它能无限调用工具。我每个智能体提示词都会加一句：
“每次请求最多 3 次工具调用。”

4. 一句话指令技巧

GLM-5 比 GLM-4.x 更听话。直接明确。
“你先做 X，再做 Y，最后做 Z。”
不要模糊。它不猜客气话和潜台词——只执行你写死的内容。

我用这套结构再跑了一遍之前的 Python 重构。还是 8 秒——但输出更紧凑。错误处理更稳。单元测试第一次就全过。

那一刻我确定了。

这不是平替。不是“开源里算不错”。
用对提示词，GLM-5 能打到 Claude Opus 4.6 水平——智能体任务甚至更强——只要几美分。

我靠回椅子。天快亮了。我花了四小时，省了 20 美元。

不是 API 费用 20 美元。是取消订阅省下来的 20 美元。

我的决定——为什么不再续费 Claude

我根本不想换。我先说清楚。我已经换烦了。每个新模型都意味着新提示词、新怪癖、新坑要踩。我想安定下来。选一个主力。停止优化。

但 GLM-5 让我不换反而不理性。

我现在的新栈：

•

Kimi K2.5：所有视觉任务——截图、图表、UI 智能体。它依然是王者。

•

GLM-5：其他所有。代码、重构、长上下文分析、重度工具流。

两个“开源王者”，价格都比专有模型低一个数量级。

Claude Opus 4.6 依然很强。如果你在受监管的企业、需要 Anthropic 的安全文档、那最后 3% 的推理质量值得每月 20 美元——那你继续用。我理解。

但 95% 的编码任务？GLM-5 持平。
100% 的智能体任务？它赢过 Gemini 3 Pro。
100% 的价格对比？根本没有可比性。

我看了眼银行账单：连续八个月，每个月 20 美元的 Claude Pro。那种不用算 token 的安心感。

然后我看了眼 GLM-5。MIT 协议。7440 亿参数。百万级几美分。

我点了“取消订阅”。

那一下确认，感觉像解脱。

-------------------------------------------------------------

续费了 Claude Opus 4.6。用上 GLM-5 后，我又把它取消了……