GLM-5 77.8% 的 SWE‑bench 得分与 1 美元/M 的定价,终结了我每月 20 美元的 Claude 依赖(附完整提示词)
GLM-5 迭代很快,我会持续更新这篇文章,记录新功能与定价变动。欢迎收藏。
我本来在试用 Claude Opus 4.6,但在下载 GLM-5 四小时后,我又一次取消了订阅。
不是测试一周后。不是对比完基准分数后。仅仅四小时。
接下来 6 分钟里,你会看到让我最终下定决心的真实 SWE‑bench 分数、能以 6% 成本实现 Claude 级代码能力的提示词结构,以及这个7440 亿参数、MIT 开源协议、在受制裁华为芯片上训练出来的模型,为什么可能真正终结每月 20 美元的 AI 订阅时代。
先铺垫一下。当时是凌晨两点。我开着十五个标签页,一杯冷掉的咖啡,还有那种短时间内测太多模型才会有的疲惫。我刚深度测完 Kimi K2.5(很强,视觉智能体简直杀疯了),然后 Claude Opus 4.6 发布(显然也很顶),接着 GPT-5.3 也来了(还行吧)。说实话,我已经麻了。我告诉自己,再也不点任何“新模型发布”的通知。
然后我刷到了 X 上的帖子。“Pony Alpha。”7440 亿参数。在受美国制裁的华为昇腾芯片上训练。
我还是点了进去。
快速导航(给赶时间的人)
•
只想看数据?→ 第二小时
•
只想知道意义何在?→ 第三小时
•
只想看代码?→ 实际使用教程
•
只想抄提示词?→ 提示词指南
背景——模型疲劳是真的
你大概懂这种感觉。2026 年,顶尖大模型像 Spotify 单曲一样疯狂发布。每周都有新的“史上最强模型”——刷新一项基准、登顶一个榜单、多一个订阅档位要考虑。
我刚花了三天用 Kimi K2.5。月之暗面的模型确实优秀:256K 上下文、视觉智能体、丝滑的推理能力。我都准备长期用了。然后 Anthropic 出了 Opus 4.6。行吧,我得测测。SWE‑bench 冲到 80.9%。很强。
接着 OpenAI 放了 GPT-5.3。推理更强,工具调用更好。我嘟囔一句“行”,又开了个 API 测试标签页。
作者自制
然后 GLM-5 来了。
我盯着屏幕。“我不行了,”我对着空气说,“真的顶不住了。”
但 timeline 已经炸了。X 上所有人都在为“Pony Alpha”疯狂——这是官方发布前几天从 GitHub PR 泄露的内部代号。YouTube 封面全在喊“逆天”“Claude 杀手”。还有硬件这件事——这个 7440 亿参数的模型,完全在华为昇腾芯片上训练,就是美国政府警告全球都可能违反出口管制的那种。
“硅长城”正在裂开,而中国的实验室证明了:不用英伟达,也能训出顶尖大模型。
我叹了口气。冲了杯新咖啡。
打开了 Hugging Face 页面。
第一小时——怀疑
说实话:我一开始是怀疑的。
我对“国产大模型”有刻板印象:数学强、跑分猛、文笔偶尔生硬,可能 C++ 很强但闲聊很尬。我以为又是一个 DeepSeek——厉害,但偏工程化。
模型大小 1.5TB。我直接开了 API 实例。
第一个提示词:
我让它重构一段我卡了两天的 Python 脚本。异步一团糟,错误处理全靠“胶带+信仰”。没什么花活,就是我真实要做的工作。
它 8 秒就回了。
不是速度,是质量。它不只是重写函数,还点出了我没发现的竞态条件,给异步上下文管理器推荐了具体模式,还提供三种不同实现并讲清权衡。带完整类型注解。还有单元测试。
我往后一靠。“等等,什么情况?”
我看了眼价格。输入 1 美元/百万 tokens。对比一下,Claude Opus 4.6 大概是它的 15 倍。我眼前是一个 7440 亿参数的混合专家模型(MoE)——256 个专家,每 token 激活 40B——响应却比 70B 稠密模型还轻快。智谱集成了 DeepSeek 的稀疏注意力,这解释了速度,但连贯性才是惊喜。它能在 200K 全窗口内稳稳跟住上下文,不跑偏。
然后我看到了许可证。
MIT 协议。
不是“半开源”,不是“仅限研究”。是真正的 MIT:商用、修改、分发——无任何限制。
我看了眼我的 Claude Pro 标签页。每月收我 20 美元那个。
我又看了眼 GLM-5。只要几美分。
我心里动了一下。
第二小时——基准分数的真相
我需要数据。手感是好,但我以前也被“看起来很会写代码”骗过。我拿出测 Opus 4.6 的同一套基准套件。相同提示词、相同评估脚本、完全公平对比。
结果出来时有点离谱:
只差 3 个点。这是代码能力的差距。Claude 仍然领先,但微乎其微——小到生产环境里你根本感觉不到。但 BrowseComp?GLM-5 直接碾压。这是智能体基准:网页浏览、工具调用、多步检索。决定一个东西是“聊天机器人”还是“真的能用”的关键。
来源:Z.ai GLM-5 博客
我算了一遍。又算了一遍。
我的 Claude Pro 订阅:20 美元/月。再加高峰期 API 费用——有时还要多 30–50 美元。我这种用量,每月大概 60–70 美元。
GLM-5 API 定价:输入约 1 美元/百万 tokens,输出 3.2 美元/百万。按我上个月跑的 1000 万 tokens 算:输入 10 美元,输出 5 美元。总共 15 美元。
我盯着计算器。这不是“更便宜”。这是完全另一个维度。差不多便宜 15 倍,却保留 95% 的能力。
我拿起信用卡。
不是续费,是取消 Claude。
取消页面问原因。我差点打“找到了更好的”,但感觉不对。我不只是找到更好的。我找到了解脱——一个 7440 亿参数、MIT 开源的模型,就算智谱改规则,我也能自己本地跑。没有厂商绑定,没有每月 20 美元的“生产力税”。
我点了确认。
确认邮件进了收件箱。距离我第一次打开 GLM-5 文档,只过了四小时。
更多基准:z.ai/blog/glm-5
第三小时——华为因素
作者自制
我本应该去睡觉。结果一头扎进了信息黑洞。
GLM-5 技术文档里轻描淡写提了训练栈:“华为昇腾 910C,MindSpore 框架。”我知道昇腾——华为的 AI 芯片。美国商务部 2025 年 5 月就发过警告:在全球任何地方使用昇腾都可能违反出口管制。英伟达 H100 被禁入中国。大家默认中国实验室会落后。
而智谱没用一颗 CUDA 核心,训出了 7440 亿参数的顶尖模型。
我翻出路透社的报道。“硅长城”叙事——中国打造不依赖美国技术的自主 AI 基础设施——不再是理论。这是实锤。当 OpenAI 和 Anthropic 按小时租英伟达集群时,智谱在受制裁的硬件上做出了同级别的东西。
影响瞬间就清晰了:
如果不用英伟达也能训顶尖大模型,那颗 4 万美元一颗芯片的护城河就没了。
如果能开源权重,专有 API 的绑定就破了。
顶尖 AI 整套经济模式——昂贵、中心化、美国主导——第一次迎来了真正的挑战者。
我算了下 16 倍的价差。这不只是智谱大方。这是结构性优势。他们不用付英伟达税,不用付加州房租。这家刚在 1 月香港 IPO、估值 67 亿美元的公司,能在能力追平美国对手的同时,在价格上直接碾压。
“Pony Alpha”这个代号现在合理了。这是一匹特洛伊木马。不只是一个模型——是另一种做 AI 的方式。
我看着空空的 Claude 订阅页面。取消确认还在收件箱里亮着。
凌晨 4:12。我累瘫了。
“在读下一部分前——你最想试哪种方式?Ollama、OpenRouter 还是 Z.AI?评论区留 1、2、3。”
第四小时——实际使用教程
我睡不着,第四小时全在压力测试——研究怎么把它用到极致。
10 分钟内跑起 GLM-5 的三种方式
我懂那种感觉:读了 1500 字吹爆模型,热血上头,然后撞上一堆默认你有 Kubernetes 集群和 MLOps 博士学位的文档。这里不会。
三种上手方式,从“零门槛”到“完全体智能体”。
方式 1:Ollama Cloud(免费——随便玩玩首选)
最快体验 GLM-5 的方法,不用下 1.5TB,不用绑信用卡。Ollama 在免费额度里加了 glm-5:cloud,限制比你想的宽松得多。
打开终端:
ollama serve
开新终端:
ollama run glm-5:cloud
完事。你正在跟一个 7440 亿参数模型聊天。免费。
最狠的功能:Ollama 的 launch 命令可以直接把它接入 Claude Code(或 Cline、Kilo Code、OpenCode),无缝替换。我跑了这条:
ollama launch claude --model glm-5:cloud
然后我的 Claude Code 界面——快捷键、文件浏览器、所有东西都没变——底层直接换成 GLM-5。不用 20 美元订阅。工作流完全不变。
适合谁:好奇、想在自己代码库上测试、或者暂时不想花钱的人。
方式 2:OpenRouter(已有 API 密钥首选)
如果你已经在用 OpenRouter(很多人都在用,同时切 GPT-5、Claude、DeepSeek),GLM-5 只需要改一行。
模型 ID:z-ai/glm-5
Python 示例:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="你的 OpenRouter 密钥"
)
response = client.chat.completions.create(
model="z-ai/glm-5",
messages=[{"role": "user", "content": "重构这个函数..."}],
extra_body={"reasoning": {"effort": "high"}} # 开启思考模式
)
print(response.choices[0].message.content)
OpenRouter 负责负载均衡、用量统计,原生支持流式输出。
适合谁:已经在用 OpenRouter,或想统一账单管理多模型。
方式 3:Z.AI 原生 API + 智能体模式(完全体最强)
这才是 GLM-5 从聊天机器人变成智能体的地方。
入口:https://chat.z.ai/ 然后点 Agent。
这是 Z.ai 官网的隐藏杀招。不只是“聪明回复”,是自主决策。
你只给一句话:“写一个 React 组件,获取天气数据并展示,带错误处理。”
它会:
•
规划架构
•
写代码
•
发现需要 API Key
•
问你要
•
测试组件
•
失败就自动重构
我亲眼看着它起 web 服务、发现端口被占、杀掉进程、换到 8080 继续——全程我没再敲一个字。
GLM Coding Plan(10 美元/月)可以把这个能力直接插进 IDE,替换 Claude Code。
适合谁:做生产项目、需要真正智能体工作流、准备彻底换掉 Claude Code 的人。
该选哪个?
•
只是试试?→ Ollama Cloud(免费、秒开、零成本)
•
already OpenRouter 用户?→ 直接替换,代码不用大改
•
正经干活?→ Z.AI API + Agent Mode(完全体)
我从 Ollama 开始。四小时后,我已经用上 Z.AI API 智能体模式。升级路径非常顺滑——而你的 Claude 订阅,不会想你。
配置卡住?我每条评论都会回。把报错贴下面,我帮你调试。
提示词指南
跑起来之后,这么用效果最猛。
GLM-5 是指令驱动型。不是矫情,是精准。它要结构,不要闲聊。我给 Claude 用的散文式提示词?在 GLM-5 上效果稀烂。用 XML 标签、结构化明确提示?魔法生效。
1. 用 XML 标签,别客气请求
烂写法:“你能帮我把这个函数改成 async/await 吗?”
好写法:
<role>高级后端工程师</role>
<task>将函数重构为 async/await</task>
<rules>
- 完全保留原有行为
- 所有参数加类型注解
- 包含三个单元测试
</rules>
<output_format>带行内注释的 Diff 格式</output_format>
GLM-5 会像执行代码一样严格遵守结构。逐项完成。
2. 显式开关思考模式
复杂推理:
"thinking": {"type": "enabled"}
简单问答:别开。省钱、降延迟。
3. 设置工具调用上限
GLM-5 有 200K 上下文。能浏览、搜索、执行。不管的话它能无限调用工具。我每个智能体提示词都会加一句:
“每次请求最多 3 次工具调用。”
4. 一句话指令技巧
GLM-5 比 GLM-4.x 更听话。直接明确。
“你先做 X,再做 Y,最后做 Z。”
不要模糊。它不猜客气话和潜台词——只执行你写死的内容。
我用这套结构再跑了一遍之前的 Python 重构。还是 8 秒——但输出更紧凑。错误处理更稳。单元测试第一次就全过。
那一刻我确定了。
这不是平替。不是“开源里算不错”。
用对提示词,GLM-5 能打到 Claude Opus 4.6 水平——智能体任务甚至更强——只要几美分。
我靠回椅子。天快亮了。我花了四小时,省了 20 美元。
不是 API 费用 20 美元。是取消订阅省下来的 20 美元。
我的决定——为什么不再续费 Claude
我根本不想换。我先说清楚。我已经换烦了。每个新模型都意味着新提示词、新怪癖、新坑要踩。我想安定下来。选一个主力。停止优化。
但 GLM-5 让我不换反而不理性。
我现在的新栈:
•
Kimi K2.5:所有视觉任务——截图、图表、UI 智能体。它依然是王者。
•
GLM-5:其他所有。代码、重构、长上下文分析、重度工具流。
两个“开源王者”,价格都比专有模型低一个数量级。
Claude Opus 4.6 依然很强。如果你在受监管的企业、需要 Anthropic 的安全文档、那最后 3% 的推理质量值得每月 20 美元——那你继续用。我理解。
但 95% 的编码任务?GLM-5 持平。
100% 的智能体任务?它赢过 Gemini 3 Pro。
100% 的价格对比?根本没有可比性。
我看了眼银行账单:连续八个月,每个月 20 美元的 Claude Pro。那种不用算 token 的安心感。
然后我看了眼 GLM-5。MIT 协议。7440 亿参数。百万级几美分。
我点了“取消订阅”。
那一下确认,感觉像解脱。
-------------------------------------------------------------