上周在地铁上,我旁边一位老哥拿手机捣鼓东西。
出于职业敏感,我瞥了一眼——他在用手机跑AI。
我问他用什么模型。他说是Google新出的Gemma 4 E4B版。他试了试让AI帮忙整理会议记录,每秒7-8个token的速度,不耽误用。
这不是极客秀肌肉,不是开发者跑Demo。这是普通人在公共场所用手机跑本地大模型。不是“概念”,不是“原型”,是TM能用的东西。
真正的拐点,已经到了。
一、从“按token付费”到“0 token”:端侧AI的经济账
先算一笔账。
一个中等规模的AI创业团队,每天调用GPT-4大约200万token。按OpenAI的API定价,月账单轻松破万人民币。国内模型便宜一些,但长期下来也是一笔不小的开支。
但如果你把工作负载从云端迁移到本地呢?
不是“省多少”的问题——是“不需要花钱”了。
1.1 0 token到底是什么意思?
所谓“0 token”,不是指AI不生成文字,而是指你不需要为每一次推理付费。
在传统模式下,每次调用都是“走表”——问一句话,扣几分钱;生成一篇文章,扣几毛钱;跑一个复杂的Agent工作流,可能扣几块钱。
而在Gemma 4本地部署的场景下,模型权重下载到本地后,所有推理都在你自己的设备上完成。没有API请求,没有token计数,没有账单。
用一次是免费的,用一万次也是免费的。
一位开发者的观察很直接:本地跑的Gemma 4已经够好用,Claude订阅对部分人来说已经不再划算。Hugging Face托管的模型免费,能替换掉Agent工作流里的付费环节。
1.2 “订阅经济的裂缝”正在扩大
Ollama的动作更快。Gemma 4上线Ollama Cloud,后端是NVIDIA Blackwell GPU,OpenClaw和Claude式工作流无需自建服务器就能调用。
免费层正在蚕食付费层的地基。
这不是危言耸听。当端侧算力足够跑起31B模型,云厂商的定价权还能撑多久?OpenAI的GPT-5.4收费模式建立在“模型只能云端运行”的前提上。如果开发者可以本地跑一个同级别的模型,API经济的基础逻辑就会被动摇。
1.3 “能用”到“够用”的临界点已经跨过
过去端侧AI最大的问题是“不够强”——能跑但不好用,不卡但智商不够。
Gemma 4的出现改变了这个局面。31B模型在开源排行榜上排第三,前面两个都是千亿级参数规模的云端巨兽。一个本地跑得动的模型,能力已经超过了绝大部分开发者日常所需。
二、Gemma 4凭什么让“0 token”成为现实?
一个310亿参数的模型,打赢了体量是自己20倍的对手,还能塞进手机。这不是魔法,是工程上的精密算计。
2.1 参数效率革命:每1B算力打出5B的牌
Gemma 4最大的颠覆不是“大”,而是“小得恰到好处”。
31B Dense模型以310亿参数的体量,在Arena AI文本排行榜上位列全球开源模型第三,Elo评分1452。排在它前面的两个模型,参数量分别是它的两倍和三倍以上。
26B MoE版本更离谱:总参数260亿,但推理时只激活38亿,Elo打到1441,排开源第六。在同等显存条件下,MoE架构的推理速度比同等能力的稠密模型提升了近2.5倍。
简单说:你花1块钱的算力,别人要花5块钱才能打平。
2.2 端侧优化:手机跑AI不再是“玩具”
E2B和E4B端侧版本是这场“0 token革命”的前锋。
这两个模型与谷歌Pixel团队、高通、联发科联合优化,能在手机、树莓派、Jetson Orin Nano上完全离线运行,延迟接近零。内存占用低于1.5GB,比很多游戏App还小。
实测数据显示,E2B和E4B在手机上可达到每秒15个token的推理速度——相当于一秒写10-15个汉字,日常对话、简单问答、文档摘要完全够用。
这意味着什么?你的下一次AI调用,可能不是向云端服务器发请求,而是点开手机上的一个本地应用。
2.3 硬件门槛的“平民化”
| 模型 | 最小显存需求 | 适用硬件 | 能否免费运行 |
|---|---|---|---|
| E2B | 约4GB(4-bit量化) | 手机、树莓派 | ✅ |
| E4B | 约5.5GB(4-bit量化) | 笔记本、平板 | ✅ |
| 26B MoE | 约16GB(4-bit量化) | 消费级显卡 | ✅ |
| 31B Dense | 约20GB(4-bit量化) | RTX 4090单卡 | ✅ |
未经量化的bfloat16权重可以高效适配单个80GB NVIDIA H100 GPU。量化版本则在消费级GPU上就能跑。
Gemma 4的发布不到24小时,开发者社区就有人把26B版本压缩到Q4_K_M量化版,用单张消费级显卡跑通了。量化版的GGUF文件体积只有15.6GB,在RTX 4090上能跑到每秒8个token,内存占用压到了14GB出头。作为对比,官方FP16版本需要52GB显存——差距是四倍。
“谷歌花了三个月优化TPU推理,我们一晚上就让它在CUDA上喘气了。”
三、开发者社区正在用脚投票
Gemma 4上线7天,下载量突破200万。Gemma 3花了整整一年才攒到670万。
更刺眼的是对比:阿里Qwen 3.5的旗舰模型发布1.5个月,总下载量2700万——但那是包含3970亿参数的云端巨兽。Gemma 4的凶猛在于,它让普通人手里的iPhone变成了能跑40 token/秒的本地AI引擎。
3.1 Hugging Face登顶不是因为刷榜,是因为“能用”
Hugging Face CEO Clément Delangue的推文被反复转发:Gemma 4登顶平台趋势榜,不是因为刷榜,而是因为“practical usability”——实用主义。
这种实用主义有具体画面。@adrgrondin把Gemma 4 E2B塞进iPhone 17 Pro,MLX框架下跑出40 token/s;@enjojoyy跟进了同样的部署;@_philschmid在AI Edge Gallery里演示了用技能调维基百科查询。
开源模型的竞争逻辑变了。过去是“我参数比你多”,现在是“你能在便利店WiFi下跑起来吗”。
3.2 生态同步:发布当天下游系统全部就绪
Gemma 4发布当天,Hugging Face、vLLM、llama.cpp、Ollama、NVIDIA、Unsloth、SGLang、Docker、Cloudflare……下游系统全部就绪。
一位开发者的观察很犀利:“开放模型成功”的定义正在被改写——不是权重开源就完事,而是发布当天下游系统全部就绪。
3.3 真实的“民间移植”故事
量化版的制作者「ggml-org」在Hugging Face上传的GGUF文件,下载量已经破万。谷歌原版的模型卡页面,最热门的讨论串标题是:“有人试过GGUF版本吗?体验如何?”
有开发者在Reddit吐槽:“谷歌花了三个月优化TPU推理,我们一晚上就让它在CUDA上喘气了。”
Gemma团队的GitHub仓库在发布当晚就新增了37个关于本地部署的issue。
四、Gemma 4的硬实力:不只是一场“跑分游戏”
性能是“能用”的基础。Gemma 4的基准测试成绩单,几乎没有短板。
4.1 数学推理:从20.8%到89.2%的暴力拉升
在AIME 2026数学竞赛测试中,Gemma 4 31B拿到89.2%的准确率。上一代Gemma 3 27B的成绩仅为20.8%,提升幅度超过4倍。
GPQA Diamond(科学知识)测试中,31B拿到84.3%,同样把前代远远甩开。
4.2 编程能力:达到人类顶级程序员水平
在LiveCodeBench v6编程测试中,31B版本得分80.0%,Codeforces Elo达到2150——相当于一个紫名选手的水平。
这意味着什么?一个本地运行的AI模型,代码能力已经不输给专业的程序员。
4.3 智能体能力:13倍的指数级跃升
在t2-bench零售智能体工具调用测试中,Gemma 4 31B狂揽86.4%,上一代仅为6.6%,差距大到“没眼看”。原生支持函数调用、结构化JSON输出和系统指令,能够构建与各种工具和API交互的自主智能体。
4.4 长上下文:256K窗口的“大海捞针”
Gemma 4将标准上下文长度从128K直接拉升到256K。为了支撑这一规模的上下文而不导致显存爆炸,谷歌引入了“交替局部滑动窗口注意力”技术。在实际的“大海捞针”测试中,Gemma 4在256K满载状态下的信息检索准确率依然保持在99%以上。
4.5 多模态:真正的原生融合
不同于以往通过外挂视觉编码器实现的“拼接式”多模态,Gemma 4实现了真正的原生多模态融合。所有型号原生支持图文、视频处理,E2B/E4B更搭载音频编码器,支持语音识别与理解。
五、竞争格局:Gemma 4正在改写开源生态的规则
Gemma 4的发布,让2026年的开源大模型战场更加白热化。
5.1 阿里Qwen 3.5的策略性收紧
据VentureBeat报道,Qwen系列已经开始对最新模型收回完全开放的策略。旗舰模型Qwen 3.5 397B确实很强大,但部分版本的许可证正在收紧——这对依赖Qwen进行商业部署的开发者来说,是一个值得警惕的信号。
5.2 Meta Llama 4的“伪开源”争议
Llama Community License包含几个关键限制:月活超过700万的企业需要单独和Meta签协议,禁止用Llama输出训练竞争模型,许可证可被单方面修改。
OSI执行总监Stefano Maffulli说得直白:公司们假设开放,结果被从未读过的限制条款坑了。
5.3 Apache 2.0:Gemma 4的“差异化武器”
Gemma 4采用Apache 2.0许可证——真正意义上的“开源”。这意味着开发者可以自由修改、打包进商业产品、不必担心收到法务函。
当Qwen开始收紧开放策略、Meta在许可证上摇摆、Anthropic对第三方工具竖起围墙时,谷歌选择用Apache 2.0全面拥抱开源。这不是一次随机的“良心发现”,而是一次精心计算的战略抄底。
六、向量引擎
在探讨“0 token时代”的同时,我也想介绍一个让AI调用更省心的工具——向量引擎。
向量引擎是一个API中转站,聚合了500+国内外主流模型(包括Gemini、GPT、Claude、GLM、Llama、Qwen等),核心特点是全平台额度通用——充一次值可以调用所有模型,不需要到处找密钥、不需要单独充值。国内直连,不需要魔法,接口稳定,还有24小时真人售后服务。
如果你想把Gemma 4和其他模型一起用起来,或者想要一个安全、稳定、国内直连的API解决方案,可以看看向量引擎。
官方地址:<[178.nz/jj]
保姆级教程:www.yuque.com/nailao-zvxv…
七、“0 token时代”真的来了吗?
Gemma 4的200万下载是一个信号,但信号的方向还没完全清晰。
7.1 云厂商的定价权还能撑多久?
一个值得追问的细节是:当端侧算力足够跑起31B模型,云厂商的定价权还能撑多久?如果大量日常查询、简单推理、代码生成和图像理解都能在本地运行,那卖token的厂商们可能要重新思考商业模式了。
7.2 “0 token”不等于“零成本”
当然,本地部署也有它的成本——硬件投入、电力消耗、运维维护。但这是一个固定成本 vs 可变成本的差异。云端API是每用一次都要付费的“可变成本”,而本地部署是一次性投入的“固定成本”。
对于高频使用场景,本地部署的性价比是压倒性的。
7.3 云+端的混合模式将是常态
最可能的结果不是“云端被杀死”,而是云+端的混合模式成为新常态。简单任务走本地模型(0 token),复杂任务走云端模型(按需付费),两者结合才是最经济的策略。
Gemma 4的定位恰好踩在这个混合模式的分界点上:它足够强,让许多原本必须上云的任务可以下沉到端侧;它足够开放,让开发者可以根据自己的成本结构自由选择。
八、AI定价权的转移:从API经济到“能力栈”重构
Gemma 4最深远的影响,可能不是技术层面的“参数效率”,而是经济层面的定价权转移。
过去三年,AI行业的商业模式建立在“按token付费”的基础上。每次调用都是云厂商收一次钱。但随着Gemma 4这类端侧模型的能力提升,开发者开始有了选择——我可以在本地跑,不用每次都付钱。
当用户有了选择权,定价权就开始从云厂商向开发者转移。
Gemma 4的31B模型在数学、编程、Agent等核心能力上已经接近甚至超越了部分云端闭源模型。一个开发者完全可以用本地部署的Gemma 4替代一部分GPT-4调用,把月账单从几千美元降到几百美元。
这不是“少用一点”的问题,而是“有没有别的路”的问题。
“0 token时代”不是技术幻想,而是正在发生的经济重构。 当端侧模型的能力跨过了“够用”的临界点,API经济的逻辑就开始动摇。
全文完
如果这篇文章让你对“0 token时代”有了新的认识,或者帮你看清了端侧AI的价值,请点赞、收藏、转发三连。
当AI跑在你的手机上,它的定价权就握在你手里。