Gemma 4刚发布就屠榜!Apache 2.0真开源,向量引擎一站式聚合所有模型

6 阅读12分钟

上周在地铁上,我旁边一位老哥拿手机捣鼓东西。

出于职业敏感,我瞥了一眼——他在用手机跑AI。

我问他用什么模型。他说是Google新出的Gemma 4 E4B版。他试了试让AI帮忙整理会议记录,每秒7-8个token的速度,不耽误用。

这不是极客秀肌肉,不是开发者跑Demo。这是普通人在公共场所用手机跑本地大模型。不是“概念”,不是“原型”,是TM能用的东西。

真正的拐点,已经到了。

一、从“按token付费”到“0 token”:端侧AI的经济账

在这里插入图片描述

先算一笔账。

一个中等规模的AI创业团队,每天调用GPT-4大约200万token。按OpenAI的API定价,月账单轻松破万人民币。国内模型便宜一些,但长期下来也是一笔不小的开支。

但如果你把工作负载从云端迁移到本地呢?

不是“省多少”的问题——是“不需要花钱”了。

1.1 0 token到底是什么意思?

所谓“0 token”,不是指AI不生成文字,而是指你不需要为每一次推理付费

在传统模式下,每次调用都是“走表”——问一句话,扣几分钱;生成一篇文章,扣几毛钱;跑一个复杂的Agent工作流,可能扣几块钱。

而在Gemma 4本地部署的场景下,模型权重下载到本地后,所有推理都在你自己的设备上完成。没有API请求,没有token计数,没有账单。

用一次是免费的,用一万次也是免费的。

一位开发者的观察很直接:本地跑的Gemma 4已经够好用,Claude订阅对部分人来说已经不再划算。Hugging Face托管的模型免费,能替换掉Agent工作流里的付费环节。

1.2 “订阅经济的裂缝”正在扩大

Ollama的动作更快。Gemma 4上线Ollama Cloud,后端是NVIDIA Blackwell GPU,OpenClaw和Claude式工作流无需自建服务器就能调用。

免费层正在蚕食付费层的地基。

这不是危言耸听。当端侧算力足够跑起31B模型,云厂商的定价权还能撑多久?OpenAI的GPT-5.4收费模式建立在“模型只能云端运行”的前提上。如果开发者可以本地跑一个同级别的模型,API经济的基础逻辑就会被动摇。

1.3 “能用”到“够用”的临界点已经跨过

过去端侧AI最大的问题是“不够强”——能跑但不好用,不卡但智商不够。

Gemma 4的出现改变了这个局面。31B模型在开源排行榜上排第三,前面两个都是千亿级参数规模的云端巨兽。一个本地跑得动的模型,能力已经超过了绝大部分开发者日常所需。

二、Gemma 4凭什么让“0 token”成为现实?

在这里插入图片描述

一个310亿参数的模型,打赢了体量是自己20倍的对手,还能塞进手机。这不是魔法,是工程上的精密算计。

2.1 参数效率革命:每1B算力打出5B的牌

Gemma 4最大的颠覆不是“大”,而是“小得恰到好处”。

31B Dense模型以310亿参数的体量,在Arena AI文本排行榜上位列全球开源模型第三,Elo评分1452。排在它前面的两个模型,参数量分别是它的两倍和三倍以上。

26B MoE版本更离谱:总参数260亿,但推理时只激活38亿,Elo打到1441,排开源第六。在同等显存条件下,MoE架构的推理速度比同等能力的稠密模型提升了近2.5倍。

简单说:你花1块钱的算力,别人要花5块钱才能打平。

2.2 端侧优化:手机跑AI不再是“玩具”

E2B和E4B端侧版本是这场“0 token革命”的前锋。

这两个模型与谷歌Pixel团队、高通、联发科联合优化,能在手机、树莓派、Jetson Orin Nano上完全离线运行,延迟接近零。内存占用低于1.5GB,比很多游戏App还小。

实测数据显示,E2B和E4B在手机上可达到每秒15个token的推理速度——相当于一秒写10-15个汉字,日常对话、简单问答、文档摘要完全够用。

这意味着什么?你的下一次AI调用,可能不是向云端服务器发请求,而是点开手机上的一个本地应用。

2.3 硬件门槛的“平民化”

模型最小显存需求适用硬件能否免费运行
E2B约4GB(4-bit量化)手机、树莓派
E4B约5.5GB(4-bit量化)笔记本、平板
26B MoE约16GB(4-bit量化)消费级显卡
31B Dense约20GB(4-bit量化)RTX 4090单卡

未经量化的bfloat16权重可以高效适配单个80GB NVIDIA H100 GPU。量化版本则在消费级GPU上就能跑。

Gemma 4的发布不到24小时,开发者社区就有人把26B版本压缩到Q4_K_M量化版,用单张消费级显卡跑通了。量化版的GGUF文件体积只有15.6GB,在RTX 4090上能跑到每秒8个token,内存占用压到了14GB出头。作为对比,官方FP16版本需要52GB显存——差距是四倍。

“谷歌花了三个月优化TPU推理,我们一晚上就让它在CUDA上喘气了。”

三、开发者社区正在用脚投票

在这里插入图片描述

Gemma 4上线7天,下载量突破200万。Gemma 3花了整整一年才攒到670万。

更刺眼的是对比:阿里Qwen 3.5的旗舰模型发布1.5个月,总下载量2700万——但那是包含3970亿参数的云端巨兽。Gemma 4的凶猛在于,它让普通人手里的iPhone变成了能跑40 token/秒的本地AI引擎。

3.1 Hugging Face登顶不是因为刷榜,是因为“能用”

Hugging Face CEO Clément Delangue的推文被反复转发:Gemma 4登顶平台趋势榜,不是因为刷榜,而是因为“practical usability”——实用主义。

这种实用主义有具体画面。@adrgrondin把Gemma 4 E2B塞进iPhone 17 Pro,MLX框架下跑出40 token/s;@enjojoyy跟进了同样的部署;@_philschmid在AI Edge Gallery里演示了用技能调维基百科查询。

开源模型的竞争逻辑变了。过去是“我参数比你多”,现在是“你能在便利店WiFi下跑起来吗”。

3.2 生态同步:发布当天下游系统全部就绪

Gemma 4发布当天,Hugging Face、vLLM、llama.cpp、Ollama、NVIDIA、Unsloth、SGLang、Docker、Cloudflare……下游系统全部就绪。

一位开发者的观察很犀利:“开放模型成功”的定义正在被改写——不是权重开源就完事,而是发布当天下游系统全部就绪。

3.3 真实的“民间移植”故事

量化版的制作者「ggml-org」在Hugging Face上传的GGUF文件,下载量已经破万。谷歌原版的模型卡页面,最热门的讨论串标题是:“有人试过GGUF版本吗?体验如何?”

有开发者在Reddit吐槽:“谷歌花了三个月优化TPU推理,我们一晚上就让它在CUDA上喘气了。”

Gemma团队的GitHub仓库在发布当晚就新增了37个关于本地部署的issue。

四、Gemma 4的硬实力:不只是一场“跑分游戏”

在这里插入图片描述

性能是“能用”的基础。Gemma 4的基准测试成绩单,几乎没有短板。

4.1 数学推理:从20.8%到89.2%的暴力拉升

在AIME 2026数学竞赛测试中,Gemma 4 31B拿到89.2%的准确率。上一代Gemma 3 27B的成绩仅为20.8%,提升幅度超过4倍。

GPQA Diamond(科学知识)测试中,31B拿到84.3%,同样把前代远远甩开。

4.2 编程能力:达到人类顶级程序员水平

在LiveCodeBench v6编程测试中,31B版本得分80.0%,Codeforces Elo达到2150——相当于一个紫名选手的水平。

这意味着什么?一个本地运行的AI模型,代码能力已经不输给专业的程序员。

4.3 智能体能力:13倍的指数级跃升

在t2-bench零售智能体工具调用测试中,Gemma 4 31B狂揽86.4%,上一代仅为6.6%,差距大到“没眼看”。原生支持函数调用、结构化JSON输出和系统指令,能够构建与各种工具和API交互的自主智能体。

4.4 长上下文:256K窗口的“大海捞针”

Gemma 4将标准上下文长度从128K直接拉升到256K。为了支撑这一规模的上下文而不导致显存爆炸,谷歌引入了“交替局部滑动窗口注意力”技术。在实际的“大海捞针”测试中,Gemma 4在256K满载状态下的信息检索准确率依然保持在99%以上。

4.5 多模态:真正的原生融合

不同于以往通过外挂视觉编码器实现的“拼接式”多模态,Gemma 4实现了真正的原生多模态融合。所有型号原生支持图文、视频处理,E2B/E4B更搭载音频编码器,支持语音识别与理解。

五、竞争格局:Gemma 4正在改写开源生态的规则

在这里插入图片描述

Gemma 4的发布,让2026年的开源大模型战场更加白热化。

5.1 阿里Qwen 3.5的策略性收紧

据VentureBeat报道,Qwen系列已经开始对最新模型收回完全开放的策略。旗舰模型Qwen 3.5 397B确实很强大,但部分版本的许可证正在收紧——这对依赖Qwen进行商业部署的开发者来说,是一个值得警惕的信号。

5.2 Meta Llama 4的“伪开源”争议

Llama Community License包含几个关键限制:月活超过700万的企业需要单独和Meta签协议,禁止用Llama输出训练竞争模型,许可证可被单方面修改。

OSI执行总监Stefano Maffulli说得直白:公司们假设开放,结果被从未读过的限制条款坑了。

5.3 Apache 2.0:Gemma 4的“差异化武器”

Gemma 4采用Apache 2.0许可证——真正意义上的“开源”。这意味着开发者可以自由修改、打包进商业产品、不必担心收到法务函。

当Qwen开始收紧开放策略、Meta在许可证上摇摆、Anthropic对第三方工具竖起围墙时,谷歌选择用Apache 2.0全面拥抱开源。这不是一次随机的“良心发现”,而是一次精心计算的战略抄底。

六、向量引擎

在探讨“0 token时代”的同时,我也想介绍一个让AI调用更省心的工具——向量引擎

向量引擎是一个API中转站,聚合了500+国内外主流模型(包括Gemini、GPT、Claude、GLM、Llama、Qwen等),核心特点是全平台额度通用——充一次值可以调用所有模型,不需要到处找密钥、不需要单独充值。国内直连,不需要魔法,接口稳定,还有24小时真人售后服务。

如果你想把Gemma 4和其他模型一起用起来,或者想要一个安全、稳定、国内直连的API解决方案,可以看看向量引擎。

官方地址:<[178.nz/jj]

保姆级教程:www.yuque.com/nailao-zvxv…

七、“0 token时代”真的来了吗?

Gemma 4的200万下载是一个信号,但信号的方向还没完全清晰。

7.1 云厂商的定价权还能撑多久?

一个值得追问的细节是:当端侧算力足够跑起31B模型,云厂商的定价权还能撑多久?如果大量日常查询、简单推理、代码生成和图像理解都能在本地运行,那卖token的厂商们可能要重新思考商业模式了。

7.2 “0 token”不等于“零成本”

当然,本地部署也有它的成本——硬件投入、电力消耗、运维维护。但这是一个固定成本 vs 可变成本的差异。云端API是每用一次都要付费的“可变成本”,而本地部署是一次性投入的“固定成本”。

对于高频使用场景,本地部署的性价比是压倒性的。

7.3 云+端的混合模式将是常态

最可能的结果不是“云端被杀死”,而是云+端的混合模式成为新常态。简单任务走本地模型(0 token),复杂任务走云端模型(按需付费),两者结合才是最经济的策略。

Gemma 4的定位恰好踩在这个混合模式的分界点上:它足够强,让许多原本必须上云的任务可以下沉到端侧;它足够开放,让开发者可以根据自己的成本结构自由选择。

八、AI定价权的转移:从API经济到“能力栈”重构

在这里插入图片描述

Gemma 4最深远的影响,可能不是技术层面的“参数效率”,而是经济层面的定价权转移

过去三年,AI行业的商业模式建立在“按token付费”的基础上。每次调用都是云厂商收一次钱。但随着Gemma 4这类端侧模型的能力提升,开发者开始有了选择——我可以在本地跑,不用每次都付钱。

当用户有了选择权,定价权就开始从云厂商向开发者转移。

Gemma 4的31B模型在数学、编程、Agent等核心能力上已经接近甚至超越了部分云端闭源模型。一个开发者完全可以用本地部署的Gemma 4替代一部分GPT-4调用,把月账单从几千美元降到几百美元。

这不是“少用一点”的问题,而是“有没有别的路”的问题。

“0 token时代”不是技术幻想,而是正在发生的经济重构。 当端侧模型的能力跨过了“够用”的临界点,API经济的逻辑就开始动摇。

全文完

如果这篇文章让你对“0 token时代”有了新的认识,或者帮你看清了端侧AI的价值,请点赞、收藏、转发三连。

当AI跑在你的手机上,它的定价权就握在你手里。