谷歌Gemma 4实测谷歌发布Gemma 4开源模型，31B版中文评测准确率52.5%，较上代提升13.5%。法律、推理

谷歌正式发布了Gemma 4系列开源模型，这是继Gemini 3系列之后，谷歌在开源模型领域的又一次重要布局。官方将Gemma 4定位为”同等参数规模下最强的开源模型”，强调其在高级推理和智能体工作流方面的突破性能力。Gemma 4共发布了四个尺寸版本，本次评测的gemma-4-31b-it是其中参数量最大的Dense版本，拥有310亿参数，原生视觉理解、140+语言以及原生函数调用能力。

需要说明的是，本次评测侧重中文场景下的综合能力考察。Gemma 4作为一款面向开发者的开源工具型模型，其核心优势在于本地部署的推理效率、原生Agent工作流支持以及跨模态处理能力。在官方公布的Arena AI排行榜上，Gemma 4 31B位列全球开源模型第3名，展现出远超其参数规模的竞争力。以下数据更多反映的是该模型在中文文本理解与逻辑层面的表现，而非其完整实力。

gemma-4-31b-it版本表现：

测试题数：约1.5万
总分（准确率）：52.5%
平均耗时（每次调用）：82s
平均token（每次调用消耗的token）：687
平均花费（每千次调用的人民币花费）：1.4

1、新旧对决：全维度的代际跃升

对比上一代版本（gemma-3-27b-it），gemma-4-31b-it在几乎所有维度上都实现了显著提升，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能显著提升：新版本准确率从39.0%提升至52.5%，提升了13.5个百分点，排名从第146位升至第123位。对于一款310亿参数的开源模型而言，这一提升幅度相当可观。
法律与行政公务领域提升最为突出：从39.7%大幅提升至65.7%（+26.0%），这一维度的进步幅度在所有领域中最为显著，表明新模型在法规条文理解和行政事务处理方面的中文能力有了质的改善。
推理与数学计算能力稳步增强：从43.4%提升至62.3%（+18.9%），这与官方强调的”高级推理能力”定位相呼应，逻辑推理能力的提升较为扎实。
Agent与工具调用翻倍增长：从17.6%提升至32.7%（+15.1%），虽然绝对值仍处于较低水平，但增幅接近翻倍，反映了Gemma 4在原生函数调用架构上的改进。
教育领域进步明显：从29.6%提升至38.2%（+8.6%），虽然整体水平尚待提升，但进步幅度较为可观。
语言与指令遵从提升幅度相对有限：从49.1%提升至57.3%（+8.2%），在所有维度中属于提升幅度较小的领域，中文指令的精准理解仍是该模型需要持续优化的方向。
医疗与金融领域同步提升：“医疗与心理健康”从50.6%提升至58.3%（+7.7%）；“金融”从56.4%提升至63.6%（+7.2%），两个领域均有稳步改善。
Token消耗与成本：gemma-4-31b-it的平均Token消耗为687，输出价格为2.8元/百万token，每千次调用花费仅1.4元，极低的Token消耗量使得实际调用成本维持在极低水平。

2、横向对比

在当前主流大模型竞争格局中，gemma-4-31b-it作为一款开源模型，聚焦于本地部署、边缘推理等对模型体积有严格要求的场景。我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

极低成本区间的有力选手：gemma-4-31b-it每千次调用花费仅1.4元，处于整个榜单的低成本区间。在低成本档位中，与Doubao-Seed-2.0-lite（73.9%，5.4元）相比，虽然准确率差距明显（52.5% vs 73.9%），但花费仅为后者的约四分之一。
与同为低成本的gpt-oss-120b（59.1%，2.9元）相比，gemma-4-31b-it在准确率上存在6.6个百分点的差距，但花费不到其一半。
与gpt-oss-20b（54.1%，2.1元）相比，gemma-4-31b-it以更低的花费（1.4元 vs 2.1元）实现了接近的准确率（52.5% vs 54.1%），两者表现基本持平。
对于对成本极度敏感、同时需要本地部署的场景，gemma-4-31b-it提供了一个参数规模适中、花费极低的选择。

新旧模型对比

代际进步幅度突出：从gemma-3-27b-it的39.0%到gemma-4-31b-it的52.5%，13.5个百分点的提升在同尺寸开源模型的迭代中属于较大幅度。这表明谷歌在Gemma系列的底层架构和训练数据上进行了深度优化。
与谷歌自家旗舰模型的差距：同为谷歌出品，gemini-3.1-pro-preview（74.8%，250.5元）和gemini-3-pro-preview（72.5%，247.3元）的准确率远高于gemma-4-31b-it，但两者定位完全不同——Gemini是闭源商用旗舰，Gemma是开源轻量，直接对比准确率意义有限。
在同为谷歌系的轻量模型中，gemini-3-flash-preview（71.5%，53.5元）和gemini-2.5-flash（60.8%，43.2元）均在准确率上领先gemma-4-31b-it，但花费也分别高出数十倍。gemma-4-31b-it的核心价值在于其可本地部署的特性，这是云端API模型无法替代的。

开源VS闭源对比

开源小模型的定位差异：在开源阵营中，gemma-4-31b-it的52.5%准确率与头部开源模型存在较大差距。qwen3.5-plus（74.6%）、Qwen3.5-27B（72.4%）、GLM-4.7（71.5%）等开源模型的准确率均大幅领先。
同为小参数开源模型的对比：与参数规模更接近的gemma-4-26b-a4b-it（50.3%，排名130）相比，gemma-4-31b-it以31B Dense架构在准确率上领先了2.2个百分点，验证了Dense架构在质量上的优势。而26B MoE版本的优势则在于推理速度更快，两者形成了互补。
在相近参数量级的竞争中，gpt-5.4-nano-high（62.0%，13.2元）和gpt-5-nano-high（56.9%，19.3元）虽然准确率更高，但花费也高出数倍甚至十倍以上，且均为闭源商用模型。Gemma 4 31B的开源属性和Apache 2.0许可证赋予了开发者自主权，这是闭源模型无法提供的。

3、官方评测

谷歌官方将Gemma 4定位为”同等参数规模下最强的开源模型”，强调其在推理、Agent工作流和代码生成等方面的能力。以下是官方公布的关键评测数据：

Gemma 4在Arena AI文本排行榜上表现亮眼，31B模型位列全球开源模型第3名，26B MoE模型位列第6名。官方特别指出，Gemma 4在该排行榜上超越了参数量达其20倍的模型（截至 4 月 1 日）。

在官方公布的综合基准测试中，Gemma 4 31B和26B MoE模型在多个维度上进行了横向对比：

Gemma 4的核心能力特性包括：

高级推理能力：支持多步规划和深度逻辑推理，在数学和指令遵从基准测试中表现优异。
原生Agent工作流：原生支持函数调用、结构化JSON输出和系统指令，可构建能与不同工具和API交互并可靠执行工作流的自主Agent。
代码生成：支持高质量的离线代码生成，可将工作站变成本地优先的AI代码助手。
视觉与音频：所有模型原生处理视频和图像，支持可变分辨率，擅长OCR和图表理解等视觉任务。E2B和E4B版本还支持原生音频输入。
长上下文窗口：边缘模型支持128K上下文窗口，大尺寸模型支持最高256K。
多语言支持：原生训练支持140+种语言。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear