Google 开源旗舰 Gemma 4 家族在各大榜单上声势浩大,Arena AI 排名直逼闭源巨头。但当 gemma-4-26b-a4b-it和 gemma-4-31b-it两款模型走进我们的表格识别评测场——一个 39%,一个 32%,双双跌入榜单下半区。开源新贵遇上结构化识别,成色几何?
以下为最新完整排名表:
- 评测标准:表格结构与内容须与原图完全一致,任一不符即判错。
gemma-4-26b-a4b-itGoogle
Gemma 4 是 Google DeepMind 于 2026 年 4 月发布的最新开源模型家族,基于与 Gemini 3 相同的技术底座,采用 Apache 2.0 开源协议。gemma-4-26b-a4b-it 是其中的 MoE(混合专家)版本,总参数 26B 但仅激活约 4B 参数。官方定位:以极低的推理资源消耗实现前沿级能力,擅长推理、编码和 Agent 工作流。
- 准确率:39%
落后于所有闭源旗舰,与同门 gemini-3-flash-preview(53%)差距达 14 个百分点。同为中型模型,qwen3.5-27B(56%)高出 17 个百分点。
以下测试的badcase案例,每张图片左边是表格的原始图,右边是大模型生成的HTML:
主要短板:
- 水印干扰严重:水印覆盖区域直接导致内容误识别或漏识别
- 表头结构混乱:分不清表头和标题,容易多生成符号、网址等冗余内容
- 多层表头失败:复杂合并单元格结构无法正确还原
- 内容错乱:表格结构错乱或凭空生成原表不存在的内容
- 细节错误:个别文字、数字错误,小数点被生成为逗号
- 多表格漏识别:原图含两个表格时直接丢失一个
小结:Arena AI 第 6 的开源 MoE 之星,在表格识别中却几乎垫底——MoE 架构的稀疏激活在结构化感知上代价明显,4B 的激活参数量不足以支撑复杂表格的精细还原。
gemma-4-31b-itGoogle
gemma-4-31b-it是 Gemma 4 家族中的 Dense模型,gemma-4-31b-it 参数全量激活,支持 256K 上下文窗口,在 AIME 2026 数学基准上从 Gemma 3 的 20.8% 飙升至 89.2%,编码和科学推理同样大幅跃升。官方称其为「同尺寸最强开源模型」。
- 准确率:32%
仅领先 gpt-5.4-nano(11%),反而比 MoE 版的 gemma-4-26b-a4b-it(39%)还低 7 个百分点。同为开源第一梯队的 gemma-4-31b-it 密集模型,表格识别却倒数第二。
以下测试的badcase案例,每张图片左边是表格的原始图,右边是大模型生成的HTML:
主要短板:
- 内容识别错误频发:文字和数值识别准确度差,错误率高
- 表格结构识别错乱:行列对应关系还原失败
- 表头缺失或错误:表头内容识别不出、部分缺失或内容错误
- 水印干扰:同样受水印影响导致内容错误
- 标题处理不佳:省略标题内容,或标题个别文字识别错误
小结: 数学推理暴涨 4 倍的Dense开源模型,表格识别却不如自家 MoE 小弟——参数量并非万能,表格这种需要精细视觉-结构对齐的任务,对模型的多模态感知能力提出了完全不同的要求。
核心发现
1. 反直觉:Dense 不如 MoE:按常理,gemma-4-31b-it 全密集激活应优于 gemma-4-26b-a4b-it 仅 4B 活跃参数的 MoE 版本。但实际上 gemma-4-31b-it(32%)反而低于 gemma-4-26b-a4b-it(39%),说明 Gemma 4 的 Dense 变体在多模态结构化任务上存在额外短板。
2. Google 系全线偏弱:Google 目前 4 款模型上榜——gemini-3.1-pro-preview(63%)和 gemini-3-flash-preview(53%)表现尚可,而两款开源 Gemma 4 均低于 40%。闭源 Gemini 与开源 Gemma 在表格识别上差距巨大,印证了「开源和闭源在多模态精细任务上仍有代差」。当前排行榜榜首仍由阿里 qwen3.5-plus 以 66% 领跑。
─── NONELINEAR 模型超市 ───
2 款新模型上线当天即完成适配,通过 NoneLinear 模型超市(nonelinear.com/static/mode… —— 一套代码、统一接口、零适配成本。
# pip install openai
import base64, openai
def file_to_base64(path):
with open(path, "rb") as f:
return base64.b64encode(f.read()).decode()
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.nonelinear.com/v1"
)
resp = client.chat.completions.create(
model="gemma-4-26b-a4b-it",
messages=[{
"role": "user",
"content": [
{"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{file_to_base64('table.png')}"}}, {"type": "text",
"text": "请将图片中的表格转为 HTML 格式"}
]
}]
)
print(resp.choices[0].message.content)
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear