大模型表格识别能力实测:Gemma 4排名倒数,开源之王也有软肋

0 阅读5分钟

Google 开源旗舰 Gemma 4 家族在各大榜单上声势浩大,Arena AI 排名直逼闭源巨头。但当 gemma-4-26b-a4b-itgemma-4-31b-it两款模型走进我们的表格识别评测场——一个 39%,一个 32%,双双跌入榜单下半区。开源新贵遇上结构化识别,成色几何?

以下为最新完整排名表:

  • 评测标准:表格结构与内容须与原图完全一致,任一不符即判错。

gemma-4-26b-a4b-itGoogle

Gemma 4 是 Google DeepMind 于 2026 年 4 月发布的最新开源模型家族,基于与 Gemini 3 相同的技术底座,采用 Apache 2.0 开源协议。gemma-4-26b-a4b-it 是其中的 MoE(混合专家)版本,总参数 26B 但仅激活约 4B 参数。官方定位:以极低的推理资源消耗实现前沿级能力,擅长推理、编码和 Agent 工作流。

  • 准确率:39%

落后于所有闭源旗舰,与同门 gemini-3-flash-preview(53%)差距达 14 个百分点。同为中型模型,qwen3.5-27B(56%)高出 17 个百分点。

以下测试的badcase案例,每张图片左边是表格的原始图,右边是大模型生成的HTML:

主要短板:

  • 水印干扰严重:水印覆盖区域直接导致内容误识别或漏识别
  • 表头结构混乱:分不清表头和标题,容易多生成符号、网址等冗余内容
  • 多层表头失败:复杂合并单元格结构无法正确还原
  • 内容错乱:表格结构错乱或凭空生成原表不存在的内容
  • 细节错误:个别文字、数字错误,小数点被生成为逗号
  • 多表格漏识别:原图含两个表格时直接丢失一个

小结:Arena AI 第 6 的开源 MoE 之星,在表格识别中却几乎垫底——MoE 架构的稀疏激活在结构化感知上代价明显,4B 的激活参数量不足以支撑复杂表格的精细还原。

gemma-4-31b-itGoogle

gemma-4-31b-it是 Gemma 4 家族中的 Dense模型,gemma-4-31b-it 参数全量激活,支持 256K 上下文窗口,在 AIME 2026 数学基准上从 Gemma 3 的 20.8% 飙升至 89.2%,编码和科学推理同样大幅跃升。官方称其为「同尺寸最强开源模型」。

  • 准确率:32%

仅领先 gpt-5.4-nano(11%),反而比 MoE 版的 gemma-4-26b-a4b-it(39%)还低 7 个百分点。同为开源第一梯队的 gemma-4-31b-it 密集模型,表格识别却倒数第二。

以下测试的badcase案例,每张图片左边是表格的原始图,右边是大模型生成的HTML:

主要短板

  • 内容识别错误频发:文字和数值识别准确度差,错误率高
  • 表格结构识别错乱:行列对应关系还原失败
  • 表头缺失或错误:表头内容识别不出、部分缺失或内容错误
  • 水印干扰:同样受水印影响导致内容错误
  • 标题处理不佳:省略标题内容,或标题个别文字识别错误

小结: 数学推理暴涨 4 倍的Dense开源模型,表格识别却不如自家 MoE 小弟——参数量并非万能,表格这种需要精细视觉-结构对齐的任务,对模型的多模态感知能力提出了完全不同的要求。

核心发现

1. 反直觉Dense 不如 MoE:按常理,gemma-4-31b-it 全密集激活应优于 gemma-4-26b-a4b-it 仅 4B 活跃参数的 MoE 版本。但实际上 gemma-4-31b-it(32%)反而低于 gemma-4-26b-a4b-it(39%),说明 Gemma 4 的 Dense 变体在多模态结构化任务上存在额外短板。

2. Google 系全线偏弱:Google 目前 4 款模型上榜——gemini-3.1-pro-preview(63%)和 gemini-3-flash-preview(53%)表现尚可,而两款开源 Gemma 4 均低于 40%。闭源 Gemini 与开源 Gemma 在表格识别上差距巨大,印证了「开源和闭源在多模态精细任务上仍有代差」。当前排行榜榜首仍由阿里 qwen3.5-plus 以 66% 领跑。

─── NONELINEAR 模型超市 ───

2 款新模型上线当天即完成适配,通过 NoneLinear 模型超市(nonelinear.com/static/mode… —— 一套代码、统一接口、零适配成本。

# pip install openai
import base64, openai
def file_to_base64(path):   
   with open(path, "rb") as f:       
       return base64.b64encode(f.read()).decode()
client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.nonelinear.com/v1"
)
resp = client.chat.completions.create(
    model="gemma-4-26b-a4b-it",
    messages=[{ 
        "role""user",
        "content": [ 
            {"type""image_url",
            "image_url": {"url": f"data:image/png;base64,{file_to_base64('table.png')}"}},              {"type""text",
             "text""请将图片中的表格转为 HTML 格式"}
        ]
    }]
)
print(resp.choices[0].message.content)

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear