上周,多模态大模型领域迎来了一次密集的「新老交替」。不仅 OpenAI 刷新了 GPT 系列,阿里 Qwen 与月之暗面 Kimi 也纷纷上线了最新的模型。
我们将这几款备受瞩目的模型纳入了最新的表格图片识别排行榜。结果大跌眼镜:虽然旗舰模型依旧强势,但在面对「复杂结构 + 水印干扰」这对「职场老冤家」时,不少明星选手纷纷翻车。
以下是最新排行榜:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*评测标准:表格结构与内容须与原图完全一致,任一不符即判错。
下面,我们重点拆解四款「流量型」选手的实测表现:
GPT-5.5 (OpenAI)
- 准确率:85%
作为 OpenAI 阵营的中坚力量,GPT-5.5 的表现本应更进一步,但实测中它却是在几个意想不到的地方「丢了分」。而下面是丢了分的一些案例:
1.水印干扰导致数字识别错误:
(图1左边是原图,右边是模型输出结果,标着红色框框是数字识别错误)
(图2左边是原图,右边是模型输出结果,标着红色框框是数字识别错误)
2.多层级表头导致识别结构的错乱:
(左边是原图,右边是模型输出结果,标着红色框框是表格结构识别错误)
主要短板:水印干扰与结构「间歇性失灵」
尽管它是全球最顶尖的模型之一,但水印依然是它的阿基琉斯之踵——部分测试图中,水印直接导致了后续内容识别的逻辑断裂。
此外,它在识别复杂表格标题时出现了明显的「偷懒」倾向:标题内容部分数值被省略,甚至文字直接缺失。更严重的则是数值错误,在精密的表格还原中,一个数字的错误往往意味着整张表的作废。
小结:GPT-5.5依然稳居第一梯队,但「粗心大意」和「怕水印」的毛病,让它在与 gemini-3.1-pro-preview (89%) 的对比中略逊一筹。作为 OpenAI 阵营的中坚力量,GPT-5.5 的表现本应更进一步,但实测中它却在几个意想不到的地方「丢了分」。
Qwen3.6-35B-A3B (阿里)
- 准确率:82%
阿里通义千问系列一直以优秀的中文理解能力著称,这款 35B 规格的最新模型在表格视觉任务中表现还不错,但还是有一些丢分项,下面是几张识别错误的案例:
1.水印干扰导致表格内容直接识别错误或者内容空白:
(左边是原图,右边是模型输出结果)
(左边是原图,右边是模型输出结果)
2.标题内容直接省略:
(左边是原图,右边是模型输出结果)
主要短板:
- 水印响应两极化:面对水印叠加,Qwen3.6-35B-A3B 要么出现内容识别错误,要么干脆“消极怠工”,识别不出内容直接输出空白。
- 标题与结构失准:表格结构的还原准确度有待加强,特别容易在标题部分“掉链子”,导致文字内容被省略。
小结:对于追求极致还原的专业场景,Qwen3.6-35B-A3B 目前还存在明显的「幻觉」和结构化障碍,其视觉理解的底层鲁棒性仍需打磨。
Kimi-K2.6 (月之暗面)
准确率:81%
以长文本处理闻名的 Kimi,其视觉能力一直备受用户期待。然而,Kimi-K2.6在本次表格专项测试中,却有些「感知迟钝」。而下面是几张识别错误的案例:
1.水印干扰导致识别空白或者是数字内容识别错误:
(左边是原图,右边是模型输出结果,标着红色框框是直接识别生成空白)
(左边是原图,右边是模型输出结果,标着红色框框是数字识别错误的内容)
2.多层级表头结构识别错误:
(左边是原图,右边是模型输出结果,标着红色框框是表格结构生成错误)
主要短板: 水印直接「致盲」
Kimi-K2.6的表现让我们感到意外。在带有水印的测试图面前,它出现了极高频率的「致盲」现象:内容识别不出,直接返回空白。
即便在无水印干扰下,其表格结构的还原也显得不够细腻:标题数值省略、文字漏掉、表格大纲识别错误。81% 的准确率,在此次参评的 27 款模型中仅排在后半段。
小结: 表格识别似乎是 Kimi-K2.6的短板。如果你的工作流中涉及大量带有公司水印的报表识别,目前的 Kimi-K2.6 可能还没准备好。
mimo-v2.5 (小米)
准确率:81%
在本次排行榜中,小米阵营的表现可谓“冰火两重天”。虽然同家族的 MiMo-V2-Omni 以 89% 的高分高居第二,但作为本次重点实测对象之一的 mimo-v2.5,却以 81% 的成绩滑落至第19名。
在面对高难度的“压力测试”时,mimo-v2.5 暴露出了一些经不起推敲的细节短板。以下是几个典型的翻车案例:
1.水印干扰导致数字识别错误:
(左边是原图,右边是模型输出结果,标着红色框框是表格数字识别错误)
2.多层级表头导致识别结构的错乱:
(左边是原图,右边是模型输出结果,标着红色框框是表格结构识别错误)
(左边是原图,右边是模型输出结果,标着红色框框是表格结构识别错误)
3.表格内容文字识别错误:
(左边是原图,右边是模型输出结果,标着红色框框是表格内容文字识别错误)
主要短板: 抗噪能力不足与结构逻辑崩溃
与排在榜首的旗舰模型相比,mimo-v2.5 在局部细节上显得不够稳定。首先是“抗噪性”盲区,覆盖水印区域的文字极易受到干扰,导致直接的识别错误;其次,在面对多层级嵌套的复杂表格时,会出现结构层面的错位与错乱;最后,抛开结构干扰不谈,它在最基础的单元格内容提取上,依然会犯下文字识别错误的低级失误。
小结: 尽管 MiMo 家族有霸榜的实力,但 mimo-v2.5 在水印抗干扰以及基础内容的无损还原上,显然还需要进一步对齐与优化。
此次评测告诉我们什么?
- 水印成了大模型的「视力杀手」:无论是 GPT-5.5 还是 Kimi-K2.6、Qwen3.6-35B-A3B、mimo-v2.5面对覆盖在文字上方的透明水印,其底层的 OCR 与结构化推理能力都会受到剧烈干扰。这说明现有的多模态对齐训练中,抗干扰噪声的权重依然不足。
- 标题内容是“重灾区” :很多模型过于关注表格主体(单元格),却忽略了标题中的关键上下文。数值被删减、文字被省略是目前普遍存在的“偷懒”行为。
- 「结构精细度」正在拉开差距:内容(文字)识别大家都不差,差的是对多层级、嵌套、合并单元格的逻辑理解。排名靠前的MiMo-V2-Omni (89%) 和 gemini-3.1-pro-preview (89%) 明显在视觉拓扑关系的建模上做得更优秀。
- 厂商跑分 ≠ 真实生产力:Qwen3.6-35B-A3B 和 kimi-k2.6 在文本基准上分数极高,但在表格还原这种「硬核」视觉任务中,真实差距一测便知。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear