上周,OpenAI 和小米几乎同一天放出了新模型——GPT-5.4 Mini / Nano(3月17日)和 MiMo-V2 系列(3月18日)。 我们将其中的三款多模态模型纳入了表格图片识别排行榜。结果?有惊喜,也有「翻车」。 以下是排行榜:
- 评测标准:表格结构与内容须与原图完全一致,任一不符即判错。
下面逐个拆解三款新模型的表格识别表现。
MiMo-V2-Omni 小米
MiMo-V2-Omni 是小米 3 月 18 日发布的全模态基座模型,原生统一处理图像、视频、音频、文本输入,定位为多模态 Agent 的感知底座。此前以代号「Healer Alpha」在 OpenRouter 上连续多天登顶调用量日榜,发布前就引发了圈内广泛讨论。
- 准确率 58%,排名第 9
首次参评即跻身中游,超过了 gpt-5.3-chat(56%)、ERNIE-5.0(56%)等选手,与 Qwen3.5-122B-A10B、Doubao-Seed-2.0-lite 同处 58% 梯队。对于一个以 Agent 感知为定位的全模态模型来说,算是合格的初登场。
- 主要短板
多层级表头识别是最大软肋——分不清标题和表头内容,嵌套列结构还原频繁失败。水印干扰下内容识别出错,部分表格的标题内容也出现丢失。总体来看,错误类型与主流大模型高度一致,没有出现独有的「怪异」失败模式。
小结:MiMo-V2-Omni 在音频/视频基准上表现亮眼,但表格还原只拿到 58%。模型的官方定位和基准跑分,并不能直接预测其在具体场景中的表现——这正是独立评测的价值。
gpt-5.4-mini OpenAI
gpt-5.4-Mini 是 OpenAI 3 月 17 日发布的高效小模型,速度是上代 gpt-5 Mini 的 2 倍以上,在 SWE-Bench Pro 等编码基准上接近旗舰 gpt-5.4。OpenAI 将其定位为 Agent 系统中的「子代理」。
- 准确率 53%,排名第 17
与 Gemini-3-Flash-Preview(53%)、Gemini-3.1-Flash-Lite(53%)齐平,落后旗舰 gpt-5.4(63%)整整 10 个百分点。编码能力接近旗舰是一回事,表格识别完全是另一回事。
- 主要短板
水印区域特别脆弱——要么内容直接缺失,要么将水印文字识别为表格数据。表头结构识别频繁出错,分不清标题行和表头行的边界。表格内容偶尔出现少字、个别数字识别错误,多层表头结构也时常崩坏。错误类型和大模型基本一致,但发生频率明显更高。
小结:gpt-5.4-Mini 在编码场景接近旗舰,但表格识别差了 10 个百分点。对于需要处理表格图片的工作流,Mini 还不是旗舰的可靠替代品。
gpt-5.4-nano OpenAI
gpt-5.4-Nano 是 gpt-5.4 系列中体积最小、价格最低的版本。OpenAI 明确建议将其用于分类、数据提取、排序等「更简单的支撑性任务」。
- 准确率 11%,排名第 20(垫底)
近乎全军覆没。在 20 款模型中断层式垫底,与倒数第二的 GLM-4.6V(50%)差距高达 39 个百分点。每 10 张表格图片,它只能正确还原约 1 张。
- 全方位崩溃
几乎涵盖了我们定义的所有错误类型:表头内容识别错误或直接缺失;相邻单元格内容合并导致数值串行;无法识别表格边界,凭空多出行列;水印区域不仅丢内容,还会把水印文字混入表格数据;标题经常被直接省略,只输出光秃秃的表格主体。
小结:11% 的准确率说明,表格识别完全超出了 Nano 的能力范围。OpenAI 的官方定位也很明确——Nano 是为分类、提取等轻量任务设计的,不应将其用于需要精细视觉理解的表格还原场景。
三款新模型告诉我们什么?
表格识别有「能力门槛」
从 gpt-5.4(63%)→ Mini(53%)→ Nano(11%),表格识别能力随模型规格下降呈断崖式衰退。编码、推理等能力可以在小模型上保持较高水准,但表格识别需要的「视觉精细度 + 结构理解 + 忠实还原」三重能力,小模型目前还扛不住。
官方基准 ≠ 真实场景
gpt-5.4-Mini 在编码场景接近旗舰,MiMo-V2-Omni 在音频/视频基准上领先——但放到表格识别这个具体场景中,差距立刻现形。模型的官方定位和基准跑分,并不能直接预测其在垂直场景中的表现。
三款新模型上线当天即完成适配,通过 NoneLinear 模型超市(https://nonelinear.com/static/models.html)即可一键调用——一套代码、统一接口、零适配成本。
# QUICK START · 表格识别调用示例
## 一套代码,调用任意多模态模型
import base64
from openai import OpenAI
def file_to_base64(file_path):
with open(file_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
# 1. 设置 NoneLinear API 密钥与base url
API_KEY = "your-api-key"
BASE_URL = "https://api.nonelinear.com/v1"
client = OpenAI(api_key=API_KEY, base_url=BASE_URL)
# 2. 准备图片数据image_path = "sample_table.jpg" # 替换为您的待测试图片路径
base64_image = file_to_base64(image_path)
data_url = f"data:image/jpeg;base64,{base64_image}"
response = client.chat.completions.create(
model="gpt-5.4", # 只需更换这里的 ID,即可随意切换多款多模态大模型
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": data_url}},
{"type": "text", "text": "请识别图片中的表格内容,并以 HTML 格式输出。"}
],
}]
)
print(response.choices[0].message.content)
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear