大模型表格识别能力实测：GPT-5.4小模型与小米MiMo正面交锋，表格识别谁翻车了？三款新模型表格识别分化：小米58%

上周，OpenAI 和小米几乎同一天放出了新模型——GPT-5.4 Mini / Nano（3月17日）和 MiMo-V2 系列（3月18日）。我们将其中的三款多模态模型纳入了表格图片识别排行榜。结果？有惊喜，也有「翻车」。以下是排行榜：

评测标准：表格结构与内容须与原图完全一致，任一不符即判错。

下面逐个拆解三款新模型的表格识别表现。

MiMo-V2-Omni 小米

MiMo-V2-Omni 是小米 3 月 18 日发布的全模态基座模型，原生统一处理图像、视频、音频、文本输入，定位为多模态 Agent 的感知底座。此前以代号「Healer Alpha」在 OpenRouter 上连续多天登顶调用量日榜，发布前就引发了圈内广泛讨论。

准确率 58%，排名第 9

首次参评即跻身中游，超过了 gpt-5.3-chat（56%）、ERNIE-5.0（56%）等选手，与 Qwen3.5-122B-A10B、Doubao-Seed-2.0-lite 同处 58% 梯队。对于一个以 Agent 感知为定位的全模态模型来说，算是合格的初登场。

主要短板

多层级表头识别是最大软肋——分不清标题和表头内容，嵌套列结构还原频繁失败。水印干扰下内容识别出错，部分表格的标题内容也出现丢失。总体来看，错误类型与主流大模型高度一致，没有出现独有的「怪异」失败模式。

小结：MiMo-V2-Omni 在音频/视频基准上表现亮眼，但表格还原只拿到 58%。模型的官方定位和基准跑分，并不能直接预测其在具体场景中的表现——这正是独立评测的价值。

gpt-5.4-mini OpenAI

gpt-5.4-Mini 是 OpenAI 3 月 17 日发布的高效小模型，速度是上代 gpt-5 Mini 的 2 倍以上，在 SWE-Bench Pro 等编码基准上接近旗舰 gpt-5.4。OpenAI 将其定位为 Agent 系统中的「子代理」。

准确率 53%，排名第 17

与 Gemini-3-Flash-Preview（53%）、Gemini-3.1-Flash-Lite（53%）齐平，落后旗舰 gpt-5.4（63%）整整 10 个百分点。编码能力接近旗舰是一回事，表格识别完全是另一回事。

主要短板

水印区域特别脆弱——要么内容直接缺失，要么将水印文字识别为表格数据。表头结构识别频繁出错，分不清标题行和表头行的边界。表格内容偶尔出现少字、个别数字识别错误，多层表头结构也时常崩坏。错误类型和大模型基本一致，但发生频率明显更高。

小结：gpt-5.4-Mini 在编码场景接近旗舰，但表格识别差了 10 个百分点。对于需要处理表格图片的工作流，Mini 还不是旗舰的可靠替代品。

gpt-5.4-nano OpenAI

gpt-5.4-Nano 是 gpt-5.4 系列中体积最小、价格最低的版本。OpenAI 明确建议将其用于分类、数据提取、排序等「更简单的支撑性任务」。

准确率 11%，排名第 20（垫底）

近乎全军覆没。在 20 款模型中断层式垫底，与倒数第二的 GLM-4.6V（50%）差距高达 39 个百分点。每 10 张表格图片，它只能正确还原约 1 张。

全方位崩溃

几乎涵盖了我们定义的所有错误类型：表头内容识别错误或直接缺失；相邻单元格内容合并导致数值串行；无法识别表格边界，凭空多出行列；水印区域不仅丢内容，还会把水印文字混入表格数据；标题经常被直接省略，只输出光秃秃的表格主体。

小结：11% 的准确率说明，表格识别完全超出了 Nano 的能力范围。OpenAI 的官方定位也很明确——Nano 是为分类、提取等轻量任务设计的，不应将其用于需要精细视觉理解的表格还原场景。

三款新模型告诉我们什么？

表格识别有「能力门槛」

从 gpt-5.4（63%）→ Mini（53%）→ Nano（11%），表格识别能力随模型规格下降呈断崖式衰退。编码、推理等能力可以在小模型上保持较高水准，但表格识别需要的「视觉精细度 + 结构理解 + 忠实还原」三重能力，小模型目前还扛不住。

官方基准 ≠ 真实场景

gpt-5.4-Mini 在编码场景接近旗舰，MiMo-V2-Omni 在音频/视频基准上领先——但放到表格识别这个具体场景中，差距立刻现形。模型的官方定位和基准跑分，并不能直接预测其在垂直场景中的表现。

三款新模型上线当天即完成适配，通过 NoneLinear 模型超市（https://nonelinear.com/static/models.html）即可一键调用——一套代码、统一接口、零适配成本。

# QUICK START · 表格识别调用示例
## 一套代码，调用任意多模态模型
import base64
from openai import OpenAI

def file_to_base64(file_path):    
    with open(file_path, "rb") as f:        

        return base64.b64encode(f.read()).decode("utf-8")

# 1. 设置 NoneLinear API 密钥与base url
API_KEY = "your-api-key"
BASE_URL = "https://api.nonelinear.com/v1"
client = OpenAI(api_key=API_KEY, base_url=BASE_URL)
# 2. 准备图片数据image_path = "sample_table.jpg"  # 替换为您的待测试图片路径
base64_image = file_to_base64(image_path)
data_url = f"data:image/jpeg;base64,{base64_image}"
response = client.chat.completions.create(    
    model="gpt-5.4",  # 只需更换这里的 ID，即可随意切换多款多模态大模型    
    messages=[{          
        "role": "user",        
        "content": [            
            {"type": "image_url", "image_url": {"url": data_url}},            
            {"type": "text", "text": "请识别图片中的表格内容，并以 HTML 格式输出。"} 
        ],
    }]
)
         
print(response.choices[0].message.content)

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear