实测对比|法国AI独角兽公司发布的“最强OCR”,实测效果如何?

79 阅读2分钟

3月上旬,法国一家AI独角兽公司进军OCR(光学字符识别)领域,发布了一个号称“全世界最好的OCR”产品,根据其技术团队的说明,这款OCR产品具备优秀的准确度和认知能力,能够理解文档的每个元素(包括文本、表格、公式等),从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样,这款产品(下文中简称为“A产品”)旨在对AI难以直接识别的复杂文档进行解析处理,提升类似RAG等文档场景下的AI应用性能。

产品文档中介绍了它的几项优势:

◾ 对复杂文档实现SOTA理解:擅长理解复杂的文档元素,包括交错图像、数学表达式、表格和LaTeX格式等高级布局。该模型可以更深入地理解丰富的文件,如带有图表、图形、公式和数字的科学论文。

◾ 基准测试成绩第一:在严格的基准测试中始终优于其他领先的 OCR 模型,其在文档分析的多个方面都表现出色。

◾ 支持原生多语言:能够解析、理解和转录各大洲的数千种脚本、字体和语言,便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。

A产品发布后,全球众多开发团队进行了试用并发布他们的评价。在多元化的使用场景下,A产品获得的评价也各有不同。如下图中的推文表示,在中文样本测试中,A产品的表现没有显著优势。也有AI团队认为,A产品超越了一些前沿LLM的OCR性能,但尚未完全为企业使用做好准备。

 

在实际生产环境中,A产品表现是否出色?它的中文文件处理性能与国内产品相较如何?

面对这些问题,TextIn测试团队进行了一次针对性测试,基于丰富的真实样本,全方面评测OCR产品能力。