“多模态文本智能技术”:让AI真正读懂文档

79 阅读9分钟

1. 前言

  在人工智能领域,“多模态”已成为非常高频的词汇,它代表着AI正从单一的文本处理向融合图像、声音、视频等多种信息形态的综合理解迈进 。然而,如何将多模态的“感知”能力转化为真正可靠、可落地的“认知”与“决策”,仍是业界探索的核心。

  近期,在PRCV 2025(中国模式识别与计算机视觉大会)中 ,合合信息官宣了一个挺有意思的概念——“多模态文本智能技术” ,作为一个长期关注AI技术落地的人,我觉得这个概念背后的思路值得好好聊聊。

2. 重新定义“文本”:不只是文字那么简单

  说到“文本”,大家第一反应可能就是文字。但合合信息这次把“文本”的范围重新定义了一遍,这个思路我觉得挺聪明的。

  他们的核心观点是:无论AI怎么演进(从文字到图像、视频、自然场景),“文本“所承载的结构化语义信息,始终是AI理解世界的核心枢纽。换句话说,文本不仅仅指那些能打出来的字符,而是广泛存在于多种多模态媒介中的信息载体。      这个视角其实挺新颖的。我们平时看一份合同,不光要读文字,还得看签名位置、印章、表格数据;看财报的时候,文字描述得对照着表格数字来验证;医疗报告的结论更是得结合影像资料。这些信息不是孤立存在的,而是需要融合多种数据来源进行综合判断。

3. 从“看见”到“读懂”:立体化理解文档

  传统OCR技术能做什么?识别文字、提取表格、检测版面。但这还不够。合合信息提出的“多模态文本智能技术”要解决的是让机器真正具备“阅读理解”能力,而不仅仅是“看见”文字。这个区别在哪儿呢?

  举个例子,一份合同里的条款效力可能跟签名位置有关系。如果AI只能识别出“甲方签字”这几个字,但不知道这个签字框在合同的哪个位置、跟哪条条款对应,那这个识别就是不完整的。合合信息的技术能够通过文本相关的空间位置来理解深层语义逻辑。这就好比人类读文档时,我们不光看文字内容,还会注意段落结构、标题层级、图表位置等等。

   合合信息提出了大模型加速器 – 通用文档解析 xParse,就是个典型案例。其不仅能识别文档中的各种元素,更重要的是能够理解这些元素之间的关系。比如知道哪些是一级标题、哪些是二级标题,能够保持段落的完整性,而不会把一个完整的段落切得七零八落,能够明白某个表格是在说明上面哪段话的内容,甚至当一张表格跨了两页时,系统能够智能地把它拼接起来。这些能力听起来平平无奇,但实际上对RAG(检索增强生成)应用效果的提升是巨大的。想象一下,如果你的知识库里的文档解析得乱七八糟,大模型怎么可能给你准确答案?

image.png

  在实际应用中,这种立体化理解能力体现在三个维度上。第一是相关性,检索到的片段必须与用户的查询主题匹配,这需要系统能够识别目录层级、理解段落的完整性。第二是完整性,片段要涵盖回答问题所需的全部要素,这就要求系统能够关联表格与标题、合并跨页的元素。第三是可信度,内容本身必须真实准确、可以回溯到权威来源,这意味着系统需要精准识别表格、还原阅读顺序、保留精确的坐标信息。

image.png

4. 从“被动工具”到“主动伙伴”:自主决策能力

  这部分我觉得是最有意思的。传统系统是“被动”的,你告诉它做什么,它就做什么。但合合信息的技术要让系统具备更接近人类判断逻辑的自主决策能力。

  扫描全能王的智能高清滤镜功能就是个很好的例子。这个功能不是简单的“你点一个按钮,它执行一个滤镜”,而是系统能够根据用户意图,自主分析各类图像质量下降的情形,然后动态选择最优的处理路径和算法。光线不足、颜色失真、角度倾斜等十余种图像问题,系统都能自动识别并做出正确的处理决策。

image.png   

  再比如手写擦除功能。这个功能能够精准捕捉手写字迹,一键触发智能擦除,整个过程高效且擦除后不留痕迹,同时还能完美保留原始的色彩信息。对于学科题库的处理,系统适配了多个学科的样本特征,能够精准捕捉各类题目细节,像统计表格、几何图形这些复杂元素都能实现高质量输出。而且他们自研的色彩滤镜能够精准作用于题目图像,在优化呈现效果的同时,无损保留原始色彩信息,让题目色彩真实如初,细节清晰可辨。

image.png

image.png

  摩尔纹去除也是类似的逻辑。当你拍摄屏幕或者某些特殊材质的文档时,经常会出现摩尔纹干扰。传统方法可能需要用户手动调整参数,但现在系统能够自动检测摩尔纹的存在,选择合适的去除算法,并且在去除干扰的同时保持图像的清晰度。这些功能背后都是“识别问题→主动执行相应动作”的逻辑,已经不是传统意义上的工具了,而更像是一个能够理解你需求并主动帮你解决问题的智能助手。

image.png

image.png

5. AI内容安全:被忽视但很重要的战场

  随着AI技术的普及,图像造假的门槛越来越低,相应的鉴伪需求也在爆发式增长。合合信息的FidOK图像智能鉴伪产品就是专门应对这个挑战的。

  这个产品覆盖了三大类伪造检测场景:

  第一类是文本图像伪造检测,能够识别证件、发票、合同等文档的PS痕迹或AI编辑痕迹。这对于金融、保险等需要审核大量证明材料的行业来说特别重要。

  第二类是人脸图像伪造检测,可以检测换脸、deepfake等伪造手段,防范身份冒充带来的风险。

image.png   

  第三类是AIGC图像检测,能够判断图像是否为AI生成,这在新闻图片审查、社交媒体内容管理等场景中很有价值。

image.png

  产品的性能指标也很不错。在检测速度上,单张图像的推理时间只需要毫秒级,在A10显卡上大概是650毫秒每张,同时支持国产化部署。在准确性方面,检测召回率行业领先且误报率极低。部署方式也很灵活,既可以通过公有云API调用,也支持私有化部署,还获得了泰尔实验室的权威认证。

  实际落地效果也验证了技术的可靠性。在银行场景中,有客户的大部分业务都是线上办理,对于翻拍、复印件、PS等欺诈手法原本没有识别能力。通过引入整套的身份证识别、质检和PS检测能力,前端可以实时拦截复印翻拍件、不完整等不合规的身份证图像,后端实时检测是否存在PS篡改,实测伪造样本的拦截率超过90%。在人脸识别场景中,某国有大行通过引入人脸伪造检测和相似背景检测,在APP和小程序进行身份认证时,后台实时对人脸进行伪造检测,同时检测背景是否重复,实测伪造拦截率超过原有系统近8倍。

6. 思考与总结

  看完合合信息在多模态文本智能技术上的布局,我有几点感受想分享一下。

  首先是“文本”概念的拓展很关键。把“文本“从狭义的文字符号拓展到广义的语义信息载体,这个思路打开了很多想象空间。以前我们可能觉得OCR就是识别文字,但现在看来,真正有价值的是理解文本在各种多模态场景中的语义表达。这种认知上的转变,某种程度上重新定义了文本智能这个赛道的边界。

  其次是从工具到伙伴的转变。“被动工具”到“主动伙伴”这个提法我挺认同的。未来的AI应用不应该是“你告诉我做什么我就做什么“,而是“我能理解你的意图,主动选择最佳方案”。这需要AI系统具备问题识别能力、方案选择能力、自主执行能力和结果优化能力。从扫描全能王的智能滤镜到xParse的文档解析,都在朝这个方向努力。当然,这也对AI系统的综合能力提出了更高要求,不仅要“看得懂”,还要“想得明白”、“做得漂亮”。

  第三点是技术落地比概念更重要。说实话,现在搞个新概念不难,难的是真正把技术落地、产生价值。合合信息在这方面做得还不错,C端产品有1.8亿月活,B端服务了3200多家企业客户,在银行、保险、汽车金融等多个行业都有实际的应用案例。这说明他们不是为了搞概念而搞概念,而是有实际的技术积累和应用场景支撑。特别是AI内容安全这个方向,虽然不像大模型那么热门,但确实是刚需,而且随着AI技术的普及,这个需求还会持续增长。

  写到最后:“多模态文本智能技术”这个概念,我觉得抓住了当前AI发展的一个关键点:在多模态大模型时代,如何让AI真正理解各种形式的文本信息,并基于理解做出自主决策。这不是简单的技术堆砌,而是需要在感知、理解、决策三个层面都有深厚的积累。