想要对word文档进行结构化(word包含复杂表格、图片)

48 阅读1分钟

思路是想要知道word都有什么内容,这些内容在哪里,结构化的时候提高数据的准确度。

思路一: word给AI----AI给出大纲和位置(超token) 思路二: 程序处理,具体内容的位置不准确(word页码和位置没有办法锁定) 思路三:预处理提取图片和表格,将word剩余文本,但是转换为html的过程很漫长,提取的表格也很混乱,根据保留不了表格的原有格式(保留原格式是为了将内容给视觉模型,让视觉模型去提取里面内容),剩余的word都是文本,将文本将文内容给模型。模型输出结构化的数据存储在数据库,将结构化数据存储在向量化数据库中,根据关键词搜索向量化数据库结构化的json数据是什么与数据库字段做匹配。