大家好,这里是程序员晚枫。
DeepSeek横空出世以后,越来越多的公司想搭建本地知识库。
但是搭建本地知识库的过程中会遇到一个问题:文档输入以后,文档结构消失了,这会影响知识库的准确度。
而这通常是因为,市面上常见的OCR工具有一个通病:只能解析出文档中的文字,不能解析出文档结构。
今天给大家推荐一个开源项目:poel
,不仅可以正确的解析出文档内容,还能解析出文档结构,帮助你正确的搭建本地知识库。
1、下载和安装
这是一个Python开源项目,直接用pip安装就可以了:
pip install poel
为了加快下载速度,国内的小伙伴可以用国内镜像,例如:清华镜像、阿里镜像,之前的文章都给大家推荐过了,这里就不再重复了,感兴趣的朋友可以去翻一翻。
2、代码演示
下载以后,1行代码就可以实现文档的解析:
import poel
poel.easydoc.parse_files(api_key='api_key', file_path=r"test_files",mode='lite')
运行以上代码,返回值就是解析后的文档内容了!
参数说明
- api_key:您的 API 密钥,用于身份验证。
- file_path:待解析文档(支持多文件上传),支持格式:
- .pdf, .txt, .doc, .docx, .ppt, .pptx
- mode:解析模式,可选值:
- lite: 快速解析,提取布局块和文本。
- pro: 深度解析,合并跨页/跨栏块,构建章节层次。
- premium: 高级解析,包含图表和表格深度理解。
3、开启智能知识库之旅
如果您正在搭建本地知识库,或面临文档处理的挑战,不妨亲自体验EasyDoc。
利用其免费试用额度,访问官网注册并探索它为您的知识库带来的变革力量。
在这个信息爆炸的时代,EasyDoc以其卓越的文档解析能力,正在改变我们处理复杂文档和构建本地知识库的方式。它不仅提升了工作效率,更为企业知识管理和内容创作提供了强大的支持。选择EasyDoc,开启您的智能文档解析与知识库搭建之旅,体验AI带来的变革力量。