1行代码搭建知识库,我发现了一个部署本地大模型的神器

0 阅读2分钟

大家好,这里是程序员晚枫。

DeepSeek横空出世以后,越来越多的公司想搭建本地知识库。

但是搭建本地知识库的过程中会遇到一个问题:文档输入以后,文档结构消失了,这会影响知识库的准确度。

而这通常是因为,市面上常见的OCR工具有一个通病:只能解析出文档中的文字,不能解析出文档结构。

今天给大家推荐一个开源项目:poel,不仅可以正确的解析出文档内容,还能解析出文档结构,帮助你正确的搭建本地知识库。

image.png

1、下载和安装

这是一个Python开源项目,直接用pip安装就可以了:

pip install poel

为了加快下载速度,国内的小伙伴可以用国内镜像,例如:清华镜像、阿里镜像,之前的文章都给大家推荐过了,这里就不再重复了,感兴趣的朋友可以去翻一翻。

image.png

2、代码演示

下载以后,1行代码就可以实现文档的解析:

import poel

poel.easydoc.parse_files(api_key='api_key', file_path=r"test_files",mode='lite')

运行以上代码,返回值就是解析后的文档内容了!

参数说明

  • api_key:您的 API 密钥,用于身份验证。
  • file_path:待解析文档(支持多文件上传),支持格式:
    • .pdf, .txt, .doc, .docx, .ppt, .pptx
  • mode:解析模式,可选值:
    • lite: 快速解析,提取布局块和文本。
    • pro: 深度解析,合并跨页/跨栏块,构建章节层次。
    • premium: 高级解析,包含图表和表格深度理解。

image.png

3、开启智能知识库之旅

如果您正在搭建本地知识库,或面临文档处理的挑战,不妨亲自体验EasyDoc。

利用其免费试用额度,访问官网注册并探索它为您的知识库带来的变革力量。

在这个信息爆炸的时代,EasyDoc以其卓越的文档解析能力,正在改变我们处理复杂文档和构建本地知识库的方式。它不仅提升了工作效率,更为企业知识管理和内容创作提供了强大的支持。选择EasyDoc,开启您的智能文档解析与知识库搭建之旅,体验AI带来的变革力量。