Docling安装--python

2 阅读1分钟

前置要求

  • 必须安装 Python 3.10 ~ 3.12(推荐 3.11,兼容性最好)
  • 安装好 pip(Python 自带包管理工具)
  • Windows 建议使用 PowerShell
  • Docling 自带 OCR:
    • ✅ 自动识别图片里的文字
    • ✅ 支持中文、英文、表格
    • ✅ 比 Tesseract 准得多
    • ✅ 不用配置、不用环境

创建python虚拟环境

# 进入放置本次要创的python虚拟环境文件夹(一般放项目根目录里)
cd "......"

# 基于某个python环境 创建python虚拟环境
...\...\python.exe -m venv docling-env

# 激活环境
# Windows
docling-env\Scripts\activate

Windows安装

第一步:检查 Python 环境

  • 打开终端/命令行,输入:
python --version

✅ 出现 Python 3.10.x ~ 3.12.x 即为合格

第二步:安装 Docling(核心命令)

# 完整安装(推荐,支持所有格式:PDF/图片/Excel/PPT 等)
pip install "docling[all]"

第三步:安装模型(自动下载,无需手动操作)

  • 首次运行时,Docling 会自动下载所需模型文件,无需额外操作,等待下载完成即可。
  • 建议挂梯子进行首次运行
# 首次运行案例(需要创一个本地PDF文档)
import docling
from docling.document_converter import DocumentConverter

converter = DocumentConverter()
# 换成你本地的 PDF 路径
result = converter.convert("rag.pdf")

print("状态:", result.status)
print("错误列表:", result.errors)  # 这里会告诉你具体哪里错了

第四步:首次运行后,快速测试(解析一个 PDF)

# 测试案例(也需一个本地PDF文档)

import docling
from docling.document_converter import DocumentConverter

converter = DocumentConverter()
# 换成你本地的 PDF 路径
result = converter.convert("rag.pdf")

doc = result.document
text = doc.export_to_markdown()  # 导出为 Markdown 格式
print(text)
print("状态:", result.status)
print("错误列表:", result.errors)  # 这里会告诉你具体哪里错了