要将 PDF 文件转换为 Doc 格式,你可以使用 Python 模块,它将让你轻松地将 pdf 转换为 doc 。在本文中,我们将探索使用 Python 将 PDF 文档转换为 Doc 文件。在此,我们使用 pdf2docx 模块,因为它包含内置功能,可以简化转换过程,并且不需要使用在线转换器。
所需模块
在深入研究代码之前,请确保你已在 Python 环境中安装了这些必需的模块。
pip install pdf2docx
使用 Python 将 PDF 转换为文档
pdf2docx 模块使用 PyMuPDF 从 PDF 中提取信息,包括文本、图片和插图。它可以通过调整边距、部分和列来生成新的布局。它提供文本方向、方向和字体属性等功能。Microsoft Word、PDF、RTF、ODT 和 TXT 等文档文件对于学术界、商业、研究和出版等各个领域至关重要。PDF 文件灵活、跨平台兼容,并且可以在多种操作系统上查看。
使用“pdf2docx”库将 PDF 转换为文档
该代码片段使用“pdf2docx”库将 PDF 文件转换为 DOCX 文件,并使用“Converter”函数初始化转换过程。在“cv”对象上调用“convert()”方法,并调用“close()”方法来终止转换。
# 导入所需模块
from pdf2docx import Converter
# 将PDF的位置保存在一个单独的变量中
pdf_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.pdf"
# 在单独的变量中维护文档的路径
docx_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.docx"
# 使用内置函数,通过将PDF文件保存在变量中,将其转换为文档文件。
cv = Converter(pdf_file)
# 将文档存储在变量的初始化路径中
cv.convert(docx_file)
# 通过函数close()转换闭包
cv.close()
输出:
使用文件路径导入 Parse
该代码使用pdf2docx库中的extract函数将PDF文件转换为DOCX文件,将其转换为所需的格式并将其存储在指定位置。
from pdf2docx import parse
pdf_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.pdf"
docx_file = r"C:\Users\DELL\Desktop\INTERNSHIP\DSA GEEEKSFORGEEKS.docx"
# 将pdf转换为docx
parse(pdf_file, docx_file)
输出: