Python 操作 Word 转换 PDF

1,223 阅读5分钟

这是我参与8月更文挑战的第30天,活动详情查看:8月更文挑战

在工作中 Word 文档通常不是最终版本,在发给甲方或者其他同事时,我们还需要把 Word 文档转换为 PDF 格式文件。那为什么需要转换 PDF,直接发 Word 文档又有什么问题?

其实直接发 Word 文档问题还是挺大的,可以大致总结以下几点:

  1. 由于每个人使用的软件或版本都不统一,可能你使用的是微软的 Office2007,而他使用的是金山 WPS,这样有可能你本地样式已经好好的 Word 文档,在别人电脑上就出现了乱码;
  2. PDF 可以直接预览,目前主流浏览器都已经支持;
  3. PDF 文件无法修改,保证了信息安全。

了解了转换 PDF 格式文件的作用之后,接下来这一篇中,将介绍 Python 第三方模块 pywin32 实现 Word 文档转换为 PDF 格式文件。

pywin32 模块介绍

在 Windows 上如需使用 Python 编写脚本,很多时候都需要用到 Windows API,但 Python 是没有自带访问 Windows 系统 API 的标准库,所以这时可以使用第三方库 pywin32 来解决,pywin32 模块中直接包装了几乎所有的 Windows API,让开发者可以很方便的调用。

使用 python win32 库实现 Word 转换 PDF,实际上是调用 Word 底层 vba,利用 Word 导出方法完成 PDF 转换,文档地址

安装

pywin32 是 Python 的第三方库,使用前需要通过以下命令进行安装:

pip install pywin32

代码块
1

使用步骤

步骤 1:导入 pywin32 下所需模块

from win32com.client import constants,gencache

代码块
1

步骤 2:启动一个新的 Word 进程

word=gencache.EnsureDispatch('Word.Application')

代码块
1

步骤 3:读取要转换的 Word 文档

doc=word.Documents.Open(wordPath,ReadOnly=1)

代码块
1

步骤 4:转换 PDF 格式文件

doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)

代码块
1

ExportAsFixedFormat () 方法可以将文档保存为 PDF 或 XPS 格式,第一个参数指定新的 PDF 或 XPS 文件的路径和文件名,第二个参数是一个枚举值(取值包括:wdExportFormatPDF 和 wdExportFormatXPS)用于指定转换的格式,上述代码中要将文档转换为 PDF 在设置时设置为 constants.wdExportFormatPDF。

Word 文档转换 PDF

接下来,通过 pywin32 模块分别实现单个 Word 文档的转换和多个 Word 文档的转换。

单个文件转换

根据 pywin32 模块的使用步骤,封装转换方法 createpdf 方法,代码如下:

def createpdf(wordPath,pdfPath):
    word=gencache.EnsureDispatch('Word.Application')
    doc=word.Documents.Open(wordPath,ReadOnly=1)
    #转换方法
     doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)

代码块
12345

代码解释:EnsureDispatch () 方法为启动一个新的 Word 进程,通过启动的 Word 进程读取传入指定的 Word 文档,打开 Word 文档后,通过 ExportAsFixedFormat () 方法进行导出 PDF,第一个参数为指定的 PDF 文件存储路径,第二个参数为指定导出文件的类型,除 PDF 外,还可以传入 XPS 格式。执行完成后,生成了 “info.pdf” 格式文件,效果如下图所示:

图片描述

多个文件转换

完成单个 Word 文档转换之后,日常工作中有时会涉及到批量 Word 文 档的转换,这时可以在单个 Word 文档转换代码的基础上进行完善,修改后代码如下:

from win32com.client import constants,gencache
import os

def createpdf(wordPath,pdfPath):
    word=gencache.EnsureDispatch('Word.Application')
    doc=word.Documents.Open(wordPath,ReadOnly=1)
    #转换方法
    doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)
  
#多个文件的转换
print(os.listdir('.')) #当前文件夹下的所有文件
wordfiles=[]
for file in os.listdir('.'):
    if file.endswith(('.doc','.docx')):
        wordfiles.append(file)

for file in wordfiles:
    filepath=os.path.abspath(file)
    index=filepath.rindex('.')
    # 拼接文件名及.pdf后缀
    pdfpath=filepath[:index]+'.pdf'
    createpdf(filepath,pdfpath) 

代码块
12345678910111213141516171819202122

代码解释:通过 Python 中内置的 os 模块,读取指定目录获取所有的 Word 文档,保存在 wordfiles 中。通过 for…in 循环 wordfiles,在循环中,首先根据 abspath () 方法得到文档的绝对路径,将文档名称拼接.pdf 作为 PDF 文件的新名称。调用封装好的 createpdf () 方法将文档路径和 PDF 文件路径传入,进行文件转换。执行完成后,在指定目录就批量生成 PDF 格式文件。

pywin32 模块拓展

前面提到 pywin32 模块中直接包装了几乎所有的 Windows API,除了前面小节介绍的转换 PDF 外,还可以进行如下操作,一起来体验下吧!

弹出 MessageBox 消息框

使用 pywin32 实现系统消息框的弹出,代码如下:

import win32api
import win32con
win32api.MessageBox(0, "Hello Python", "消息框标题", win32con.MB_OK)

代码块
123

代码解释:MessageBox () 方法弹出消息框,第一个参数标识要创建的消息框的所有者窗口,第二个参数指向要显示的消息,第三个参数表示对话框标题,第四个参数指定一组位标志来确定对话框的内容和行为,取值范围如下:

  • MB_ABORTRETRYIGNORE:消息框包含三个按钮:中止,重试和忽略;
  • MB_OK:消息框包含一个按钮:OK。这是默认值;
  • MB_OKCANCEL:消息框包含两个按钮:确定和取消;
  • MB_RETRYCANCEL:消息框包含两个按钮:重试和取消;
  • MB_YESNO:消息框包含两个按钮:是和否;
  • MB_YESNOCANCEL:消息框包含三个按钮:是,否和取消。

执行完成后,弹出消息框效果如下图所示:

图片描述

模拟键盘操作

使用 pywin32 模拟按下键盘的回车键(Enter),代码如下:

import win32api,win32con
win32api.keybd_event(13,0,win32con.KEYEVENTF_EXTENDEDKEY)

代码块
12

代码解释:keybd_event () 方法为触发键盘事件,第一个参数为虚拟键码(13 表示回车键),第二个参数为硬件扫描码,一般设置为 0 即可,第三个参数表示操作的标志位,如果值为 KEYEVENTF_EXTENDEDKEY 则该键被按下,值为 KEYEVENTF_KEYUP 则该按键被释放。