如何用 Python 拆分 Word 文件：高效分割大型文档的完整指南 “这破文档也太长了吧！” 下午三点，我盯着屏幕

“这破文档也太长了吧！”

下午三点，我盯着屏幕上那个叫“2024年度项目总结_final_v3_真的最终版.docx”的文件，脑子里嗡嗡的。

领导的要求很简单：“把这份文档按章节拆开，每个人只拿自己负责的那部分。”问题是这份文档快200页，光目录就占了两屏。如果手动复制粘贴，一个个新建文档、命名、保存……我算了算，下班前怕是弄不完。

要是能有个按钮，一键按章节拆开就好了。

可惜Word没有。但Python有。

先别急，想想你要怎么拆

拆分文档这件事，听起来简单，做起来其实有好几种玩法。你是想按页数拆？还是按章节拆？又或者每隔10页保存成一个新文件？

不同的需求，用的代码也不一样。

拿我手里这份200页的报告来说，它已经按章节排好版了——第一章、第二章、第三章，每章都从新的一页开始。这种情况下，按“节”拆分最合理，拆出来的每个文件刚好对应一个完整的章节。

如果你手里的文档没有明确的章节结构，那就按页数拆。比如每30页一个文件，或者把第1-10页、第11-20页拆成独立文档。

还有一种情况：你只需要提取某些特定页面，比如第5页、第8页、第12页到第15页。这种按需提取也很常见。

搞清楚自己的需求，才能选对工具。

用python-docx：免费但有限制

Python里操作Word最常用的库是python-docx。它是免费的，用pip install python-docx就能装，上手也快。

但它有个致命问题：不支持按页拆分。

为什么？因为Word文档里的“页”不是固定的。同样的文档，换台打印机、换个字体、改个页边距，页码就可能重新排。python-docx这个库压根不处理分页逻辑，它只管文档里的段落、表格、图片这些内容元素。

所以如果你想按页拆分，python-docx帮不上忙。它只能做更细粒度的操作——比如提取某个段落、修改表格里的数据、批量替换文字内容。

如果你只是想按段落或者按表格来切分文档，python-docx可以胜任。但大多数场景下，我们需要的是按页或按节拆分，这条路走不通。

用Aspose.Words：专业但需付费

真正能打的是Aspose.Words这套库。它把Word文档当成一个完整的对象来处理，分页逻辑、章节结构都能拿到。

按页拆分的代码大概长这样：

import aspose.words as aw

doc = aw.Document("我的长篇文档.docx")
pageCount = doc.page_count

for page in range(0, pageCount):
    extractedPage = doc.extract_pages(page, 1)
    extractedPage.save(f"第{page + 1}页.docx")

这段代码做了几件事：加载文档、统计总页数、逐页提取、每页单独保存。

按节拆分稍微复杂一点，因为要把每个章节完整地搬进新文档：

import aspose.words as aw

doc = aw.Document("按章节拆分的文档.docx")

for i in range(0, doc.sections.count):
    section = doc.sections[i].clone()
    newDoc = aw.Document()
    newDoc.sections.clear()
    newSection = newDoc.import_node(section, True).as_section()
    newDoc.sections.add(newSection)
    newDoc.save(f"第{i+1}章.docx")

这个逻辑是：遍历原文档的所有“节”，每次克隆一个节，新建一个空白文档，把克隆的节塞进去，保存。

代码很简洁，效果也很好。唯一的问题是——Aspose.Words是商业库，需要花钱买授权。虽然可以申请试用版，但正式项目里用盗版有风险。

用GroupDocs.Merger：另一种选择

除了Aspose，还有GroupDocs.Merger这个选项。功能类似，也是商业库，也支持按页、按范围拆分。

代码风格稍微不同：

import groupdocs.merger as gm

with gm.Merger("document.docx") as merger:
    outPath = "第1页.docx"
    splitOptions = gm.domain.options.SplitOptions(outPath, [1])
    merger.split(splitOptions)

这个写法更直观——把拆分选项（输出路径、要提取的页码）直接传给split()方法就行。

GroupDocs也支持按偶数页、奇数页拆分，或者按页码范围拆分。功能覆盖得挺全。

但同样，它也是要付费的。

免费的替代思路：转PDF再拆

如果不想花钱买商业库，还有个变通的办法：把Word先转成PDF，然后用Python的PyPDF2或pypdf库来拆分PDF文件。

PDF的分页是固定的，不会变来变去。所以拆分PDF的技术非常成熟，而且完全免费。

操作流程是：

用Word打开文档，另存为PDF（或者用python-docx配合win32com调用本地的Word程序自动转）
用pypdf读取PDF文件
按页拆分，每页或每几页保存成一个新PDF
如果一定要Word格式，再把PDF转回Word（这一步效果通常不太完美）

这个方法适合个人使用或临时应急。缺点也很明显：多了一步转换，格式可能有轻微变化，而且来回转换挺麻烦的。

根据你的情况选方案

我帮你捋一下：

只想偶尔拆分一两个文档：直接用Word自带的“另存为”功能，手动复制粘贴也不费事。别为了省五分钟折腾半天的代码。
经常需要拆分，但公司没预算：用“Word转PDF再拆分”这条免费路线。多写几行代码，但长期看省时省力。
需要集成到自动化流程里，或者对格式要求极高：掏钱买Aspose.Words或GroupDocs的授权。算一下你的人工成本，如果每个月花几个小时手动拆文档，那几千块的软件授权可能两三个月就回本了。
拆分逻辑很特殊，按段落、按表格、按标题样式来分：用python-docx自己写逻辑。虽然它不支持按页分，但它的灵活性最高，想怎么切就怎么切。

那天下午，我最后用了Aspose.Words的试用版，五分钟拆完了那200页的报告。每个章节一个文件，命名清晰，直接发给了对应的同事。

领导说：“效率不错。”

我没告诉他我用的是代码。

但如果你也想试试这条路，希望这篇文章能帮你省下那一下午手动复制粘贴的时间。选对工具，写几行代码，剩下的让电脑自己去跑。

附：文中代码示例基于各库的官方文档编写，实际使用时请根据你的Python版本和库版本做微调。