Python 操作 SmartArt:从基础到进阶

0 阅读7分钟

一个让人抓狂的周五下午

假设现在是周五下午四点半,领导丢给你一个任务:把二十个部门的组织结构图从 Word 表格转换成 PPT 里的 SmartArt,还要统一配色。距离下班只剩一个小时。

你看着手里的二十份文档,再看看那个点点点的 PPT 界面,突然想起了 Python。

Python 能读写 Excel、能处理 Word,那它能操作 PPT 里的 SmartArt 吗?答案是:能,但有点绕。

这篇文章会带你搞清楚 Python 处理 SmartArt 的各种姿势。不保证你能在一个小时内搞定那二十个部门——但至少,你会知道该往哪个方向使劲。

先聊聊 SmartArt 到底是什么

在写代码之前,值得花两分钟搞清楚 SmartArt 的本质。它不是你随手画出来的几个方框和箭头。

SmartArt 是微软在 Office 2007 里推出的一套“智能图表”系统。你选一个模板(比如“流程”或者“组织结构图”),往里填文字,它会自动帮你排布形状、对齐线条、分配颜色。背后的技术叫 DrawingML,是 Office Open XML 标准的一部分。

一个 SmartArt 图形在文件里由四部分构成:数据模型(记录文字内容和层级关系)、布局定义(决定形状怎么排列)、样式定义(决定颜色方案)、以及颜色定义。当你修改一个节点的文字或者改变整个图表的配色,Python 代码操作的就是这些 XML 部件。

理解这一点很重要。因为这解释了为什么有些库能读 SmartArt 的文字,却很难修改它的样式——它们只解析了数据模型那一部分。

Python 生态里有哪些选择

市面上能操作 PPT 的 Python 库,主流的就那几个。

python-pptx 是最常用的免费库。安装简单,pip install python-pptx 就能用,基本的增删改查都支持。但官方文档明确写着:SmartArt 支持还没做。这意味着你不能用这个库创建新的 SmartArt,也改不了现有的。最多只能判断一个形状是不是 SmartArt,然后像普通形状那样读取它的位置和名称。

Aspose.Slides 是另一个选择。这是个商业库,功能完整得多。创建 SmartArt、添加节点、修改样式、读写层级关系,全都能做。代价是需要付费,不过可以申请临时许可证来测试。

还有一个冷门方案:直接操作 XML。既然 PPTX 文件本质上是个 ZIP 压缩包,你可以解压它,用 lxml 库去解析里面的 XML 文件。自由度最高,但也最麻烦——你得自己研究 ECMA-376 标准文档。

用 python-pptx 能做到什么程度

先看看免费方案的天花板。

from pptx import Presentation

prs = Presentation('组织结构图.pptx')
slide = prs.slides[0]

for shape in slide.shapes:
    # 判断是不是 SmartArt
    if shape.has_smart_art:
        print(f'找到一个 SmartArt: {shape.name}')
        print(f'位置: ({shape.left}{shape.top})')
        print(f'尺寸: {shape.width} x {shape.height}')

这段代码能识别出 SmartArt,告诉你它在哪里、有多大。但再往下走就不行了——你不能用 shape.text 去读里面的文字,也访问不到每个节点的内容。

有个取巧的办法:通过 _graphicFrame 属性拿到底层的 XML 对象,然后自己解析。

if shape.has_smart_art:
    xml_content = shape._graphicFrame.xml
    print(xml_content)  # 看看原始 XML 长什么样

输出会是一大段 XML,里面藏着所有节点的文字和层级。你可以用正则或者 XPath 去提取。这不是优雅的解决方案,但在没有其他选择的时候,它能救命。

Aspose.Slides 的正确打开方式

如果决定用 Aspose.Slides,第一步是安装:

pip install aspose.slides

创建一个 SmartArt 很简单:

import aspose.slides as slides

with slides.Presentation() as presentation:
    slide = presentation.slides[0]
    
    # 在 (10, 10) 位置创建 200x200 的 SmartArt
    smart_art = slide.shapes.add_smart_art(
        1010200200, 
        slides.smartart.SmartArtLayoutType.RADIAL_CYCLE
    )
    
    presentation.save('output.pptx', slides.export.SaveFormat.PPTX)

SmartArtLayoutType 这个枚举提供了几十种预设布局,基本覆盖了 PPT 界面里能见到的所有类型。

读写节点内容才是真正干活的部分:

# 遍历所有节点
for node in smart_art.all_nodes:
    print(f'节点文字: {node.text_frame.text}')
    print(f'层级: {node.level}')
    print(f'位置: {node.position}')
    
    # 遍历子节点
    for child in node.child_nodes:
        print(f'  子节点: {child.text_frame.text}')

# 添加新节点
root_node = smart_art.all_nodes[0]
new_node = root_node.child_nodes.add_node()
new_node.text_frame.text = '新部门'

这段代码展示了如何读取每个节点的文字和层级,以及如何在现有节点下挂载新节点。对于自动生成组织结构图的场景来说,这就够用了。

一个完整的自动化例子

假设需要根据一个部门列表生成组织结构图:

import aspose.slides as slides

def generate_org_chart(dept_list, output_path):
    with slides.Presentation() as presentation:
        slide = presentation.slides[0]
        
        # 创建层级结构 SmartArt
        smart_art = slide.shapes.add_smart_art(
            50, 50, 600, 400,
            slides.smartart.SmartArtLayoutType.HIERARCHY
        )
        
        # 第一个节点作为根
        root = smart_art.all_nodes[0]
        root.text_frame.text = dept_list[0]['name']
        
        # 为每个部门添加节点
        for dept in dept_list[1:]:
            node = root.child_nodes.add_node()
            node.text_frame.text = dept['name']
            
            # 二级部门挂上去
            for sub in dept.get('sub_depts', []):
                sub_node = node.child_nodes.add_node()
                sub_node.text_frame.text = sub
        
        # 换个配色
        smart_art.color_style = slides.smartart.SmartArtColorType.COLORFUL_ACCENT_COLORS
        
        presentation.save(output_path, slides.export.SaveFormat.PPTX)

# 使用示例
departments = [
    {'name''总部'},
    {'name''技术部''sub_depts': ['前端''后端''运维']},
    {'name''产品部''sub_depts': ['设计''用研']},
    {'name''运营部'}
]

generate_org_chart(departments, '部门架构.pptx')

整个过程不需要打开 PPT,代码跑完文件就生成好了。

修改现有 SmartArt 的坑

修改已有的 SmartArt 比创建新的要棘手一些。

问题在于 SmartArt 的节点有“隐藏”状态。有些节点看起来存在,实际上被标记为不可见——它们在 XML 里确实有记录,但 PPT 不展示。如果你遍历 all_nodes,可能会拿到比界面上看到的更多的节点。

Aspose.Slides 提供了 is_hidden 属性来判断:

for node in smart_art.all_nodes:
    if node.is_hidden:
        continue  # 跳过隐藏节点
    # 处理可见节点

另外,修改节点文字后,SmartArt 的形状布局可能需要重新计算。如果发现新文字被截断或者位置不对,可以尝试:

# 触发布局更新
smart_art.layout = smart_art.layout

这行代码看起来像什么都没做,但它会强制 PPT 重新计算节点的位置和大小。

处理大规模文件时的注意事项

如果你要批量处理几十个 PPT 文件,有几个细节值得留意。

内存管理:用 with 语句打开文件,处理完自动释放资源,避免内存越吃越多。

# 正确姿势
with slides.Presentation('file.pptx'as pres:
    # 处理逻辑
    pass  # 出了这个块,文件就关闭了

# 错误示范
pres = slides.Presentation('file.pptx')
# 忘记关闭,内存一直占着

许可证处理:Aspose.Slides 不带许可证会往生成的 PPT 里加水印。正式使用前记得加载许可证文件。

license = slides.License()
license.set_license('Aspose.Slides.lic')

速度优化:如果你只需要读取节点文字而不修改,可以考虑只加载 XML 部分,不加载整个演示文稿的可视化数据。但 Aspose.Slides 没直接暴露这个选项,免费库更做不到。几十个文件的量级,顺序跑完通常不是问题。

什么时候该用哪种方案

回到周五下午的场景。

如果只是偶尔处理一两个文件,手动改改更快,不值得写脚本。

如果每个月都要做一次,而且内容可以从 Excel 或数据库导出,那投入时间写自动化脚本是划算的。

具体选哪个库:预算充足、需要完整读写能力的上 Aspose.Slides。预算有限、只读不写、或者愿意折腾 XML 解析的,用 python-pptx 加手写解析逻辑。完全不花钱但要写很多节点的——考虑换个思路:生成纯文本的流程图,或者用其他图表工具替代。

SmartArt 本质上是个黑盒子。Python 能打开这个盒子,但能看到多少东西,取决于你选的工具和你愿意花多少时间去琢磨。