python pdfplumber用于pdf表格提取

504 阅读1分钟
import pdfplumber
import pandas as pd

import xlwt

def toEcel():

    workbook = xlwt.Workbook()  # 定义workbook
    sheet = workbook.add_sheet('Sheet1')  # 添加sheet
    i = 0  # Excel起始位置

    path = 'D:\\GKProject\\2020年全国各省选考要求\\上海.pdf'
    pdf = pdfplumber.open(path)
    print('\n')
    print('开始读取数据')
    print('\n')

    for page in pdf.pages[0:3]:
        # 获取当前页面的全部文本信息,包括表格中的文字
        # print(page.extract_text())
        for table in page.extract_tables():
            # print(table)
            for row in table:
                print(row)
                for j in range(len(row)):
                    sheet.write(i, j, row[j])
                i += 1
            print('---------- 分割线 ----------')

    pdf.close()

    # 保存Excel表
    workbook.save('上海out.xls')
    print('\n')
    print('写入excel成功')
    print('保存位置:')
    print('保存路径/文件名.xls')
    print('\n')
    input('PDF取读完毕,按任意键退出')
if __name__ == '__main__':
    print("开始")
    toEcel()