paddleocr PP-StructureV3 pdf转md 懒人整合包 cpu可用 交互界面调整

0 阅读2分钟

前言

本文依旧是懒人包的优化更新

之前最大的问题就是使用fastapi这种偏向编程交互的操作方式

适合api调用,不太适合gui界面可视化操作,现在统一把fastapi改为gradio可视化交互

关于懒人包,目前最多的系列是ocr,其中pdf转md也最为常用

优化

首先第一个优化是fastapi转gradio

可以看到下图

左侧上传图片和PDF等文件,可以预览(可以拖拽和点击选择),是否批量待定

右侧查看输出的md结构,可以复制和下载

底部用于下拉和勾选对应的选项,以及点击交互,可以查看实时进度等以及一些文案提示

问题

之前把一些不必要的功能,没有验证的功能都放上去,容易让人迷惑

现在只保留PDF和PNG等转MD的功能,其他转JSON,HTML,EXCEL等功能都不做,以后如果需要和支持,再添加对应的功能

同样的对于低显存或者CPU也可以处理的AI,我会把它拆分为cpu版本和gpu版本

cpu版本用来简单体验功能和临时使用

gpu版本用来加速和大量使用

目前cpu版本先上,后续再补充gpu版本

懒人包说明

example用于放图片等示例的文件,可以快速方便的查看AI效果

models存放ai的本地模型,离线懒人包不会发起请求,只会读取本地的文件模型

output用于存放ai处理后的文件,比如处理后生成的md文件

python312为离线python环境,含有对应的依赖包

app.py为应用程序和界面,代码逻辑和界面交互都在这个文件

start.bat是win上的启动文件,方便双击一键启动

Tips

点击此处 网盘下载

目前PDF转MD系列的paddleocr PP-StructureV3效果不错,所以先更新它
后面的paddleocr vL1.5等再逐步更新

图中的启动方向分类按钮和启动去扭曲按钮只是占位

目前还没有下载对应的模型,等待后续有空再把功能补充完善