前言
本文依旧是懒人包的优化更新
之前最大的问题就是使用fastapi这种偏向编程交互的操作方式
适合api调用,不太适合gui界面可视化操作,现在统一把fastapi改为gradio可视化交互
关于懒人包,目前最多的系列是ocr,其中pdf转md也最为常用
优化
首先第一个优化是fastapi转gradio
可以看到下图
左侧上传图片和PDF等文件,可以预览(可以拖拽和点击选择),是否批量待定
右侧查看输出的md结构,可以复制和下载
底部用于下拉和勾选对应的选项,以及点击交互,可以查看实时进度等以及一些文案提示
问题
之前把一些不必要的功能,没有验证的功能都放上去,容易让人迷惑
现在只保留PDF和PNG等转MD的功能,其他转JSON,HTML,EXCEL等功能都不做,以后如果需要和支持,再添加对应的功能
同样的对于低显存或者CPU也可以处理的AI,我会把它拆分为cpu版本和gpu版本
cpu版本用来简单体验功能和临时使用
gpu版本用来加速和大量使用
目前cpu版本先上,后续再补充gpu版本
懒人包说明
example用于放图片等示例的文件,可以快速方便的查看AI效果
models存放ai的本地模型,离线懒人包不会发起请求,只会读取本地的文件模型
output用于存放ai处理后的文件,比如处理后生成的md文件
python312为离线python环境,含有对应的依赖包
app.py为应用程序和界面,代码逻辑和界面交互都在这个文件
start.bat是win上的启动文件,方便双击一键启动
Tips
点击此处 网盘下载
目前PDF转MD系列的paddleocr PP-StructureV3效果不错,所以先更新它
后面的paddleocr vL1.5等再逐步更新
图中的启动方向分类按钮和启动去扭曲按钮只是占位
目前还没有下载对应的模型,等待后续有空再把功能补充完善