前言
本期依旧是把fastapi的界面改为gradio界面
原来的fastapi适合api调用,现在的gradio适合界面交互操作
本期的更新为
- 只保留PDF转MD和图片转MD的功能,其他如json,html,excel都去掉了
- 只保留GPU版本,无CPU版本,因为VL1.5比较占显存,CPU耗时太长
下图是两个版本对比
懒人包使用
双击start.bat
等待终端启动
启动成功后会自动打开网页
特别注意
输出的md文件在runtime文件夹下的outputs文件夹
Tips
点击此处 网盘下载
目前试了几种ocr,只有这个vl1.5 pdf转md识别率和排版都不错
其他的如小红书ocr,不解析图片,paddleocr PP-StructureV3解析正确,但是md的排版会有换行等一些细节问题
vl1.5显存占用高一点,本文测试需要8GB左右的显存