实操 | 用 PP-OCRv5 搭建企业专属OCR服务(附完整部署流程)

56 阅读3分钟

大家好,今天来教大家一个OCR部署实操教程。


大家好,今天来教大家一个实操教程。

如果你有OCR模型部署的需求,可以根据以下这个实操教程来操作。

PART 01

PP-OCRv5 介绍

OCR(光学字符识别,Optical Character Recognition)是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本,甚至某些类型的字体和符号。

通用 OCR 产线用于解决文字识别任务,提取图片中的文字信息以文本形式输出,本产线支持PP-OCRv3、PP-OCRv4、PP-OCRv5模型的使用,其中默认模型为 PaddleOCR3.0 发布的 PP-OCRv5_server 模型,其在多个场景中较 PP-OCRv4_server 提升 13 个百分点。

PART 02

PP-OCRv5 相关区别

  • PaddleOCR-VL - 通过 0.9B VLM 进行多语言文档解析。 该模型是专为文档解析量身定制的 SOTA 和资源高效模型 ,支持 109 种语言,擅长识别复杂元素(例如文本、表格、公式和图表),同时保持最小的资源消耗。

  • PP-OCRv5——通用场景文本识别 单模型支持五种文本类型 (简体中文、繁体中文、英文、日文和拼音), 准确率提升13% 。解决了多语言混合文档识别的难题。

  • PP-StructureV3——复杂文档解析器, 能够智能地将复杂的PDF和文档图像转换为 Markdown和JSON文件,并保留其原始结构 。在公开基准测试中, 其性能优于众多商业解决方案。 完美地维护文档布局和层级结构 。

  • PP-ChatOCRv4——智能信息提取 原生集成了ERNIE 4.5,能够从海量文档中 精准提取关键信息 ,准确率比上一代提升15%。它能让文档“ 理解 ”您的问题,并提供准确的答案。

PART 03

PP-OCRv5 相关产线

PART 04

PP-OCRv5 私有化部署

  1. 注册登录九章智算云,如果你已经注册,直接登录即可。

2、注册登录后,点击产品 -> 云容器实例

3、点击新建云容器

4、点击云容器实例-> 选择五区

5、选择GPU-> 选 择应用镜像

6、根据需求是否需要定时关机,就直接点击开通

7、开通后点击云容器实例 -> 点击web连接的图标

8、启动服务(模型已经在镜像中)

sh /opt/start.sh

9、测试服务是否正常

python3 /opt/demo.py

10、启动web页面(注意最后有个&)

cd /opt/PP-OCRv5_Online_Demo && /opt/miniforge/envs/pp-orcv5/bin/python3 ./app.py &

11、回到云容器实例 -> 点开放端口图标

12、输入7860,点击生成。可公网访问接口

13、api调用脚本demo (如果需要公网访问api接口,需要将8080开放出来)

如果你在部署过程出现问题,

可以扫码寻求一对一技术支持。

也欢迎加入我们的OCR技术交流群,

与大家一同探讨OCR应用和技术。