DZone> AI地带 > 使用Azure认知服务从图像中读取文本入门
使用Azure认知服务从图像中读取文本的入门方法
计算机视觉可以帮助我们阅读文本,然后用NLP来理解这些被识别的文本。在这篇文章中,我将专门讨论文本提取部分。
·
Aug. 07, 21 -AI Zone -演讲
喜欢 (1)
评论
保存
Tweet
1.94K浏览次数
加入DZone社区,获得完整的会员体验。
在这篇文章中,我们将了解如何从图像中读取或提取文本,无论它是手写的还是打印的。
为了阅读文本,有两件事需要考虑。第一个是计算机视觉,第二个是NLP,也就是自然语言处理的简称。计算机视觉帮助我们阅读文本,然后NLP被用来对识别的文本进行理解。在这篇文章中,我将具体谈论文本提取部分。
计算机视觉如何进行文本提取
为了执行这个文本提取任务,计算机视觉为我们提供了两个API。
- OCR API。
- 阅读API。
OCR API 适用于许多语言,并且非常适用于相对较小的文本,但如果你在任何图像中拥有如此多的文本,或者说以文本为主的图像,那么读取API就是你的选择。
OCR API以区域、行和字的形式提供信息。给定图像中的区域是包含文本的区域。因此,输出的层次结构是--区域,每个区域的文本行,然后是每行的字。
读取API, 在图像上非常有效,因为图像上有大量的文字。以文本为主的图像的最好例子是任何扫描或打印的文件。这里的输出层次是以页、行和字的形式出现的。由于这个API要处理大量的行和字,它是异步工作的。因此,在整个文档被读取之前,不要阻止我们的应用程序。而OCR API是以同步方式工作的。
下面是一个表格,描述了什么时候使用什么。
OCR API | 读取API |
适用于相对较小的文本。 | 适用于以文字为主的图像,即扫描文件。 |
输出层次是区域>>行>>字。 | 输出层次是页>>行>>字。 |
以同步的方式工作。 | 以异步的方式工作。 |
请注意我所附的演示和代码演练的视频。
主题。
人工智能, 机器学习, azure, azure认知服务, 演讲
DZone贡献者所表达的观点属于他们自己。
DZone上的热门话题
评论