使用Azure认知服务从图像中读取文本的入门方法

计算机视觉可以帮助我们阅读文本，然后用NLP来理解这些被识别的文本。在这篇文章中，我将专门讨论文本提取部分。

通过

邓小平

Aug. 07, 21 -AI Zone -演讲

喜欢 (1)

保存

1.94K浏览次数

加入DZone社区，获得完整的会员体验。

免费加入

在这篇文章中，我们将了解如何从图像中读取或提取文本，无论它是手写的还是打印的。

为了阅读文本，有两件事需要考虑。第一个是计算机视觉，第二个是NLP，也就是自然语言处理的简称。计算机视觉帮助我们阅读文本，然后NLP被用来对识别的文本进行理解。在这篇文章中，我将具体谈论文本提取部分。

计算机视觉如何进行文本提取

为了执行这个文本提取任务，计算机视觉为我们提供了两个API。

OCR API。
阅读API。

OCR API 适用于许多语言，并且非常适用于相对较小的文本，但如果你在任何图像中拥有如此多的文本，或者说以文本为主的图像，那么读取API就是你的选择。

OCR API以区域、行和字的形式提供信息。给定图像中的区域是包含文本的区域。因此，输出的层次结构是--区域，每个区域的文本行，然后是每行的字。

读取API， 在图像上非常有效，因为图像上有大量的文字。以文本为主的图像的最好例子是任何扫描或打印的文件。这里的输出层次是以页、行和字的形式出现的。由于这个API要处理大量的行和字，它是异步工作的。因此，在整个文档被读取之前，不要阻止我们的应用程序。而OCR API是以同步方式工作的。

下面是一个表格，描述了什么时候使用什么。

OCR API	读取API
适用于相对较小的文本。	适用于以文字为主的图像，即扫描文件。
输出层次是区域>>行>>字。	输出层次是页>>行>>字。
以同步的方式工作。	以异步的方式工作。

请注意我所附的演示和代码演练的视频。

主题。

人工智能, 机器学习, azure, azure认知服务, 演讲

DZone贡献者所表达的观点属于他们自己。

使用Azure认知服务从图像中读取文本的入门方法

使用Azure认知服务从图像中读取文本的入门方法

计算机视觉可以帮助我们阅读文本，然后用NLP来理解这些被识别的文本。在这篇文章中，我将专门讨论文本提取部分。

计算机视觉如何进行文本提取

DZone上的热门话题

AI 合作伙伴资源