使用Azure认知服务从图像中读取文本的入门方法

109 阅读2分钟

DZone> AI地带 > 使用Azure认知服务从图像中读取文本入门

使用Azure认知服务从图像中读取文本的入门方法

计算机视觉可以帮助我们阅读文本,然后用NLP来理解这些被识别的文本。在这篇文章中,我将专门讨论文本提取部分。

Shweta Lodha user avatar通过

邓小平

·

Aug. 07, 21 -AI Zone -演讲

喜欢 (1)

评论

保存

Tweet

1.94K浏览次数

加入DZone社区,获得完整的会员体验。

免费加入

在这篇文章中,我们将了解如何从图像中读取或提取文本,无论它是手写的还是打印的。

为了阅读文本,有两件事需要考虑。第一个是计算机视觉,第二个是NLP,也就是自然语言处理的简称。计算机视觉帮助我们阅读文本,然后NLP被用来对识别的文本进行理解。在这篇文章中,我将具体谈论文本提取部分。

计算机视觉如何进行文本提取

为了执行这个文本提取任务,计算机视觉为我们提供了两个API。

  • OCR API。
  • 阅读API。

OCR API 适用于许多语言,并且非常适用于相对较小的文本,但如果你在任何图像中拥有如此多的文本,或者说以文本为主的图像,那么读取API就是你的选择。

OCR API以区域、行和字的形式提供信息。给定图像中的区域是包含文本的区域。因此,输出的层次结构是--区域,每个区域的文本行,然后是每行的字。

读取API, 在图像上非常有效,因为图像上有大量的文字。以文本为主的图像的最好例子是任何扫描或打印的文件。这里的输出层次是以页、行和字的形式出现的。由于这个API要处理大量的行和字,它是异步工作的。因此,在整个文档被读取之前,不要阻止我们的应用程序。而OCR API是以同步方式工作的。

下面是一个表格,描述了什么时候使用什么。

OCR API

读取API

适用于相对较小的文本。

适用于以文字为主的图像,即扫描文件。

输出层次是区域>>行>>字。

输出层次是页>>行>>字。

以同步的方式工作。

以异步的方式工作。

请注意我所附的演示和代码演练的视频。

主题。

人工智能, 机器学习, azure, azure认知服务, 演讲

DZone贡献者所表达的观点属于他们自己。

DZone上的热门话题


评论

AI 合作伙伴资源