人工智能中自然语言处理(NLP)的介绍

428 阅读6分钟

A Gentle Introduction to Natural Language Processing
照片:Ryan WallaceonUnsplash

简介

在数据处理、数据采集、数据分类、甚至数据处理的过程中,有一些输入是计算机需要从机器那里得到的,有一些输出是机器告诉用户的,所有这些都是以某种语言的形式出现。这种语言是不同的,人类和机器都很难理解。为了对输入进行编码,使其更容易被机器理解,反之亦然,有一些语言被称为计算机编程。所有这些都属于自然语言处理的广泛领域,在它的帮助下,编码语言被翻译成二进制的形式,以便机器能够理解,二进制语言被解码,使其能够为人类所理解。(Nadkarni等人,2011)自然语言处理被归类为人工智能的子领域。在下面的方框图中,我们可以看到一个轻微的演示,这使我们能够理解这个NLP与人工智能的关系。

understand how this NLP is related to AI
图1.AI、ML、DL和NLP之间的关系(一个简单的表示)(Natural Language Processing:将你的业务提升到新的水平,2021年9月)

与NLP相关的例子

在我们的日常生活中,在处理技术时,我们已经遇到了不同的例子,在这些例子中,自然语言处理被实施。与NLP相关的几个例子如下。

  1. 数据分析是由统计分析技术人员使用的,以使有关天气、城市犯罪、交通信号情况等数据。简单地说,在数据输入方面,它是非常重要的。
  2. 预测性短信,在使用手机时,某些词会自己跳出来,这是因为用户使用该词的频率较高,同时也涉及某些其他算法。这需要国家语言处理和人工智能。
  3. 电子邮件过滤器,这是国家语言处理中最基本的功能。
  4. 搜索结果,谷歌搜索结果也使用NLP,根据用户历史和数据历史为用户完善搜索。
  5. 其他的例子有数字电话、智能辅助、语言翻译等。(Zhao et al., 2019)

NLP中的数学

在谈论NLP中的数学时,数学本身是一个广阔的领域,有这么多的分支。对于一个愿意在NLP及其建模技术领域继续研究的人来说,他必须具备三种基本的数学知识,即线性代数、微积分、概率和一些统计学的基本知识。这里出现的主要问题是,对于自然语言处理领域是否需要大量的数学知识。这个问题的答案取决于你想要实现的目标。NLP的一些分支需要大量的数学知识,而另一些则需要基本的数学知识。(成为自然语言处理专家的学习之路 | 作者:Sara A. Metwalli | Towards Data Science, 2021)

NLP包含了大块的机器学习、深度学习和计算机视觉。简单地说,在进行NLP工作时,有很多可能性,某些机器或系统从用户的输入中记录了所有的数据。这可以用一个简单的例子来解释。正如前面所讨论的,在我们手机的自动更正中,NLP也参与其中。当你输入某些词,如 "我住在",你的手机的句子完成算法基于你最近的活动显示 "洛杉矶"。这一切都与一些反向传播、线性代数和统计工具有关。当用户使用不同的词时,反向传播发挥作用。例如,当我们最初写 "我住在 "时,句子完成显示的是纽约,经过一定的打字和书写,系统知道用户写的是 "洛杉矶",现在在每个in之后,系统显示的是 "洛杉矶",即使in被用在其他句子中。经过一定的时间,当用户在 "in "字之后没有使用 "洛杉矶 "这个词时,系统已经训练到这个程度,它知道当用户写 "住在 "时,我应该显示 "洛杉矶",否则就使用其他在写作或聊天中更经常使用的词。这就是NLP中反向传播的主要例子。简单地说,神经网络中权重的调整和误差的最小化是完整的数学。(NLP文本相似性,它是如何工作的和它背后的数学 | 作者:Jaskaran S. Puri | Towards Data Science, 2018)

 A simple Representation of Back Propagation
图2.逆向传播的简单表示*(逆向传播算法简介及其工作原理?*2020年)

同样,统计学也被用于NLP中,以记录用户的数据,并对用户更频繁地使用哪些词做出完整的数据。例如,一个用户用 "你好 "开始对话。现在,每次用户打开信使或WhatsApp时,都会有一个Hello出现在开头。这一切都是由于系统记录的最近数据,文本根据用户采用的风格显示出来。这种对用户数据的统计分析也使用了概率分布。例如,通过适当的训练和消除错误,以及反向传播,系统得到了很好的训练,以至于它提出了令人兴奋的建议。概率和统计学参与NLP的另一个例子是谷歌搜索历史或YouTube搜索历史。统计NLP的基本目的是采取一些具有某些未知概率分布的数据,并对其进行一些已知概率分布的干扰。现在,在这些来自概率分布的结果的帮助下,统计数据已经被计算出来,就像前面提到的谷歌搜索类型的平台等,已经获得了精炼的搜索*(什么是自然语言处理?)*

Input, Outputs, and Input from user required for training an NLP System
图3.训练NLP系统所需的输入、输出和来自用户的输入(Friedman等人,2013)。

参考文献

  1. 成为自然语言处理专家的学习之路 | by Sara A. Metwalli | Towards Data Science.(n.d.).2022年1月26日,从towardsdatascience.com/a-learning-…

  2. *Backpropagation算法简介及其工作原理?(*n.d.).2022年1月26日检索,来自www.mygreatlearning.com/blog/backpr…

  3. Friedman, C., Rindflesch, T. C., & Corn, M. (2013).自然语言处理。技术现状和重大进展的前景,由国家医学图书馆主办的研讨会。生物医学信息学杂志,46(5), 765-773. doi.org/10.1016/J.J…

  4. Nadkarni, P., ... L. O.-M.-J. 的, & 2011, undefined.(n.d.).自然语言处理:简介。Academic.Oup.Com。2022年1月26日检索,来自academic.oup.com/jamia/artic…

  5. 自然语言处理。将你的业务提升到新的水平。(n.d.).2022年1月26日检索,来自datacenterfrontier.com/natural-lan…

  6. NLP文本相似性,它是如何工作的和它背后的数学 | 作者:Jaskaran S. Puri | 走向数据科学。(n.d.).2022年1月26日检索,来自towardsdatascience.com/nlp-text-si…

  7. *什么是自然语言处理?(*n.d.).2022年1月26日检索,来自machinelearningmastery.com/natural-lan…

  8. Zhao, W., Peng, H., Eger, S., ... E. C. preprint arXiv, & 2019, undefined.(n.d.).为具有挑战性的NLP应用建立可扩展和可靠的胶囊网络。Arxiv.Org.2022年1月26日检索,来自arxiv.org/abs/1906.02…