机器学习与文本分析

766 阅读12分钟

语言是一种逻辑结构,从理论上讲,机器应该很容易处理。训练一个ML文本分析系统到底有多难?我们今天就来了解一下。

什么是机器学习中的文本分析?

文本分析是从文本中获得有价值的见解的过程。

ML可以处理不同类型的文本信息,如社交媒体帖子、信息和电子邮件。特殊软件有助于预处理和分析这些数据。

文本分析vs.文本挖掘vs.文本分析

文本分析文本挖掘是同义词。它们描述的是通过观察模式从数据中提取意义的相同过程。

然而,文本分析文本分析是有点不同的东西:

  • 文本分析的工作内容是概念,即文本的意义。文本分析可以用来回答这些问题:一条评论是正面的还是负面的?该文本的主要话题是什么?
  • 文本分析研究模式。结果可以显示在图表、方案和电子表格上。如果你想估计积极的客户反馈的百分比,你将需要文本分析法。

在这篇文章中,我们将谈论ML文本分析技术和使用案例。

为什么文本挖掘很重要?

每一段内容都可以在更深的层次上进行分析,以便更多地了解作者或文本的主题。通过引入ML文本分析,我们可以为用户提供更好的服务:

  • 提供常见问题的答案。
  • 翻译成不同的语言。
  • 监测公众对产品和服务的情绪。
  • 通过对文件进行聚类和分类来促进文书工作。

公司在与客户沟通时变得更加高效:通过研究客户反馈,公司可以发现公众对其产品的意见。ML算法可以按主题或语言对客户支持票或评论进行自动分类。

ML使文本分析比人工处理文本更快、更有效。它可以在不影响质量的情况下,降低劳动成本,加快文本处理速度。

机器学习文本分析是如何工作的?

data mining, data processing, and machine learning

构建一个文本分析工具需要什么?让我们一步步来看看:

  1. 收集数据:决定你将研究哪些信息,以及如何收集这些信息。这些样本将被用来训练和测试你的模型。有两种主要的信息来源。如果你去找论坛或报纸等资源,那么你就是在收集外部数据内部数据是每个人或公司每天都会产生的:电子邮件、报告、聊天等等。内部和外部资源对文本挖掘都有价值。

  2. 准备好数据:非结构化数据需要准备,或预处理。否则,程序将无法理解它。在我们的博客中,我们已经谈到了数据预处理的不同策略。

  3. 应用机器学习算法进行文本分析:你可以从头开始写你的算法,或者使用一个库。如果你想为你的学习和研究寻找一些容易获得的东西,请关注NLTKTextBlob斯坦福的CoreNLP

这些是用于ML文本分析的技术。

标记化

每个标记都是一个有意义的单位。单词和标点符号是标记,而空白处不是。例子。这个帖子是关于文本分析的。 = ["这个", "帖子", "是", "关于", "文本", "分析", "." ]

Tokenization

语音部分标签

当你给每个标记分配一个语法类别时,这就是语义部分标记。

例如。这篇文章是关于文本分析的。 = ["这":ADJ, "post":无名词,"是"。VERB,"关于"。PREP, "text":无名词,"分析"。无名词,"."。PUNCT]。

Part of speech analysis

词典化

把这个词放回它的字典形式(lemma)是为自然语言处理而做的。你把这个词的所有可能形式都映射到一个 "根 "动词上,机器仍然可以理解它。'Being', 'was', 'were'的词根是'be'。

词根化

通过去除单词的词缀,你可以得到单词的词干,即 "干净 "的形式。谷歌使用词干编制索引的请求。与其存储所有形式的单词,词库被简化为词干。这个过程变得更快,但也不如词根化那么准确。例如,"Buying "的词干就是简单的 "buy"。

Stemming

解析

有两种解析方式:依赖性和成分性。当你想了解一个句子的语法结构时,你要进行解析。

构词法解析中**,**你将文本分解成子句,也称为构词法。这有助于表示句子的结构。缺点:它是无语境语法。在 "拜访亲戚可能很无聊 "这样的句子中,该算法将无法理解其模糊的含义。然而,它对语法检查很有好处。例如,Grammarly很难解析一个语法上不正确的句子,但是,由于有了成分解析,它使用句子应该是什么样的模型来找到正确的解决方案。

consitutency parsing

依赖性分析确定了句子中的主要词汇,并找到修改其含义的相关词汇。句法关系有助于理解句子的含义,特别是在斯拉夫语等合成语言中。依赖关系解析也适用于语法检查和文字处理,因为它可以解析自由词序和零散的句子。

dependency parsing

在演示中,我们使用了艾伦NLP系统,该系统用一个在大型文本数据集上训练的神经网络自动确定单词之间的关系。

文本挖掘技术

现在让我们发现一些允许你处理文本数据的方法。

词频分析

这种技术使你能够测量文字中出现的频率

这正是人类能够识别文本的主题和进行情感分析的方式。我们知道,"有趣 "这个词通常指的是正面印象。因此,如果你在评论中看到这个词,这意味着客户很满意。然而,这种方法对讽刺不敏感,这可能会影响你的一般分析结果。

搭配分析

语音中经常一起使用的两个、三个或更多的词被称为搭配。不同搭配中的同一个词可以有不同的含义。如 "自由精神 "中的 "自由 "是指 "被解放"。"免费 "也可以是 "免费的 "的意思。"免费 "更有可能与 "运输 "一起出现在一个在线商店的网站上,而不是与 "精神 "一起,甚至单独出现。将搭配考虑在内使语义分析更加准确。

对照分析

对照表是一个显示同一个词在不同语境中的不同含义的表格。下面是一个来自语境词典的例子,显示了不同人如何使用 "协和 "一词。

Contextual dictionary

语境词典对语言学习者来说是很好的,因为它们包含真实的例子,显示了同一个词的不同使用方法。它们对机器翻译和语音生成系统也有好处。

同义词和搭配分析对于关键词的意义辨析很有帮助。

使用这些基本技术,你可以继续进行更高级的ML文本分析类型。

文本分类

ML算法检测数据中的不同模式,并将文本分成若干群组。让我们再谈一谈典型的文本分类任务。

情感分析

情感分析,或意见挖掘,识别和研究文本中的情感。

作者的情绪对于理解文本很重要。情绪分析允许对一个新产品的意见极性进行分类,或评估一个品牌的声誉。它也可以应用于评论、调查、社交媒体帖子。SA的优点是,它甚至可以有效地分析讽刺性评论。

主题分析

主题建模按主题对文本进行分类,可以使人类在许多领域的生活更容易。如果没有它,在图书馆里找书,在商店里找商品,在CRM里找客户支持票,都是不可能的。文本分类器可以根据你的需要定制。

内容标签

学生和教授、律师、科学家和实验室助理都可以从使用文本分类技术中受益。因为他们每天都在处理大量的非结构化数据,对文本进行标记和分类将使他们的生活更加轻松。

意义提取

在文本分析的帮助下,有可能提取关键词、价格、特征和其他重要信息。营销人员可以进行竞争者分析,只需点击几下就能了解他们的价格和特别优惠的所有信息。

关键字的提取

有助于识别关键词和测量其频率的技术对于总结文本内容、寻找问题的答案、索引数据和生成词云非常有用。

实体识别

实体是文本中提到的人、公司或地点。它在机器翻译中很有用,这样程序就不会翻译出姓氏或品牌名称。此外,实体识别对于商业中的市场分析和竞争者分析也是不可或缺的。

ML文本分析的实际应用

ML文本分析技术的实际应用有哪些?我们试图提到最常见的那些。

自然语言处理

NLP是帮助机器理解人类语言并根据要求采取行动的东西。NLP系统被用于聊天机器人、智能助手和语音识别安全系统。

社会媒体监测

人们有多爱你的品牌?Twitter、Facebook和Instagram是用户分享他们印象的地方,对他们去过的地方和他们尝试过的产品留下好的和坏的评论。你可以看到你的公司在总体上是如何被看待的,或者专注于具体产品。

顾客服务

将日常工作托付给ML意味着员工可以专注于需要人类关注的任务。ML文本分析有助于票据标记,识别问题,并将其分配给正确的人。基于关键词,ML系统可以对请求进行优先排序。

商业智能

在商业智能中,优先考虑的是数字。它们对于理解趋势和统计是很好的。然而,数字并不能为你提供事情发生的原因。分析文本数据的ML算法可以通过分析内部和外部数据提供有价值的洞察力。

销售和营销

通过解析客户和竞争对手的数据来分析他们的情况,对市场上的情况有更详细的了解。基于这些数据,你可以提供更加个性化的销售报价。通过ML文本分析来分析和编写电子邮件,帮助销售团队与客户进行有效沟通。

搜索引擎优化

SEO工具在分析网页内容时依靠机器学习。如果你希望你的网站在搜索结果中显示得很高,你应该为搜索引擎进行优化。你可以使用关键词解析器识别你所在领域的其他人所写的主题,使你的内容对目标受众更有用。

针对残疾人的软件

ML文本分析有助于为有语言障碍的人提供声音。通过使用文本到语音技术,机器学习系统为输入文本发声。可以根据每个用户自己的声音(如果适用),为他们生成一个原始和独特的声音。这种软件使残疾人能够与其他人交流,并使用声控界面。

机器人技术

机器人需要理解人类的语音并与之交流,如果没有ML文本分析,这是不可能的。此外,情感分析技术可以让它们在理解人类情感和采取相应行动方面变得更好一点。使用ML文本分析模型训练过的机器人可以阅读和理解文本,这与数据是一样的。

ML文本分析的挑战

根据最近的一项研究,在企业中产生的所有数据中,约有80%是以文本形式存在的。可以从中得出很多见解。

但ML文本分析也带来一些挑战:

  • 复杂性:将文本转化为可由计算机处理的格式需要几个步骤。例如,如果我们要解决一个文本分类问题,我们需要收集数据,检测其中的关键词,定义一些类别,根据这些类别对数据进行分组,并以数学术语描述这些过程。这在智力上和人力/金钱/时间资源上都是一种挑战。
  • 概念上的纠结:计算机不理解词语背后的概念,所以用同源词工作对它们来说是很困难的。程序员必须想出一些有效的工具来进行词义辨析,以便处理诸如'Will,Will会不会Will的意愿'这样的句子。例如,谷歌翻译现在就无法应付这个句子。
  • 理解文化:理解人类语言意味着理解他们的情感。对于计算机来说,最难把握的情绪之一是讽刺。继续歧义的话题,同样的意思在不同的文化中可以用不同的词来表达,如俚语或地方变体。对英国人来说是 "跳线 "的东西,对美国人来说就是 "毛衣"。一个计算机程序必须有经验和文化背景,才能有效地与那些使用不太常规的语言形式的人交流。

结论

ML文本分析是一种技术,被用于从营销和销售到机器人的各个行业。特殊的模型有助于教导机器处理这些数据,并从中得出有价值的结论。总而言之,它可以成为一种有价值的技术,为你的产品或你的业务产生洞察力。