根据工业界的估计,仅有21% 的数据是以结构化的形式展现的[1]。在日常生活中,大量的数据是以文本、语音的方式产生(例如短信、微博、录音、聊天记录等等),这种方式是高度无结构化的。如何去对这些文本数据进行系统化分析、理解、以及做信息提取,就是自然语言处理(Natural Language Processing,NLP)需要做的事情。
在NLP中,常见的任务包括:自动摘要、机器翻译、命名体识别(NER)、关系提取、情感分析、语音识别、主题分割,等等……
在NLP与深度学习系列文章中,不会逐一解释各个NLP任务,而是主要介绍深度学习模型在NLP中的应用。整体分为以下几点:
- 首先介绍NLP基本流程以及在数据预处理方面的技术
- 而后会介绍最初期使用的神经网络:SimpleRNN、LSTM
- 继而引入使得文本处理性能得到很大提升的Attention机制以及Transformer模型
- 最后介绍近几年非常热门的预训练模型BERT,以及如何使用BERT预训练模型的例子