什么是 NLP ?人来语言的特殊之处是什么?
1.定义:NLP 是多个领域的交集,包括计算机科学、人工智能和语言学。
2.目标:让计算机去处理或者理解人类的自然语言,然后去处理一些有用的任务,如约会、买东西、问答系统。而完全理解和表示语言的含义是困难的。
3.text 处理流程
text -> OCR/Toknization -> Morphological analysis -> Syntacitc analysis -> Semantic Interpretation -> Discourse Processing
speech 处理流程
speech -> Phonetic/Phonological Analysis -> Morphological analysis -> Syntacitc analysis -> Semantic Interpretation -> Discourse Processing
本课程大部分时间将关注 Syntacitc analysis(句法分析) 、 Semantic Interpretation(语义解释) 这四个部分。
4.人类语言的特殊之处
- 人类语言就是传达说话者或者写作者意思的特定结构的系统。
- 人类语言是一个 discrete/symbolic/categorical 信号系统。
- 语言的符号可以被编码成一个信号通过多种方式,如声音、姿势、图片、文字
- 人类语言是符号系统,而大脑具有连续激活模式,这些符号进入大脑被视为语言,大量的单词和单词的符号编码会产稀疏问题。
什么是深度学习(DL)?
-
定义:DL 是机器学习的子领域。
-
大多数机器学习的方法都可以很好地工作。在实际应用中,机器学习 90% 的任务在于用计算机描述数据并找出特征,只有 10% 的工作是用机器学习算法来优化特征上的权重。
-
深度学习与机器学习的不同
- 深度学习算法试图学习多层的表示和输出。
- 机器学习中的手动设计特征往往过于明确、不完整、并且耗时多去设计和校验。深度学习提供了灵活的、通用的学习框架来表示可视化或者语言信息,易于使用,快速学习,性能比机器学习更好。
-
深度学习可以用于监督和无监督
-
深度学习崛起的原因
- 大量数据的产生
- 更快的机器和多核的 CPU/GPU
- 更好的学习中间表征的方法
- 更好的方法进行端到端的联合系统学习
- 有效的学习方法,用于使用上下文和在任务之间进行转移
- 在语音识别中做出了重大的突破,目前语言识别已经相当成熟,使用高丝混合模型、隐马尔可夫模型等进行声学分析,但是在往上提升几个百分点却相当困难,现在已经转为使用深度学习模型进行语言识别,使单词错误率达大幅度降低。
- 另一个重大突破就是在计算机视觉。
课程的逻辑线?
1.准备
- python
- 概率学和统计学
- 机器学习基础
- 多元微积分和线性代数
2.目标
- 能够有效理解和使用有效的方法进行深度学习
- 对人类语言的全面了解,并且了解理解和生产语言的困难
- 能够味重要的 NLP 问题构建系统
为什么 NLP 难?
- 表示、学习和使用 linguistic/situational/world/visual 知识的复杂性
- 人类语言模棱两可的意思
- 人类语言的解释依赖于真实的世界、常识和上下文知识。
介绍 DL-NLP 的应用?
- 定义 Deep NLP = Deep Learning + NLP,用深度学习的方法来解决 NLP 的 ideas 和 goals。
- 常见的应用有很多,包括:
- 拼写检查、同义词查找、关键字搜索
- 从网站中抽取关键信息,如位置、日期、公司名等
- 可以给文章进行正负情感分类
- 机器翻译
- 对话系统
- 问答系统
3.在工业中的 NLP 应用正在起飞,包括:
- search
- 在线广告匹配
- 自动翻译
- 为金融或者商业市场做情感识别
- 语音识别
- 构建聊天机器人