斯坦福 NLP with Deep Learning 第一节课笔记

377 阅读3分钟

什么是 NLP ?人来语言的特殊之处是什么?

1.定义:NLP 是多个领域的交集,包括计算机科学、人工智能和语言学。

2.目标:让计算机去处理或者理解人类的自然语言,然后去处理一些有用的任务,如约会、买东西、问答系统。而完全理解和表示语言的含义是困难的。

3.text 处理流程

text -> OCR/Toknization -> Morphological analysis -> Syntacitc analysis -> Semantic Interpretation -> Discourse Processing

speech 处理流程

speech -> Phonetic/Phonological Analysis -> Morphological analysis -> Syntacitc analysis -> Semantic Interpretation -> Discourse Processing

本课程大部分时间将关注 Syntacitc analysis(句法分析) 、 Semantic Interpretation(语义解释) 这四个部分。

4.人类语言的特殊之处

  • 人类语言就是传达说话者或者写作者意思的特定结构的系统。
  • 人类语言是一个 discrete/symbolic/categorical 信号系统。
  • 语言的符号可以被编码成一个信号通过多种方式,如声音、姿势、图片、文字
  • 人类语言是符号系统,而大脑具有连续激活模式,这些符号进入大脑被视为语言,大量的单词和单词的符号编码会产稀疏问题。

什么是深度学习(DL)?

  1. 定义:DL 是机器学习的子领域。

  2. 大多数机器学习的方法都可以很好地工作。在实际应用中,机器学习 90% 的任务在于用计算机描述数据并找出特征,只有 10% 的工作是用机器学习算法来优化特征上的权重。

  3. 深度学习与机器学习的不同

    • 深度学习算法试图学习多层的表示和输出。
    • 机器学习中的手动设计特征往往过于明确、不完整、并且耗时多去设计和校验。深度学习提供了灵活的、通用的学习框架来表示可视化或者语言信息,易于使用,快速学习,性能比机器学习更好。
  4. 深度学习可以用于监督和无监督

  5. 深度学习崛起的原因

    • 大量数据的产生
    • 更快的机器和多核的 CPU/GPU
    • 更好的学习中间表征的方法
    • 更好的方法进行端到端的联合系统学习
    • 有效的学习方法,用于使用上下文和在任务之间进行转移
    • 在语音识别中做出了重大的突破,目前语言识别已经相当成熟,使用高丝混合模型、隐马尔可夫模型等进行声学分析,但是在往上提升几个百分点却相当困难,现在已经转为使用深度学习模型进行语言识别,使单词错误率达大幅度降低。
    • 另一个重大突破就是在计算机视觉。

课程的逻辑线?

1.准备

  • python
  • 概率学和统计学
  • 机器学习基础
  • 多元微积分和线性代数

2.目标

  • 能够有效理解和使用有效的方法进行深度学习
  • 对人类语言的全面了解,并且了解理解和生产语言的困难
  • 能够味重要的 NLP 问题构建系统

为什么 NLP 难?

  • 表示、学习和使用 linguistic/situational/world/visual 知识的复杂性
  • 人类语言模棱两可的意思
  • 人类语言的解释依赖于真实的世界、常识和上下文知识。

介绍 DL-NLP 的应用?

  1. 定义 Deep NLP = Deep Learning + NLP,用深度学习的方法来解决 NLP 的 ideas 和 goals。
  2. 常见的应用有很多,包括:
  • 拼写检查、同义词查找、关键字搜索
  • 从网站中抽取关键信息,如位置、日期、公司名等
  • 可以给文章进行正负情感分类
  • 机器翻译
  • 对话系统
  • 问答系统

3.在工业中的 NLP 应用正在起飞,包括:

  • search
  • 在线广告匹配
  • 自动翻译
  • 为金融或者商业市场做情感识别
  • 语音识别
  • 构建聊天机器人