深度学习各子领域略览及术语列表 (5)

172 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 18 天,点击查看活动详情

3. 主要用于NLP的DL基础

  1. OOV (out of vocabulary)
  2. TF-IDF模型
  3. 词袋模型BoW
  4. word2vec
  5. 预训练语言模型pretrained language model
    1. Bert
    2. SciBert
    3. RPT
    4. NEZHA
    5. ERNIE-百度
    6. ERNIE-清华
    7. DistilledBert
    8. Bart
    9. CPT
    10. Pegasus
    11. 预训练语言模型概述(持续更新ing...)
    12. [CLS]
    13. [SEP]
  6. 微调finetune
  7. prompt / 提示学习prompt learning
  8. 分词tokenization
    1. BPE
    2. 常用Python中文分词工具的使用方法
  9. 分句 / 句子边界检测 英文可以用spacy包,可以参考我之前写的教程:spacy教程(持续更新ing...) 中文,可参考的分句用标点符号:。:();:“”,,
  10. 远程监督
  11. 序列标注
    1. 命名实体识别NER (named entity recognition)
      1. nested
    2. 关系抽取relation extraction
    3. measurement extraction(感觉是个新任务,就我看到了这篇文章:Measurement Extraction with Natural Language Processing: A Review。感觉这个任务的实用性其实挺强的,先偷偷奶一口)
  12. 事件检测/事件抽取
    1. 博文
      1. NLP基础知识 | 常见任务类型 | 事件检测
  13. 信息检索information retrieval (IR)
    1. 召回-重排rerank
    2. 文本匹配
      1. 句子相似度
      2. 算法:BM25
    3. NLP基础知识 | 常见任务类型 | 信息检索
    4. 向量检索/向量相似性计算方法(持续更新ing...)
  14. 关键词提取(常用的Python3关键词提取方法
  15. 主题分类/抽取
  16. 文本生成natural language generation (NLG)
    1. 文本摘要text summarization
      1. 抽取式摘要extractive summarization / 生成式摘要abstractive summarization
      2. 文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
      3. ROUGE指标
        1. ROUGE-S
        2. ROUGE-W
        3. ROUGE-L
        4. ROUGE-N(N常用1和2)
    2. 机器翻译machine translation
    3. paraphrase generation:生成输入文本的同义文本(相当于转述)
    4. PPT生成
    5. 问答QA
    6. 创新度novelty
    7. encoder-decoder架构
    8. seq2seq任务
    9. BLEU指标
  17. 自然语言理解NLU
    1. 蕴含识别entailment
    2. 槽填充slot filling(NLP基础知识 | 常见任务类型 | 槽填充 NLP课题入门 | day 15 | 槽填充
    3. 意图识别/检测(NLP课题入门 | day 14 | 意图分类) 开放域/域外意图检测
  18. 阅读理解Machine Reading Comprehension (MRC)
  19. 讽刺检测sarcasm detection(NLP课题入门 | day 9 | 讽刺检测
  20. 抄袭检测plagiarism detection A Review of Machine Learning based Plagiarism Detection Approaches
  21. 跨语言cross-language
  22. text style transfer(是NLG任务,但不像一般NLG任务是源域与目标域样本一比一匹配的,而是那种(比划)就是一堆对应一堆的那种)
  23. emotional recogniton
  24. decontectualization:大致来说就是把文中的一句话单拎出来进行修改,补全该句所需的上下文,表示原句意。说来复杂总之可以参考:为什么每次有人大声通电话时,我就很烦躁..._51CTO博客_有人大声说话就烦躁
  25. language detection
    1. 这篇工作上次更新代码已是5年前,上次回复issue已是2020年,所以感觉不太维护了:saffsd/langid.py: Stand-alone language identification system
  26. 程序语言处理PLP (programming language processing)
    1. program representation
    2. algorithm detection
  27. LegalAI:准备专门写一篇,等下吧