开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 18 天,点击查看活动详情
3. 主要用于NLP的DL基础
- OOV (out of vocabulary)
- TF-IDF模型
- 词袋模型BoW
- word2vec
- 预训练语言模型pretrained language model
- Bert
- SciBert
- RPT
- NEZHA
- ERNIE-百度
- ERNIE-清华
- DistilledBert
- Bart
- CPT
- Pegasus
- 预训练语言模型概述(持续更新ing...)
[CLS][SEP]
- 微调finetune
- prompt / 提示学习prompt learning
- 分词tokenization
- 分句 / 句子边界检测
英文可以用spacy包,可以参考我之前写的教程:spacy教程(持续更新ing...)
中文,可参考的分句用标点符号:
。:();:“”,, - 远程监督
- 序列标注
- 命名实体识别NER (named entity recognition)
- nested
- 关系抽取relation extraction
- measurement extraction(感觉是个新任务,就我看到了这篇文章:Measurement Extraction with Natural Language Processing: A Review。感觉这个任务的实用性其实挺强的,先偷偷奶一口)
- 命名实体识别NER (named entity recognition)
- 事件检测/事件抽取
- 信息检索information retrieval (IR)
- 召回-重排rerank
- 文本匹配
- 句子相似度
- 算法:BM25
- NLP基础知识 | 常见任务类型 | 信息检索
- 向量检索/向量相似性计算方法(持续更新ing...)
- 关键词提取(常用的Python3关键词提取方法)
- 主题分类/抽取
- 文本生成natural language generation (NLG)
- 文本摘要text summarization
- 抽取式摘要extractive summarization / 生成式摘要abstractive summarization
- 文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
- ROUGE指标
- ROUGE-S
- ROUGE-W
- ROUGE-L
- ROUGE-N(N常用1和2)
- 机器翻译machine translation
- paraphrase generation:生成输入文本的同义文本(相当于转述)
- PPT生成
- 问答QA
- 创新度novelty
- encoder-decoder架构
- seq2seq任务
- BLEU指标
- 文本摘要text summarization
- 自然语言理解NLU
- 蕴含识别entailment
- 槽填充slot filling(NLP基础知识 | 常见任务类型 | 槽填充 NLP课题入门 | day 15 | 槽填充)
- 意图识别/检测(NLP课题入门 | day 14 | 意图分类) 开放域/域外意图检测
- 阅读理解Machine Reading Comprehension (MRC)
- 讽刺检测sarcasm detection(NLP课题入门 | day 9 | 讽刺检测)
- 抄袭检测plagiarism detection A Review of Machine Learning based Plagiarism Detection Approaches
- 跨语言cross-language
- text style transfer(是NLG任务,但不像一般NLG任务是源域与目标域样本一比一匹配的,而是那种(比划)就是一堆对应一堆的那种)
- emotional recogniton
- decontectualization:大致来说就是把文中的一句话单拎出来进行修改,补全该句所需的上下文,表示原句意。说来复杂总之可以参考:为什么每次有人大声通电话时,我就很烦躁..._51CTO博客_有人大声说话就烦躁
- language detection
- 这篇工作上次更新代码已是5年前,上次回复issue已是2020年,所以感觉不太维护了:saffsd/langid.py: Stand-alone language identification system
- 程序语言处理PLP (programming language processing)
- program representation
- algorithm detection
- LegalAI:准备专门写一篇,等下吧