NLP 学习笔记9-停用词

311 阅读1分钟

一 序

  本文属于NLP学习笔记系列。

二 停用词

对于NLP的应用,我们通常将停用词、出现频率很低的词过滤掉。

关于停用词词典,可以看下之前的: 文本预处理与停用词

这个主要是对业务影响不大,不影响分析,类似于特征筛选的过程。

要考虑自己的应用场景。

case:一些形容词通常会过滤掉,但是在情感分析中表达语气要保留。

自己会做修改。

三 词的标准化

  这块就是英文的。举例:went,go,going  时态不同,还有单复数,比较级等等。

  涉及技术:

   词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)

  词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)

  中文不涉及,所以就不看了。感兴趣的可以看看porter stemmer.