文本分析随记

145 阅读1分钟

停用词

可从网上获取停用词语料库。

TF-IDF关键词提取

1.这篇文章当中出现次数最多的词 2.多篇文章当中出现次数最多的词

"逆文档频率"(Inverse Document Frequency, 缩写为IDF)

相似度

1.数据清洗 --> 2.分词 --> 3.构造向量
词转换成向量效果会比较好(word2vec), 文章和句转换成向量效果会差一点。