文本分析随记 wakacaca 2018-09-26 145 阅读1分钟 停用词 可从网上获取停用词语料库。 TF-IDF关键词提取 1.这篇文章当中出现次数最多的词 2.多篇文章当中出现次数最多的词 "逆文档频率"(Inverse Document Frequency, 缩写为IDF) 相似度 1.数据清洗 --> 2.分词 --> 3.构造向量 词转换成向量效果会比较好(word2vec), 文章和句转换成向量效果会差一点。