有版本的问题,重新下载numpy包 词袋模型,将文档向量化,用余弦相似度。缺点:丢失语序
TF-IDF
1. TF(词频)
某个词在当前文档里出现的次数 / 文档总词数
TF(t,d)=文档 d 总词数词 t 在文档 d 中出现次数
2. IDF(逆文档频率)
总文档数 / 包含这个词的文档数(再取 log)
IDF(t)=log(包含词 t 的文档数+1总文档数)
3. 最终得分
TF_IDF(t,d)=TF(t,d)×IDF(t)
N-gram 模型的优劣
序号化:构建词典-》增加特殊词源-》映射
主题模型
而这其中最核心的技术就是矩阵分解(Matrix Factorization)
将构建“词-文档”矩阵用TF-IDF-》特征分解-》获取词向量
svd算法:特征值,特征向量归一化,奇异值等于特征值开根号,用1/奇异值组成奇异对角矩阵,U=被分解矩阵特征向量矩阵奇异对角矩阵的逆。
pca算法:主成分分析法,
word2vec
将语句用jieba分割,用分割后的词创建字典,最后用字典创建向量。 Word2Vec 包含 CBOW 和 Skip-gram 两种具体的实现模型