task2

6 阅读1分钟

有版本的问题,重新下载numpy包 词袋模型,将文档向量化,用余弦相似度。缺点:丢失语序

TF-IDF

1. TF(词频)

某个词在当前文档里出现的次数 / 文档总词数

TF(t,d)=文档 d 总词数词 t 在文档 d 中出现次数​

2. IDF(逆文档频率)

总文档数 / 包含这个词的文档数(再取 log)

IDF(t)=log(包含词 t 的文档数+1总文档数​)

3. 最终得分

TF_IDF(t,d)=TF(t,d)×IDF(t)

N-gram 模型的优劣

序号化:构建词典-》增加特殊词源-》映射

主题模型

而这其中最核心的技术就是矩阵分解(Matrix Factorization)

构建“词-文档”矩阵用TF-IDF-》特征分解-》获取词向量

svd算法:特征值,特征向量归一化,奇异值等于特征值开根号,用1/奇异值组成奇异对角矩阵,U=被分解矩阵特征向量矩阵奇异对角矩阵的逆。

pca算法:主成分分析法,

word2vec

将语句用jieba分割,用分割后的词创建字典,最后用字典创建向量。 Word2Vec 包含 CBOW 和 Skip-gram 两种具体的实现模型