task2有版本的问题，重新下载numpy包词袋模型，将文档向量化，用余弦相似度。缺点：丢失语序 TF-IDF 1.

有版本的问题，重新下载numpy包词袋模型，将文档向量化，用余弦相似度。缺点：丢失语序

TF-IDF

某个词在当前文档里出现的次数 / 文档总词数

TF(t,d)=文档 d 总词数词 t 在文档 d 中出现次数

总文档数 / 包含这个词的文档数（再取 log）

IDF(t)=log(包含词 t 的文档数+1总文档数)

TF_IDF(t,d)=TF(t,d)×IDF(t)

序号化：构建词典-》增加特殊词源-》映射

而这其中最核心的技术就是矩阵分解（Matrix Factorization）

将构建“词-文档”矩阵用TF-IDF-》特征分解-》获取词向量

svd算法：特征值，特征向量归一化，奇异值等于特征值开根号，用1/奇异值组成奇异对角矩阵，U=被分解矩阵特征向量矩阵奇异对角矩阵的逆。

pca算法：主成分分析法，

将语句用jieba分割，用分割后的词创建字典，最后用字典创建向量。 Word2Vec 包含 CBOW 和 Skip-gram 两种具体的实现模型