文本相似度算法(无监督算法)本文主要介绍文本相似度的非监督算法，相比较有监督的复杂模型，无监督模型和算法在现实场景下经常

1. Jaro distance

给定两个文本串 $s_1$ , $s_2$ ,他们的Joro距离定义为： Jaro公式其中： $m$ 表示两个字符串中match的字符数 $|s_i|$ 表示文本串长度 $t$ 表示换位(transpositoins)数目()

求match的字符数：分别来自 $s_1$ , $s_2$ 的字符，当他们相同或者距离小于 $d =\lfloor \frac{max(|x_i|,|x_2|)}{2}\rfloor - 1$ ,则被认为是match的。

比如： $s_1$ =“DIXON”, $s_2$ =“DICKSONX” 匹配空间距离 $d$ 计算出来等于3,则每一次从max(0,i-d)到min(i+d,xLen)的空间内比较（如果从横轴 $s_1$ 进行比较，xLen表示 $s_1$ 长度）。最终得到match数 $m=4$ 。

$s_1$ 中的每一个字符都会与 $s_2$ 中距离 $d$ 内的字符进行比较。将所有match的字符串，需要替调换顺序才能匹配的总数除以二就是transpositions的大小 $t$ 。这里两个字符串中匹配的分别是："DION"，“DION",所以 $t=0$ 。另外 $|s_1|$ =4, $|s_2|$ =8, 则： $d_j=\frac{1}{3}(\frac{4}{5} + \frac{4}{8} + \frac{4-0}{4})$

参考： rosettacode.org/wiki/Jaro_d…

2. PCA like SIF

image_1e6iak6751vvlhhabn51ltj1t1tm.png-65.4kB

第一步，对句子中的每个词向量，乘以一个独特的权值。这个权值是一个常数 $α$ 除以 $α$ 与该词语频率的和，也就是说高频词的权值会相对下降。求和后得到暂时的句向量。
然后计算语料库所有句向量构成的矩阵的第一个主成分 $u$ ，让每个句向量减去它在 $u$ 上的投影（类似PCA）。其中，一个向量 $v$ 在另一个向量 $u$ 上的投影定义如下：
代码实现：