莱文斯坦距离

122 阅读1分钟

概述

Levenshtein 距离,也称编辑距离,是一种字符串度量,用于衡量两个序列之间的差异。通俗地说,两个字符串之间的 Levenshtein 距离是将一个字符串更改为另一个字符串所需的最小单字符编辑(插入、删除或替换)次数

使用方法

计算将一个序列更改为另一个序列所需的最少插入、删除和替换次数

distance = Levenshtein.distance("abdcderg","adcg")
# distance = 4

计算 [0, 1] 范围内的归一化插入缺失相似度

202408012240.png

ratio = Levenshtein.ratio("abdcderg","adcg")
# ratio = 0.6666666666666667