我正在搜索一种哈希函数来索引相似的文本。例如,如果我们有两个非常长的文本,称为“A”和“B”,其中 A 和 B 相差不大,那么应用于 A 和 B 的哈希函数(称为 H)应该返回相同的数字。
因此 H(A) = H(B),其中 A 和 B 是相似的文本。
我尝试了“DoubleMetaphone”(我使用意大利语文本),但我发现它对字符串前缀的依赖性非常强。例如:
A =“这是我想要散列的很长的文本”
B =“这就是”
==> 双元电话 (A) = 双元电话 (B)
这对我来说不太好,因为具有相同前缀的字符串可以被比较为相似,而我不想要这样。
有人可以建议我任何其他方式吗?
see http://en.wikipedia.org/wiki/Locality_sensitive_hashing http://en.wikipedia.org/wiki/Locality_sensitive_hashing
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)