我有一个包含数千条记录的大型数据库。每次用户发布他的信息时,我都需要知道是否已经有相同/相似的记录。有没有算法或开源实现来解决这个问题?
我们用的是中文,“相似”的意思是记录内容最相同,可能80%-100%是相同的。每条记录不会太大,大约2k-6k字节
http://d3s.mff.cuni.cz/~holub/sw/shash/ http://d3s.mff.cuni.cz/~holub/sw/shash/
http://matpalm.com/resemblance/simhash/ http://matpalm.com/resemblance/simhash/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)