使用SimHash进行海量文本去重

2023-11-05

阅读目录

1. SimHash与传统hash函数的区别

2. SimHash算法思想

3. SimHash流程实现

4. SimHash签名距离计算

5. SimHash存储和索引

6. SimHash存储和索引

7. 参考内容

本文介绍的SimHash是一种局部敏感hash，它也是Google公司进行海量网页去重使用的主要算法。

1. SimHash与传统hash函数的区别

传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上仅相当于伪随机数产生算法。传统的hash算法产生的两个签名，如果原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别很大。所以传统的Hash是无法在签名的维度上来衡量原内容的相似度，而SimHash本身属于一种局部敏感哈希算法，它产生的hash签名在一定程度上可以表征原内容的相似度。

我们主要解决的是文本相似度计算，要比较的是两个文章是否相识，当然我们降维生成了hash签名也是用于这个目的。看到这里估计大家就明白了，我们使用的simhash就算把文章中的字符串变成 01 串也还是可以用于计算相似度的，而传统的hash却不行。我们可以来做个测试，两个相差只有一个字符的文本串，“你妈妈喊你回家吃饭哦，回家罗回家罗” 和 “你妈妈叫你回家吃饭啦，回家罗回家罗”。

通过simhash计算结果为：

1000010010101101111111100000101011010001001111100001001011001011

1000010010101101011111100000101011010001001111100001101010001011

通过传统hash计算为：

0001000001100110100111011011110

1010010001111111110010110011101

大家可以看得出来，相似的文本只有部分 01 串变化了，而普通的hash却不能做到，这个就是局部敏感哈希的魅力。

2. SimHash算法思想

假设我们有海量的文本数据，我们需要根据文本内容将它们进行去重。对于文本去重而言，目前有很多NLP相关的算法可以在很高精度上来解决，但是我们现在处理的是大数据维度上的文本去重，这就对算法的效率有着很高的要求。而局部敏感hash算法可以将原始的文本内容映射为数字（hash签名），而且较为相近的文本内容对应的hash签名也比较相近。SimHash算法是Google公司进行海量网页去重的高效算法，它通过将原始的文本映射为64位的二进制数字串，然后通过比较二进制数字串的差异进而来表示原始文本内容的差异。

3. SimHash流程实现

simhash是由 Charikar 在2002年提出来的，本文为了便于理解尽量不使用数学公式，分为这几步：

（注：具体的事例摘自Lanceyan的博客《海量数据相似度计算之simhash和海明距离》）

1、分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重，我们假设权重分为5个级别（1~5）。比如：“ 美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人 ” ==> 分词后为 “ 美国（4） 51区（5）雇员（3）称（1）内部（2）有（1） 9架（3）飞碟（5）曾（1）看见（3）灰色（4）外星人（5）”，括号里是代表单词在整个句子里重要程度，数字越大越重要。

2、hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字，还记得文章开头说过的吗，要把文章变为数字计算才能提高相似度计算性能，现在是降维过程进行时。

3、加权，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，比如“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”；“51区”的hash值为“101011”，通过加权计算为 “ 5 -5 5 -5 5 5”。

4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5”，把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加。

5、降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。最后算出结果为：“1 0 1 0 1 1”。

整个过程的流程图为：

4. SimHash签名距离计算

我们把库里的文本都转换为simhash签名，并转换为long类型存储，空间大大减少。现在我们虽然解决了空间，但是如何计算两个simhash的相似度呢？难道是比较两个simhash的01有多少个不同吗？对的，其实也就是这样，我们通过海明距离（Hamming distance）就可以计算出两个simhash到底相似不相似。两个simhash对应二进制（01串）取值不同的数量称为这两个simhash的海明距离。举例如下： 10101 和 00110 从第一位开始依次有第一位、第四、第五位不同，则海明距离为3。对于二进制字符串的a和b，海明距离为等于在a XOR b运算结果中1的个数（普遍算法）。

5. SimHash存储和索引

经过simhash映射以后，我们得到了每个文本内容对应的simhash签名，而且也确定了利用汉明距离来进行相似度的衡量。那剩下的工作就是两两计算我们得到的simhash签名的汉明距离了，这在理论上是完全没问题的，但是考虑到我们的数据是海量的这一特点，我们是否应该考虑使用一些更具效率的存储呢？其实SimHash算法输出的simhash签名可以为我们很好建立索引，从而大大减少索引的时间，那到底怎么实现呢？

这时候大家有没有想到hashmap呢，一种理论上具有O(1)复杂度的查找数据结构。我们要查找一个key值时，通过传入一个key就可以很快的返回一个value，这个号称查找速度最快的数据结构是如何实现的呢？看下hashmap的内部结构：

如果我们需要得到key对应的value，需要经过这些计算，传入key，计算key的hashcode，得到7的位置；发现7位置对应的value还有好几个，就通过链表查找，直到找到v72。其实通过这么分析，如果我们的hashcode设置的不够好，hashmap的效率也不见得高。借鉴这个算法，来设计我们的simhash查找。通过顺序查找肯定是不行的，能否像hashmap一样先通过键值对的方式减少顺序比较的次数。看下图：

存储：

1、将一个64位的simhash签名拆分成4个16位的二进制码。（图上红色的16位）

2、分别拿着4个16位二进制码查找当前对应位置上是否有元素。（放大后的16位）

3、对应位置没有元素，直接追加到链表上；对应位置有则直接追加到链表尾端。（图上的 S1 — SN）

查找：

1、将需要比较的simhash签名拆分成4个16位的二进制码。

2、分别拿着4个16位二进制码每一个去查找simhash集合对应位置上是否有元素。

3、如果有元素，则把链表拿出来顺序查找比较，直到simhash小于一定大小的值，整个过程完成。

原理：

借鉴hashmap算法找出可以hash的key值，因为我们使用的simhash是局部敏感哈希，这个算法的特点是只要相似的字符串只有个别的位数是有差别变化。那这样我们可以推断两个相似的文本，至少有16位的simhash是一样的。具体选择16位、8位、4位，大家根据自己的数据测试选择，虽然比较的位数越小越精准，但是空间会变大。分为4个16位段的存储空间是单独simhash存储空间的4倍。之前算出5000w数据是 382 Mb，扩大4倍1.5G左右，还可以接受。

6. SimHash存储和索引

1. 当文本内容较长时，使用SimHash准确率很高，SimHash处理短文本内容准确率往往不能得到保证；

2. 文本内容中每个term对应的权重如何确定要根据实际的项目需求，一般是可以使用IDF权重来进行计算。

7. 参考内容

1. 严澜的博客《海量数据相似度计算之simhash短文本查找》

2. 《Similarity estimation techniques from rounding algorithms》

http://bi.dataguru.cn/article-9604-1.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用SimHash进行海量文本去重的相关文章

MPU6050 - 陀螺仪 - 技术总结

博主福利 xff1a 100G 43 电子设计学习资源包 xff01 http mp weixin qq com mp homepage biz 61 MzU3OTczMzk5Mg 61 61 amp hid 61 7 amp sn 61
SystemUI模块总结

SystemUI模块总结 1 SystemUI路径 SystemUI被放在 framework base packages apps SystemUI 在该目录的二级目录src com android下可看到SystemUI和Keyguar
Linux Ubuntu搭建Git服务器

之前介绍过如何在Windows上搭建Git仓库服务器不过服务器用的比较多的还是Linux 因为便宜同一个VPS商一般来说Linux比Windows便宜没有图形界面低配置VPS的也可以跑动Linux 开源免费我感觉比较灵活下载源也
解决TypeError: string indices must be integers, not str

遇到问题 ExtendValue area 1 info year 2014 a 12 b 3 c 5 trip country CN 在按照字典访问的时候报错 TypeError string indices must be integ
QT+Opencv 时报错Failed to load module “canberra-gtk-module“

解决方案 sudo apt get install libcanberra gtk module
一文讲透缓存方案及常见问题——进阶篇

前文有提到缓存其中一种实施方式是利用硬件的读取速度的差异来做缓存加速但是更高速的存储介质往往受限于成本价格贵或硬件限制 CPU缓存物理大小其容量相较硬盘要小很多再加上根据二八原则热点数据可认为只占20 因此无论是处于实用还是成
一文看尽深度学习中的各种数据增强

目录引言数据增强的定义数据增强的作用省钱省时省心提升模型性能数据增强的方式基础数据增强方法 Image Manipulation Rotation Translation Shearing Flipping Croppin
ORA-04088（ORA-04084）: cannot change NEW values for this trigger type

gt gt gt bug背景 gt gt gt bug来源一个定时任务的删除操作这里需要删除原来数据然后插入定时采集到的数据因采集到的数据中没有id这个字段所以插入这个过程需要借助oracle的触发器来自动生成一个id 最终我写的
shell 脚本一键生成busybox从零创建文件系统for x86_64

bin sh update images for x86 64 git clone https github com torvalds linux git depth 1 verbose cd linux make defconfig cp
HBase RegionServer功能职责

RegionServer功能职责租约管理 HBase的租约管理功能主要应用在scan查询上如果客户端执行scan操作以后在60秒内没有将Scanner进行关闭也没有显示的将租约移除这时查询租约将会过期 RegionServer会强
No Dialect mapping for JDBC type :0

data service 架构 spring Roo hibernate mysql 在调用stored procedure的时候出现 No Dialect mapping for JDBC type 0 通过反编译java sql Ty
Spring Boot 添加拦截器

文章目录 Spring Boot 添加拦截器方法1 新增拦截器配置拦截器方法2 新增拦截器配置拦截器拦截所有响应 Spring Boot 添加拦截器介绍一下在Spring Boot 2 0 0以上版本如何添加拦截器方法1 新增
如何自己手动搭建一个RSS订阅机器人（rssbot），自己做一个RSS阅读器

当你想RSS订阅一些自己感兴趣的博客却又苦于免费的RSS阅读器广告很多时可以自己借助Telegram机器人搭建一个RSS订阅机器人本文老王介绍下如何搭建一个Telegram RSS订阅机器人以及如何把RSS订阅机器人拖到Telegr
js实现贪吃蛇小游戏
qemu 启动自定义文件系统命令

kvm qemu aarch64 bin qemu system aarch64 M virt smp 8 cpu cortex a76 m 4G nographic kernel out kernel arm64 Image append
Java里的锁

前言锁最初是人类为了保护自己的财产而发明的一种用钥匙才能开启的装置防范的是外部人员正常手段下没有钥匙是不能绕过物理锁的而在程序世界里锁的设计则是为了保护数据资源但并不能防范外部攻击只能算是内部协作的一个约束无论内外部只要
Spring Boot —— Security 控制按钮权限

文章目录 Spring Boot Security 控制按钮权限前言实现引入对应的依赖配置标签 Spring Boot Security 控制按钮权限前言在freemarker中通过Security根据用户角色控制页面按钮或菜
HttpMediaTypeNotAcceptableException的解决过程

今儿的Web项目中突然报错 HttpMediaTypeNotAcceptableException Could not find acceptable representation 涉及接口是 RequestMapping value X
Spring Boot —— Log的八个日志级别

文章目录 Spring Boot Log的八个日志级别前言 ALL TRACE DEBUG INFO WARN ERROR FATAL OFF Spring Boot Log的八个日志级别前言在项目中会出现经常使用日志的情况而日志又
1264 - Out of range value for column 'id' at row 1

1 我用的是mysql 在数据插入是报错原因是我插入的值超过了数据库中类型和长度设置 1 1 我的插入语句注意 id 的值 INSERT INTO test id sex name username password classes

随机推荐

jsch jar包连接不上ssh报Algorithm negotiation fail 错误

报错信息 com jcraft jsch JSchException Algorithm negotiation fail 问题分析 sshd配置中没有打开支持jsch jar内需求的算法默认开放的算法在man sshd config中可
CUDA各版本网址、CUDNN各版本网、以及对应关系

CUDA网址 CUDA CUDNN网址 CUDNN 对应关系网址官网对应关系在最下面
SQL注入自动化python脚本

写了一个python3注入sql的脚本临近毕业尝试写一些自动注入和自动扫描的脚本发现还是不够自动后面我再改改现在脖子疼实现效果代码如下 import requests from bs4 import BeautifulSoup
2022 最新版本 Docker 学习_4.Docker 阿里云镜像配置 & 基本命令介绍

一 Docker 阿里云镜像配置上一篇博客中我们提到了 Docker Hub 镜像地址这个也是 Docker 默认的镜像地址但是因为服务器在国外我们在国内访问速度比较慢有时候甚至都打不开 Docker Hub 地址 Docker
mybatis 一对多映射问题

问题描述 Could not set property roleList of class com ck mybatis model SysUser with value 当使用mybatis进行一对多查询使用collection 标签时出
nginx源码层面探究request_time、upstream_response_time、upstream_connect_time与upstream_header_time指标具体含义

优质资源分享学习路线指引点击解锁知识定位人群定位 Python实战微信订餐小程序进阶级本课程是python flask 微信小程序的完美结合从项目搭建到腾讯云部署上线打造一个全栈订餐系统 Python量化交易实战入门级手
Android Studio: 模拟器启动失败解决（Emulator: Process finished with exit code 139）

Android Studio 版本 3 4 2 CPU AMD Ryzen 7 3700x 8 core processor 16 OS ubuntu 18 04 错误log 下午6 05 Emulator statvfs home duq
常见的排序算法——插入排序

3 插入排序 1 基本思想插入排序是将n个待排元素的序列看成两个表分别为有序表和无序表起初有序表中只有一个元素即下标为0的元素无序表中含有 n 1个元素即下标从1到n 1的元素排序过程就是每次将无序表中的第一个元素拿出然后
Visualgo -- 数据结构和算法动态可视化网站

网址为 https visualgo net zh 这个网站涉及的算法十分全面不仅支持多种算法可视化动态演示还支持搜索是学习算法的好帮手推荐给大家
STL（四） std::string /std::wstring 查找、删除、替换(find erase replace)

std string std wstring 类在C 中是一个非常重要的存在不管程序规模大小很难避免不用到功能很强大但是总感觉距离好用还差了那么一点点首先需要明白一点 std string是STL中的一员所以有关stl
盘点慢查询原因及优化方法

目录一前言二准备 type重点看三慢查询原因和解决 1 sql未加索引 2 索引失效 3 limit深分页问题 1 limit深分页为什么会慢 2 深分页优化 4 in元素过多 5 join 或者子查询过多 6 order by
YARN与MapReduce1的区别

YARN与MapReduce1的区别 1 组成对比 MapReduce1中两类守护进程控制着作业执行过程一个JobTracker和一个或多个TaskTracker JobTracker通过调度TaskTracker上运行的任务来协调所有
【Linux】浅谈eloop机制

目录 1 eloop 机制 2 eloop结构体 2 1 eloop data结构体 2 2 Socket事件结构体 2 3 Timeout事件结构体 2 4 Signal事件结构体 3 eloop init 4 eloop run 4 1
CGAL-5.6的安装与编译（Win10+vs2022+CGAL-5.6+Boost1.82.0）

文章目录前言一安装Boost 1 下载 2 环境变量二安装CGAL和GMP and MPFR libraries 1 下载 2 解压 3 环境变量其他参考前言 CGAL是Computational Geometry Algo
2023年副业赚钱最快的方法，最后一个时代红利，你一定要抓住！

你有没有发现生活中大部分的烦恼归根结底只有一个原因没钱守着几千块的死工资升职加薪难上加难平时要为了省十几块钱不舍得打车跟老公三天两头吵架原因不过就是家里没钱给孩子报学费高昂的兴趣班平时想买瓶香水都要费心思让老公送出个远门
Java定时任务调度工具详解之Timer篇(初级)

一 Timer简介定时任务的基本概念 Timer的函数综合运用和缺陷基于给定的时间点给定的时间间隔或者给定的执行次数自动执行的任务 Timer 和Quartz Timer 出身由jdk提供调用方式简单粗暴能力 Timer能完成
计算机内存只认4,为什么电脑的8GB内存只有7.45GB可用？

今天偶遇到这样一个问题本来8GB内存的笔记本系统却只有7 45GB可用具体什么现象请看下图丢失了0 55GB内存为此我还特意百度了一下得到这样的结果电脑少的内存被核心显卡占用核心显卡和系统共享内存是不错但是我的这款i7 77
dac0832产生梯形波程序C语言,DAc0832产生三角波,正旋波,梯形波

DAc0832产生三角波正旋波梯形波换电路接成同相电压输出形式其输出电压Vout IR 1 R2 R1 8 1 利用dac0832产生三角波程序介绍单片机通过DAC0832转换在LM358的7脚输出三角波实际应用如函数波形
2021年你一定要了解的概念——元宇宙

2021年是元宇宙元年随着VR AR 3D和脑机接口技术的不断进步元宇宙的广阔市场被逐渐打开除了最接近元宇宙形态的沙盒游戏外你还了解多少元宇宙的知识 Part 1 什么是元宇宙元宇宙的概念一提出来所有人都在说元宇宙那么元宇宙到
使用SimHash进行海量文本去重

阅读目录 1 SimHash与传统hash函数的区别 2 SimHash算法思想 3 SimHash流程实现 4 SimHash签名距离计算 5 SimHash存储和索引 6 SimHash存储和索引 7 参考内容本文介绍的SimHash

使用SimHash进行海量文本去重

使用SimHash进行海量文本去重 的相关文章

随机推荐

热门标签

使用SimHash进行海量文本去重的相关文章