python使用局部敏感性哈希算法，在海量数据中查询相似序列

2023-11-01

文章目录

一、原生python实现
二、第三方库datasketch使用

局部敏感性哈希是指：相似的哈希具有相似的原始序列

整体思路：

首先将数据装在不同的桶里（通过桶之间的Jaccard系数计算原始数据hash）
得到hash生成的规则
用这个规则来转换新的数据
将新数据生成的hash与原有的所有hash进行比较，选择最相似的

注：最后比较的过程不是两两匹配，每个不同的算法都有不同的简化的方式

局部敏感性hash详细请参考：https://www.cnblogs.com/fengfenggirl/p/lsh.html

一、原生python实现

文章、代码地址：https://blog.csdn.net/sgyuanshi/article/details/108132214

import numpy as np
from typing import List, Union


class EuclideanLSH(object):
    def __init__(self, tables_num: int, a: int, depth: int):
        """

        :param tables_num: hash_table的个数
        :param a: a越大，被纳入同个位置的向量就越多，即可以提高原来相似的向量映射到同个位置的概率，
                反之，则可以降低原来不相似的向量映射到同个位置的概率。
        :param depth: 向量的维度数
        """
        self.tables_num = tables_num
        self.a = a
        # 为了方便矩阵运算，调整了shape，每一列代表一个hash_table的随机向量
        self.R = np.random.random([depth, tables_num])
        self.b = np.random.uniform(0, a, [1, tables_num])
        # 初始化空的hash_table
        self.hash_tables = [dict() for i in range(tables_num)]

    def _hash(self, inputs: Union[List[List], np.ndarray]):
        """
        将向量映射到对应的hash_table的索引
        :param inputs: 输入的单个或多个向量
        :return: 每一行代表一个向量输出的所有索引，每一列代表位于一个hash_table中的索引
        """
        # H(V) = |V·R + b| / a，R是一个随机向量，a是桶宽，b是一个在[0,a]之间均匀分布的随机变量
        hash_val = np.floor(np.abs(np.matmul(inputs, self.R) + self.b) / self.a)

        return hash_val

    def insert(self, inputs):
        """
        将向量映射到对应的hash_table的索引，并插入到所有hash_table中
        :param inputs:
        :return:
        """
        # 将inputs转化为二维向量
        inputs = np.array(inputs)
        if len(inputs.shape) == 1:
            inputs = inputs.reshape([1, -1])

        hash_index = self._hash(inputs)
        for inputs_one, indexs in zip(inputs, hash_index):
            for i, key in enumerate(indexs):
                # i代表第i个hash_table，key则为当前hash_table的索引位置
                # inputs_one代表当前向量
                self.hash_tables[i].setdefault(key, []).append(tuple(inputs_one))

    def query(self, inputs, nums=20):
        """
        查询与inputs相似的向量，并输出相似度最高的nums个
        :param inputs: 输入向量
        :param nums:
        :return:
        """
        hash_val = self._hash(inputs).ravel()
        candidates = set()

        # 将相同索引位置的向量添加到候选集中
        for i, key in enumerate(hash_val):
            candidates.update(self.hash_tables[i][key])

        # 根据向量距离进行排序
        candidates = sorted(candidates, key=lambda x: self.euclidean_dis(x, inputs))
        return candidates[:nums]

    @staticmethod
    def euclidean_dis(x, y):
        """
        计算欧式距离
        :param x:
        :param y:
        :return:
        """
        x = np.array(x)
        y = np.array(y)
        return np.sqrt(np.sum(np.power(x - y, 2)))


if __name__ == '__main__':
    data = np.random.random([10000, 100])
    query = np.random.random([100])

    lsh = EuclideanLSH(10, 1, 100)
    lsh.insert(data)
    # 开始查询
    res = lsh.query(query, 20)
    res = np.array(res)
    print(np.sum(np.power(res - query, 2), axis=-1))  # 计算LSH的结果与query的结果的差距
    all_data = np.concatenate((data, [query]))
    sort = np.argsort(np.sum(np.power(all_data - query, 2), axis=-1))  # 线性查找真正的最接近的曲线
    print(np.sum(np.power(all_data[sort[:20]] - query, 2), axis=-1))  # 计算最接近的20个结果
    print(np.sum(np.power(all_data[sort[-20:]] - query, 2), axis=-1))  # 对比计算最远的20个结果

二、第三方库datasketch使用

github项目地址：https://github.com/ekzhu/datasketch

pip安装：pip install datasketch

1. 官方示例

from datasketch import MinHash, MinHashLSH

set1 = set(['minhash', 'is', 'a', 'probabilistic', 'data', 'structure', 'for',
            'estimating', 'the', 'similarity', 'between', 'datasets'])
set2 = set(['minhash', 'is', 'a', 'probability', 'data', 'structure', 'for',
            'estimating', 'the', 'similarity', 'between', 'documents'])
set3 = set(['minhash', 'is', 'probability', 'data', 'structure', 'for',
            'estimating', 'the', 'similarity', 'between', 'documents'])

m1 = MinHash(num_perm=128)
m2 = MinHash(num_perm=128)
m3 = MinHash(num_perm=128)
for d in set1:
    m1.update(d.encode('utf8'))
for d in set2:
    m2.update(d.encode('utf8'))
for d in set3:
    m3.update(d.encode('utf8'))

# Create LSH index
lsh = MinHashLSH(threshold=0.5, num_perm=128)
lsh.insert("m2", m2)
lsh.insert("m3", m3)
result = lsh.query(m1)
print("Approximate neighbours with Jaccard similarity > 0.5", result)

得到的结果：

Approximate neighbours with Jaccard similarity > 0.5 ['m3', 'm2']

2. LSH算法

文档地址：http://ekzhu.com/datasketch/documentation.html?highlight=minhashgenerator#minhash-lsh

import numpy as np
from datasketch import WeightedMinHashGenerator
from datasketch import MinHashLSH
from tqdm import tqdm

all_data = np.random.random([10000, 100])
query = np.random.random([100])

mg = WeightedMinHashGenerator(all_data.shape[1])
lsh = MinHashLSH(threshold=0.7)
for index, value in tqdm(enumerate(all_data)):
    m_hash = mg.minhash(value)
    lsh.insert(index, m_hash)

result = lsh.query(mg.minhash(query))
print(result)

# 开始验证
print(np.sum(np.power(all_data[result] - query, 2), axis=-1))  # 计算LSH的结果与query的结果的差距
total_data = np.concatenate((all_data, [query]))
sort = np.argsort(np.sum(np.power(total_data - query, 2), axis=-1))  # 线性查找真正的最接近的曲线
print(np.sum(np.power(total_data[sort[:20]] - query, 2), axis=-1))  # 计算最接近的曲线
print(np.sum(np.power(total_data[sort[-20:]] - query, 2), axis=-1))

3. MinHashLSHForest

MinHashLSHForest可以选择Top K的内容

import numpy as np
from datasketch import WeightedMinHashGenerator
from datasketch import MinHashLSHForest
from tqdm import tqdm

all_data = np.random.random([10000, 100])
query = np.random.random([100])

mg = WeightedMinHashGenerator(all_data.shape[1])
forest = MinHashLSHForest()
for index, value in tqdm(enumerate(all_data)):
    m_hash = mg.minhash(value)
    forest.add(index, m_hash)

forest.index()  # 重要！在此之后才可以使用查询功能
result = forest.query(mg.minhash(query), 20)  # 选择top20
print(result)

# 开始验证
print(np.sum(np.power(all_data[result] - query, 2), axis=-1))  # 计算LSH的结果与query的结果的差距
total_data = np.concatenate((all_data, [query]))
sort = np.argsort(np.sum(np.power(total_data - query, 2), axis=-1))  # 线性查找真正的最接近的曲线
print(np.sum(np.power(total_data[sort[:20]] - query, 2), axis=-1))  # 计算最接近的曲线
print(np.sum(np.power(total_data[sort[-20:]] - query, 2), axis=-1))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

大数据

哈希算法

python使用局部敏感性哈希算法，在海量数据中查询相似序列的相关文章

使用 InlineKeyboardButton python telegram bot 发送命令

在Python电报机器人中是否有可能InlineKeyboardButton发送类似命令 cancel当它被按下时例如当用户按下取消按钮时他们将自动发送 cancel 命令然后由机器人处理从这里的例子来看 https githu
使用单个文件的 Python 日志记录（函数名、文件名、行号）

我正在尝试了解应用程序的工作原理为此我将调试命令插入作为每个函数主体的第一行目的是记录函数的名称以及向日志输出发送消息的行号代码内最后由于这个应用程序由许多文件组成我想创建一个日志文件以便我可以更好地理解应用程序的控制流这
分配列表的多个值

我很想知道是否有一种 Pythonic 方式将列表中的值分配给元素为了更清楚我要求这样的事情 myList 3 5 7 2 a b c d something myList So that a 3 b 5 c 7 d 2 我正在寻找比手
区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
绝对导入不起作用，但相对导入起作用

这是我的应用程序结构 foodo setup py foodo init py foodo py models py foodo foodo foodo py从导入类models py module from foodo models im
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
Jupyter笔记本突然变得很慢

我以前在anaconda环境下运行jupyter运行得很好显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
使用 Windows 任务计划程序安排 [Virtualenv 相关] Python 脚本

I want to schedule a python script to start at 3AM and break at 5PM every weekday However the problem arises when I need
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
在 for 循环中访问 itertools 产品的元素

我有一个列表列表是附加 itertools 产品的一些其他结果的结果我想要的是能够使用 for 循环访问列表列表中列表的每个元素但我无法访问所有元素我只能访问最后一个列表的元素结果是一个非常巨大的列表列表例如 1 2 4 3 6
Python matplotlib：将轴标签/图例从粗体更改为常规粗细

我正在尝试制作一些出版质量的图但遇到了一个小问题默认情况下 matplotlib 轴标签和图例条目的权重似乎比轴刻度线重是否有办法强制轴标签图例条目与刻度线的重量相同 import matplotlib pyplot as plt
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过

随机推荐

Leetcode动态规划部分典型题目分类及总结

参考内容 https leetcode cn com problems longest palindromic substring solution zhong xin kuo san dong tai gui hua by liweiwe
创建vue脚手架时，npmERR报错的解决方法

创建vue脚手架 1 我是刚学vue的小白在安装vue脚手架的时候遇到了安装时出现的问题查阅了我几个小时苦苦在挣扎着确实难受想借此机会把它给记录下来希望能帮助更多的初学者解决疑惑 2 我在安装时遇到了这个问题当时我一直在网上
Ubuntu安装nvidia显卡驱动，CUDA与CUDNN

本文提到的文件可以在这里下载链接 https pan baidu com s 1cfo0xqrXoK3pA4pHUN3Mcw 提取码 kdjq 目录 1 安装nvidia显卡驱动 2 安装CUDA 3 安装CUDNN 1 安装nvidia
[错误解决] paramiko.ssh_exception.SSHException: Error reading SSH protocol banner

最近项目中需配置sftp上传下载配置好环境后连接报错报错信息如图 paramiko ssh exception SSHException Error reading SSH protocol banner 解决方式一设置banner
域名解析的查看

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档目录一配置域名解析 DNS与Host 1 hosts文件 2 配置DNS 3 Host表解析与DNS机械的次序由文件 etc host conf决定 Hosts优先于DN
图的广度优先遍历 + 拓扑排序(笔记)

广度优先遍历模板题广度优先遍历的大体思路就是每次扩展当前一步能到达的未标记的点加入队列中并标记每次也从队列中拿出一个点进行扩展该题是让求最权值都相等的短路我们就可以利用广度优先搜索来求 include
数据仓库理论知识

一数据仓库与数据集市可以简单理解为数据仓库是面向整个企业而数据集市是面向某个部门的数据集市的数据来自数据仓库当然如果没有数据仓库数据集市的数据也可以直接取自业务数据库 1 离线与实时离线数仓从业务上看对已知范围的数据定时
linux 动态库段错误,dlopen加载so动态链接库出现段错误的问题

so库中暴露出来的函数写在某基类头文件中大体如下 ifdef cplusplus extern C endif Object construct return new Object void destroy Object object
Linux操作系统基础知识学习

Q1 什么是GNU Linux与GNU有什么关系 A 1 GNU是GNU is Not Unix的递归缩写是自由软件基金会 Free Software Foundation FSF 的一个项目该项目已经开发了许多高质量的编程工具包括e
STM32串口调试一直打印 00 00

在STM32串口调试过程中通过printf函数往串口打印英文字母串口助手却一直收到 00 凭直觉这种情况一般都是时钟没配置好但是查代码很难找到原因经过反复查找发现是STM32CubeMX中时钟源选择错误就是下面这个地方切记一
Go 语言运行时环境变量快速导览

原文 http dave cheney net 2015 11 29 a whirlwind tour of gos runtime environment variables Go 语言运行时环境变量快速导览介绍 Go Runtime除
ubuntu 打包deb并带有安装目录

0 简介当在ubuntu下开发了一个工程期望以deb包的形式发布出去的时候会涉及到打包操作基本指令是 dpkg b
docker registry2 仓库搭建与使用

docker registry2 仓库搭建与使用 docker pull registry 1 docker io distribution registry 2 1 1 以TLS证书认证启动docker registry2 产生证书 mk
hibernate关联关系

前言今天要分享的知识是hibernate框架的关联关系码字不易点个赞转载请说明开发工具 eclipse 目录一一对多的配置二懒加载 1 定义懒加载可以这样理解只加载某一项东西其他的东西不会加载 2 操作在我们进行项
问题解决：WSL2 中进行 apt-get-update 失败

WSL2 子系统在一些操作上还是很方便的但因为有些配置和 Windows 共用的原因总会出现这样那样的问题比如今天安装 Redis 的时候需要提前进行包更新结果却报错 Failed to fetch 这个问题的出现我首先是考虑国外源
Error: JAVA_HOME is not set

启动Hadoop时显示这句话解决方法通过echo JAVA HOME找到java安装目录在hadoop的配置目录etc hadoop中我的是 usr local hadoop etc hadoop 修改hadoop env sh配置
jenkins - Manage and Assign Roles

Role Strategy Plugin 插件针对多个project进行权限控制访问上几张图希望你能看明白哈哈 1 png 710dba0dgy1fkgqp3cze1j219g0kmn24 jpg 710dba0dgy1fkgqp
MySQL查询语句in子查询的优化

项目中有需要使用MySQL的in子查询查询符合in子查询集合中条件的数据但是没想到的是 MySQL的in子查询会如此的慢让人无法接收于是上网搜索解决办法下面记录下一原始in子查询 SELECT FROM basic zdjb
Ubuntu系统上安装WPS

前言在Ubuntu系统下想使用WPS的功能觉得用起来更加方便所以在此记录一下安装的步骤记录两种安装方法方法一 Ubuntu Software中搜索WPS 如图所示在Ubuntu Software中搜索WPS 可能需要稍等一会再
python使用局部敏感性哈希算法，在海量数据中查询相似序列

文章目录一原生python实现二第三方库datasketch使用 1 官方示例 2 LSH算法 3 MinHashLSHForest 局部敏感性哈希是指相似的哈希具有相似的原始序列整体思路首先将数据装在不同的桶里通过桶之间的