如何在局部敏感哈希中将向量哈希到桶中（使用杰卡德距离）？

2023-12-25

我正在实现一个近邻搜索应用程序，它将找到类似的文档。到目前为止，我已经阅读了大量 LSH 相关材料（LSH 背后的理论有些令人困惑，我还不能 100% 理解它）。

我的代码能够使用 minhash 函数计算签名矩阵（我已接近尾声）。我还在签名矩阵上应用了条带策略。但是，我无法理解如何将带中的（列）签名向量散列到存储桶中。

我的最后一个问题可能是最重要的一个，但我必须问一些introduction问题：

q1：哈希函数将仅映射same向量到同一个桶？（假设我们有足够的桶）

q2：哈希函数是否应该映射similar向量到同一个桶？如果是，这种相似性的程度/定义是什么，因为我不是在计算比较，而是在进行散列。

q3：根据上面的问题，我应该使用什么样的哈希表算法？

q4：我认为我最弱点是我不知道如何生成一个以向量作为输入并选择一个桶作为输出的哈希函数。我可以根据 q1 和 q2 自己实现一个...有关为 LSH 生成哈希函数的任何建议bucketing?

q1：你不应该对整个向量进行哈希处理，而应该对其中的一部分进行哈希处理。假设您有代表每个项目的长度为 100 的向量，您可以散列 5 个长度为 20 的切片。

q2：这是整个事情背后的主要思想：通过比较事物的各个部分是否相等来衡量相似性。如果将文本中的句子视为向量，则两个句子不太可能完全相同（具有相同的哈希输出）。但是，如果您将它们分成几部分并分别对各个部分进行散列，则相同位置中某些匹配的单个单词的散列将返回相同的散列输出，因此您可以了解句子的相似性。

切片的数量和长度是影响相似性结果准确性的重要参数。太多的切片会产生很多误报，而太少的切片只能识别最高程度的相似性。

您可以在《海量数据集挖掘》一书中找到更多相关信息，该书位于：http://infolab.stanford.edu/~ullman/mmds.html http://infolab.stanford.edu/~ullman/mmds.html

q3：您需要一个数据结构，对于每个切片级别，它可以保留每个向量切片的哈希结果，以及生成它的向量。然后，当想要找到向量 X 的相似邻居时，你可以检查每个切片的数据结构，看看你得到的哈希输出是否也是由另一个向量输出的。

q4：我不确定你的意思。如果对一个对象进行哈希处理，通常会得到一个位字符串、一个整数或一个浮点数作为输出，具体取决于语言。就是那个桶。如果您在不同的对象上使用相同的哈希函数获得相同的输出，则意味着它们在同一个存储桶上进行哈希处理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在局部敏感哈希中将向量哈希到桶中（使用杰卡德距离）？的相关文章

以编程方式 Godaddy 发送的电子邮件不在“已发送邮件”文件夹中 C#.net

我正在通过以下方式发送电子邮件ASP NET代码使用godaddy邮件服务器邮件发送成功但未存储在已发送邮件文件夹中我正在使用下面的代码 SmtpClient client new SmtpClient client Host smt
C#9 顶级语句文件上的属性

我正在尝试向顶级语句文件添加属性但没有找到任何相关信息是否可以对于某些上下文我想仅在该文件中禁用规则 SuppressMessage StyleCop CSharp LayoutRules SA1516 ElementsMustBe
从 .Net 将简单数据插入 Excel 文件的最简单方法

我有一个 Excel 文件大约有 10 列和 1 20 行我需要插入 1 20 行包含各种数据元素我想知道是否有一种方法可以将一些标签放入 Excel 文件中以便可以找到并替换它们将列标记为名称的东西这样我就可以在代码中说
浏览器收集哪些值作为回发数据？

当页面被发送回服务器时浏览器收集每个控件的当前值并将其粘贴到一个字符串中然后该回发数据通过 HTTP POST 发送回服务器 Q1 除了控件的 Text 属性和 SelectedIndexchanged 因此除了用户输入数据之外控
如何检查 .NET 4.0 中的泛型参数是否是动态的

我有课ObjectMapper
C# ConfigurationManager 从 app.config 检索错误的连接字符串

我有一个简单的 WinForms 应用程序它最终将成为一个游戏现在我正在研究它的数据访问层但遇到了障碍我创建了一个单独的项目名为DataAccess在其中我创建了一个本地 mdfSQL Server 数据库文件我还创建了一个
如何在 C++ 的子目录中创建文件？

这是我的代码如何在子目录联系人中创建文件每次创建该文件时它都会出现在与我的程序相同的目录中 int main ofstream myfile contacts myfile open a myfile close 在构造函数中指定完整
Windows 程序如何临时更改其时区？

我写了一个函数来返回time t与给定日期的午夜相对应的值当给定日期没有午夜时它返回最早可用的时间例如当埃及进入夏令时时这种情况就可能发生今年时间更改于 4 月 29 日晚上午夜生效因此时钟直接从 23 59 转到 01 0
在 C++ 中处理音频缓冲区时，如何执行从 float -> double -> float 的转换

我目前正在开发一个应用程序其中音频样本帧在以下回调中进行处理 void Eav07AudioProcessor processBlock AudioSampleBuffer buffer for int channel 0 channel
AspNetCore.SignalR：无法启动未处于初始状态的连接

我无法让 ASP NET Core SignalR 应用程序正常运行我有这个服务器端代码 public class PopcornHub Hub private int Users public async Task BroadcastN
从存储过程返回 int 值并在 ASP.NET 代码中检查它以验证登录表单

当我多次尝试但没有得到有效结果时使此代码运行的真实顺序是什么 SQL存储过程的代码 set ANSI NULLS ON set QUOTED IDENTIFIER ON GO ALTER PROC dbo login proc usern
打破条件变量死锁

我遇到这样的情况线程 1 正在等待条件变量 A 该变量应该由线程 2 唤醒现在线程 2 正在等待条件变量 B 该变量应该由线程 1 唤醒在我使用的场景中条件变量我无法避免这样的死锁情况我检测到循环死锁并终止死锁参与者的线程之一
函数模板重载解析期间的 MSVC 与 Clang/GCC 错误，其中一个函数模板包含参数包

当我使用参数包时我注意到这样一种情况如下所示在 gcc 和 clang 中编译得很好但在 msvc 中却不行 template
.NET 的 HttpWebResponse 是否会自动解压缩 GZiped 和 Deflated 响应？

我正在尝试执行一个接受压缩响应的请求 var request HttpWebRequest HttpWebRequest Create requestUri request Headers Add HttpRequestHeader Acc
C# - 命名空间内的类型声明

在命名空间内而不是在类中声明类型的可能用途是什么 For ex namespace Test public delegate void Ispossible 这是有效的并且不会产生任何编译错误但我无法想象为什么我们会以这种方式声明它而不是
如何使用eclipse构建C++应用程序

我已经从以下位置下载了 Eclipse Juno for C here http www eclipse org downloads download php file technology epp downloads release ju
为什么从绑定返回的对象会忽略额外的参数？

假设我有一个带有两个参数的函数 void f int x int y 我想绑定其中之一我可以用std bind如下 auto partiallyBoundF std bind f 10 1 partiallyBoundF仅需要一个参数但
编译器什么时候内联函数？

在 C 中函数仅在显式声明时才内联inline 或在头文件中定义或者编译器是否允许内联函数因为他们认为合适 The inline关键字实际上只是告诉链接器或告诉编译器告诉链接器同一函数的多个相同定义不是错误如果您想在标头中定义函
计算两个日期之间的工作日数？

在C 中如何计算business 或工作日两个日期之间的天数我以前曾经遇到过这样的任务并且我已经找到了解决方案当可以避免的时候我会避免列举其间的所有日子这里就是这种情况正如我在上面的一个答案中看到的那样我什至没有提到创建一
如何获取通过网络驱动器访问的文件的 UNC 路径？

我正在 VC 中开发一个应用程序其中网络驱动器用于访问文件驱动器由用户手动分配然后在应用程序中选择驱动器这会导致驱动器并不总是映射到相同的服务器我该如何获取此类文件的 UNC 路径这主要是为了识别目的这是我用来将普通路径转换为

随机推荐

在Python中广播套接字服务器[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在构建一个多人游戏所以一旦服务器启动我想连续广播服务器名称以便客户端可以知道有一些服务器正在运行我不想提供连接服务器的 IP
Appcelerator：[错误]应用程序安装程序进程异常终止。进程退出值为 1

我知道这个问题已经被问过很多次了但到目前为止给出的答案并没有解决我的问题当尝试为 Android 设备模拟器包构建应用程序时 Appcelerator 会出现以下错误错误应用程序安装程序进程异常终止进程退出值为 1 我检查了所
将节点添加到现有根元素

我正在尝试使用 C QDOM 元素将子节点添加到现有根节点但不成功我的xml会是这样的
使用共享库和不匹配的编译器

使用与您的程序不同的编译器版本编译的共享库有什么机会会引入问题如果您的程序使用的语言标准与他们的不同怎么办例如如果我在使用 gcc 6 c 14 编译代码时链接使用 gcc 4 8 c 11 编译的 boost 库这可能会出现问题吗
NFC 读卡器 ACR 122 与 Android 4.1 Jelly Beans 不兼容？

我之前使用过 ACR 122 它与 Android 自 Android 4 1 Jelly Bean 起 NFC 点对点通信配置为使用更高的比特率 212 kbps 而早期则使用 106 kbps 在安装了 Google 钱包的 Andro
xaml c# 中的可观察集合静态资源

我想创建一个可观察的集合并将其绑定到组合框下拉列表的项目源我需要将此集合作为资源页面网格以便能够在数据模板内绑定到它需要帮助定义类结构示例类结构确实会有帮助收集非常简单例如所有国家的列表重要的要求是我应该能够向其中添加项目
Android 中的文本右对齐？

我需要做什么特殊的事情才能使文本在
使用 Arrays.asList 初始化 List 时遇到问题

当我初始化列表时我可以这样做 List
为什么在访问对象属性时应该使用 KVC 而不是简单的点语法？

如果接收者类符合 NSKeyValueProtocol 则可以选择走很长的路 myInstance setValue NSNumber numberWithInt 2 forKey integerProperty 或简短的方式 myInst
通过 tcsetattr(fd.....) 设置终端属性时，fd 可以是 stdout 或 stdin 吗？

我一直在研究人 3 tcgetattr http linux die net man 3 tcgetattr 因为我想更改程序中的终端设置并找到了这个 int tcgetattr int fd struct termios termios
有什么方法可以命名相同类型的倍数吗？

注意使用 NET Core 2 0 Microsoft Extensions DependencyInjection 这是我想做的 IServiceCollection collection new ServiceCollection c
如何在对某些 SQL 行运行进程时锁定它们？

我的工作有一个财务应用程序用以下语言编写VB NET with SQL 多个用户可以同时处理在某些时候一个用户可能决定发布他们可能还有其他人当前正在处理的一批条目显然我不再希望任何其他用户add edit or delete该
Windows 上的 PySide2

有谁知道在哪里可以找到 PySide2 的 pip install 现在是 2017 年我似乎找不到包含 PySide2 二进制文件的 pip 安装或站点包我不喜欢自己下载源代码并编译它因为这通常会让人非常头疼因为它从来都不是一个顺
Angular ngx-ssrs-reportviewer 凭证问题

I am having SSRS report server credentials I want the users to auto login impersonate whenever they go to the reports pa
如何定义全文索引重建是否完成？

需要重建mssql全文索引问题是我需要确切地知道工作何时完成因此只需调用 ALTER FULLTEXT CATALOG fooCatalog REBUILD WITH ACCENT SENSITIVITY OFF 不起作用或者我做的
来自正在运行的应用程序的 Windows C++ 堆栈跟踪

All 我看到一个应用程序一个 SVN Visual Studio 插件当它崩溃时它显示了一个漂亮的可读堆栈跟踪我很想将其添加到我的应用程序中我该如何提供呢无需通过电子邮件发送信息只需视觉显示就足够了所需代码的核心是Stac
Watson Conversation 中的公式

我一直在使用沃森对话很长一段时间但最近我需要在我的沃森回应我该如何实现它有没有办法表示formula equations在我的对话流程中 athif shaffy的回答基本上是正确的我认为您应该尝试在 HTML 中包含数学公式并将
Three.js - 放大/缩小完整的管几何形状

我创建了一个管几何体其中包含从 JSON 格式的外部 javascript 文件加载的 200 个点的数据请找到下面的代码
.net HttpHandlers 将请求通过管道传递到 IIS6

有没有办法让 Http 处理程序将请求通过管道传递回 IIS 6 并让它处理该请求例如如果我为 verb wildcard path wildcard txt 设置了 Http 处理程序我有一个名为 myunformated txt
如何在局部敏感哈希中将向量哈希到桶中（使用杰卡德距离）？

我正在实现一个近邻搜索应用程序它将找到类似的文档到目前为止我已经阅读了大量 LSH 相关材料 LSH 背后的理论有些令人困惑我还不能 100 理解它我的代码能够使用 minhash 函数计算签名矩阵我已接近尾声我还在签名矩阵上

如何在局部敏感哈希中将向量哈希到桶中（使用杰卡德距离）？

如何在局部敏感哈希中将向量哈希到桶中（使用杰卡德距离）？ 的相关文章

随机推荐

热门标签

如何在局部敏感哈希中将向量哈希到桶中（使用杰卡德距离）？的相关文章