Minhash实现如何找到排列的哈希函数

2024-02-14

我在实施 minhashing 时遇到问题。在纸上和阅读中我理解了这个概念，但我的问题是排列“技巧”。实现的建议不是排列集合和值的矩阵，而是：“选择 k（例如 100）个独立的哈希函数”，然后算法表示：

for each row r 
    for each column c 
        if c has 1 in row r 
           for each hash function h_i  do
            if h_i(r) is a smaller value than M (i, c) then
            M(i, c) := h_i(r)

在不同的小例子和教学中book http://infolab.stanford.edu/~ullman/mmds/ch3.pdf他们只使用两个或三个散列函数，形式为 (h = a*x + b mod p)。那很容易找到，但是实际中怎么做，我怎样才能找到100个这样的独立函数。

在 Java 示例中here http://mymagnadata.wordpress.com/2011/01/04/minhash-java-implementation/仅从一个哈希函数而不是多个哈希函数生成哈希值，与行索引无关。差别在哪里？我现在的问题是如何找到这些独立的哈希函数，或者是否有一种只有一个哈希函数的方法如何在算法中处理这些值？

一种简单的方法是使用参数哈希系列，例如制表哈希函数（http://en.wikipedia.org/wiki/Tabulation_hashing http://en.wikipedia.org/wiki/Tabulation_hashing)

在本书的示例 (a*x+b mod p) 中，通过选择不同的 (a, b, p) 集合，您可以拥有不同的哈希函数。拥有独立哈希函数的一种方法是选择 (a, b, p) 质数/互质数，并且最好选择大数

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Minhash实现如何找到排列的哈希函数的相关文章

通过分布式数据库聚合作业优化网络带宽

我有一个分布式联合数据库结构如下数据库分布在三个地理位置节点每个节点集群有多个数据库关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体非关系数据库是 MongoDB 或 Ca
如何确定算法函数的复杂度？

您如何知道算法函数对于特定操作是否需要线性常数对数时间它取决于CPU周期吗您可以通过三种方式至少做到这一点在网上查找算法看看它是如何描述其时间复杂度的根据输入大小自己检查算法查看嵌套循环和递归条件等内容以及每个循环运
无需构建树即可预测霍夫曼压缩比

我有一个二进制文件我知道其中每个符号出现的次数如果我要使用霍夫曼算法压缩它我需要预测压缩文件的长度我只对假设的输出长度感兴趣而不对单个符号的代码感兴趣因此构建霍夫曼树似乎是多余的作为一个例子我需要得到类似的东西包含 4 个
0-1背包算法

以下 0 1 背包问题是否可解浮动正值和浮动权重可以是正数或负数背包的浮动容量 gt 0 我平均有这是一个相对简单的二进制程序我建议用蛮力进行修剪如果任何时候你超过了允许的重量你不需要尝试其他物品的组合你可以丢弃整
如何仅使用单个数组在 JavaScript 中模拟调用堆栈

我正在看维基百科页面 https en wikipedia org wiki Call stack在调用堆栈上并尝试理解这个图像据我所知哈哈 const memory memory 0 3 top of stack pointer m
C 埃及分数

古埃及人仅使用以下形式的分数1 n因此任何其他分数都必须表示为这些单位分数的总和而且所有单位分数都是不同的在C或Java中使任何分数成为埃及分数总和越少越好的好方法是什么可以使用什么算法分支定界 a 例如 3 4 1 2 1
带路径压缩算法的加权 Quick-Union

有一种带路径压缩的加权快速联合算法代码 public class WeightedQU private int id private int iz public WeightedQU int N id new int N iz new
生成所有多集大小为 n 的分区的算法

我一直在试图找出一种方法来生成多重集的所有不同的大小为 n 的分区但到目前为止却空手而归首先让我展示一下我想要实现的目标假设我们有一个输入向量uint32 t std vector
用 C++ 生成 AST

我正在用 C 制作一个解释器到目前为止我已经有了词法分析器来生成标记问题是我不确定如何生成行走解析树我正在考虑使用数组数组来制作解析树但我不确定如何以正确的顺序将标记实际插入到解析树中我不确定是自上而下左右还是自下而上左右
在常数空间中创建 1..N 的随机排列

我正在寻找枚举固定空间中数字 1 N 的随机排列这意味着我无法将所有数字存储在列表中原因是 N 可能非常大超过可用内存我仍然希望能够一次遍历这样一个数字的排列只访问每个数字一次我知道对于某些 N 可以这样做许多随机数生成器随机
shell脚本中关联数组的时间复杂度

我想知道在 shell 脚本中使用关联数组时如何构造实现另外我想知道基于 shell 脚本的关联数组的时间复杂度是否是最佳的因为我们可以使用字母和数字作为它们各自的键编辑他们使用什么哈希函数如果您使用关联数组则不能通过使用
需要一种将网络块范围折叠为超集范围列表的算法

我的数学不及格我需要一种有效的方法将网络范围缩小为超集例如如果我输入 IP 范围列表 1 1 1 1至2 2 2 5 1 1 1 2至2 2 2 4 10 5 5 5至155 5 5 5 10 5 5 6至10 5 5 7 我想返回以下
实施二分查找有哪些陷阱？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案二分查找比看起来更难实现虽然二分搜索的基本思想相对简单但细节可能出人意料地棘手 Donald Knuth 新的二分搜索实现中最有可
举例解释bpe（字节对编码）？

有人可以帮忙解释一下背后的基本概念吗BPE模型除了这张纸 https arxiv org abs 1508 07909 目前还没有那么多解释到目前为止我所知道的是它通过将罕见和未知的单词编码为子词单元序列来实现开放词汇表上的 NMT
Java递归方法求阶乘返回负输出[重复]

这个问题在这里已经有答案了我知道这是溢出但问题是 20 是相对较小的数字这不应该发生对吧有没有更好的方法来查找大数例如 1000 的阶乘而不会得到这种奇怪的结果 public class RecursiveFunctionsE
每个术语出现的次数

我得到了一个数组a n 2 where n can be 10 5最大时有n个科目和n个学生全部编号为 1 2 n a i 0 and a i 1 1 lt i lt n 表示在第 i 个科目中所有来自a i 0 to a i 1 通过
二维滑动窗口最小值/最大值

假设我们得到一个大小为 NxN 的像素整数矩阵和一个整数 k 窗口大小我们需要使用滑动窗口找到矩阵中的所有局部最大值或最小值这意味着如果某个像素与其周围窗口中的所有像素相比具有最小最大值则应将其标记为最小最大有一种著名的滑
数学/算法使图像适合屏幕保留纵横比

我需要数学算法方面的帮助来拍摄已知尺寸的图像并适合两个屏幕尺寸之一 720 x 480 或 1280 x 1024 图像尺寸来自 XML 文件但这些尺寸是 Web 尺寸我还从 XML 中选择了一些图像这些图像的分辨率可能比 Web
动态规划 (DP) 中的重叠子问题是什么？

为了使动态规划适用问题必须具有两个关键属性最优子结构 and 重叠子问题 1 https en wikipedia org wiki Dynamic programming 对于这个问题我们只关注后一个属性有各种不同的定义重叠子问题
将名称字符串编码为唯一的数字

我有一大堆名字数以百万计他们每个人都有一个名字一个可选的中间名和一个姓氏我需要将这些名称编码为唯一代表这些名称的数字编码应该是一对一的即一个名称只能与一个数字相关联一个数字只能与一个名称相关联对此进行编码的明智方法是什么我

随机推荐

为 Docker 容器指定超级用户 PostgreSQL 密码

在 Docker 容器中运行 PostgreSQL 数据库时文档 https hub docker com postgres 对于官方 PostgreSQL Docker 镜像指定管理员密码应在环境变量中设置例如 docker run
通过 mixin 列出类的方法

我想在 mixin 中列出一个类的方法为此我假设我必须打开 mixin 中包含源代码的文件但找到该文件的名称比我想象的要难我尝试使用 FILE 但它给出了 mixin 声明的文件所以我必须在每个文件中定义 mixin 这没有任何意
运行“：ConqueTerm bash”时出错

我已使用以下行通过 vundle 安装了 Conque Bundle Conque Shell 然而当我跑步时 ConqueTerm bash我收到以下错误 Error detected while processing function
DDD - 仅在更改时持久保留聚合子项

我正在尝试在我当前正在开发的应用程序中使用 DDD 我有以下 UserAggregate 结构 UserAggregate ProfileEntity ImageEntity RatingEntity 我有一个 UserRepository
Big O 表示法中是否存在 O(n/2) 这样的东西？

我有一个数组每次都会增加两个由于增量的数量是原来的一半我会说 O n 2 还是 O n 因为它是线性的 Just O n Big O 不关心常数因素或者更确切地说乘以任意有限因子已经是 big O 定义的一部分因此在其中指定另一
如何在JAVAFX中创建“添加选项卡”按钮？

我想创建一个按钮单击时将在 tabPane 中创建一个新选项卡并且始终位于所有选项卡的右侧如果有任何示例如何做到这一点我将不胜感激您的代码应该类似于下面的代码此示例使用 TabPane 上方的按钮 public class Ta
Sass 无效 CSS：预期表达式（例如 1px、粗体）为“{”

我有以下 Sass 以下这个例子是 each http sass lang com documentation file SASS REFERENCE html each directive each flag in USA EUR JPN
寻找想法/替代方案来提供与 GAE 数据存储查询匹配的页面/项目计数/项目导航

我喜欢数据存储的简单性可扩展性和易用性以及新版本中发现的增强功能ndb http code google com p appengine ndb experiment 图书馆很棒据我了解数据存储最佳实践当与查询匹配的项目数量很大时
JavaScript 从要上传的 FileList 中删除文件

有代码https jsfiddle net bfzmm1hc 1 https jsfiddle net bfzmm1hc 1一切看起来都很好但我想从集合中删除一些文件我已经找到了这些如何从输入文件控件中删除一个特定的选定文件 http
修复使用 include In Linq EF 时的循环

有没有什么方法可以解决 LINQ 与 EF6 中的循环问题在我的例子中有以下三个类第一员工等级 public class staff Key public int ID get set public string Name get
使用 sudo 使用 python 创建文件使其所有者为 root

我有一个简单的 python 脚本名为 myCreate py 在 Linux 上运行 fo open testFile txt wb 当我运行 python myCreate py testFile txt 的所有者仍然是我的用户当我
在 Flutter 中使用 Google Sign-In 获取用户的生日/性别

我想使用 Firebase Auth 和 Google Sign In 获取用户的生日和性别不幸的是登录后我只收到用户的电子邮件显示名称照片网址和电话号码我看到我可以将范围添加到 GoogleSignIn 对象我这样做了 ht
如何动态加载具有公共抽象类的jar？

我正在尝试开发一个插件系统它提供了一个在运行时加载jar的接口每个 jar 都包含一个从公共抽象类扩展而来的类例如 BasicPlugin java package byv abstract class BasicPlugin abs
JSP 表单中的输入 TYPE TEXT 值 (enctype="multipart/form-data") 返回 null [重复]

这个问题在这里已经有答案了我需要上传图片
Drupal hook_views_post_execute 没有被调用

我正在尝试加入hook views post executeDrupal 7 中的事件我的模块称为foo位于sites default modules features foo My foo module文件包含一个定义hook view
清理临时目录 Firebase 云功能

我正在为我的网络应用程序使用 Cloud Functions for Firebase 我需要为 Firebase 存储上上传的任何图像创建缩略图为此我需要将上传的文件从 GCS 存储桶下载到临时目录使用mkdirp promise
触发 ng-model.$formatters 以编程方式运行

我想要一个使用的自定义控件ngModel formatters https github com angular angular js blob master CHANGELOG md能够在服务器依赖项加载后立即格式化数据在我的例子中它
创建 (x, y) 对的随机顺序，不重复/后续的 x

假设我有一个有效的列表X 1 2 3 4 5 以及有效的列表Y 1 2 3 4 5 我需要生成中每个元素的所有组合X以及中的每个元素Y 在本例中为 25 并按随机顺序获取这些组合这本身很简单但有一个额外的要求在这个随机顺序中不能有相
如何从 Android Studio 项目中完全删除 Git？

我正在使用 Android Studio 开发我的第一个项目但无法正确配置 Git 和 GitHub 我想从我的项目中完全删除我的 Git Git 项目并重新开始我怎样才能做到这一点另外我的项目文件夹中没有 git 文件夹那么我的
Minhash实现如何找到排列的哈希函数

我在实施 minhashing 时遇到问题在纸上和阅读中我理解了这个概念但我的问题是排列技巧实现的建议不是排列集合和值的矩阵而是选择 k 例如 100 个独立的哈希函数然后算法表示 for each row r for eac

Minhash实现如何找到排列的哈希函数

Minhash实现如何找到排列的哈希函数 的相关文章

随机推荐

热门标签

Minhash实现如何找到排列的哈希函数的相关文章