用于索引相似文本的哈希函数

2023-12-30

我正在搜索一种哈希函数来索引相似的文本。例如，如果我们有两个非常长的文本，称为“A”和“B”，其中 A 和 B 相差不大，那么应用于 A 和 B 的哈希函数（称为 H）应该返回相同的数字。

因此 H(A) = H(B)，其中 A 和 B 是相似的文本。

我尝试了“DoubleMetaphone”（我使用意大利语文本），但我发现它对字符串前缀的依赖性非常强。例如：

A =“这是我想要散列的很长的文本” B =“这就是”

==> 双元电话 (A) = 双元电话 (B)

这对我来说不太好，因为具有相同前缀的字符串可以被比较为相似，而我不想要这样。

有人可以建议我任何其他方式吗？

see http://en.wikipedia.org/wiki/Locality_sensitive_hashing http://en.wikipedia.org/wiki/Locality_sensitive_hashing

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hash

similarity

用于索引相似文本的哈希函数的相关文章

Symfony2 创建自己的编码器来存储密码

我是 Symfony2 的新手我可能有一个关于在数据库中编码用户密码的简单问题我想以这种方式编码并存储在数据库中我的用户密码 encoded password salt sha1 salt raw password 我找到了各种编码器
在perl脚本中调用带有输入参数和输出光标的存储过程

尝试在 perl 脚本中执行过程 Proceure gt 创建或替换 PROCEDURE Getproc v catg IN CHAR DEFAULT NULL v cursor OUT SYS REFCURSOR 执行程序 my sth
使用未定义常量 CRYPT_SHA512

我使用一个 php 脚本该脚本使用 php 的 crypt 并使用 SHA512 对密码进行哈希处理但是当我尝试检查 SHA512 是否已设置时出现上述错误当然我知道为什么我会收到这个错误 php 缺少一些依赖项我只是不知道这种依
在Ruby中，如何从具有值的哈希中提取键

当我写下这段文字时我以为我是一个 Ruby 巨人 having this hash hash Portugal gt 1 France gt 2 USA gt 3 country id comes from input country n
C# 如何计算出对象的哈希码？

这个问题来自于讨论tuples https stackoverflow com questions 101825 whats the best way of using a pair triple etc of values as one
哈希链接重新加载页面

我有一个安装在第三方网站上的代码片段我无法了解详细信息但它通过使用 a 将 HTML CSS 和 JS 加载到页面上
Ruby 中判断变量是哈希还是数组的优雅方法是什么？

检查什么 some var是我正在做一个 if some var class to s Hash 我确信有一种更优雅的方法来检查是否 some var is a Hash or an Array 你可以这样做 some var class
如何将目录路径转换为唯一的数字标识符 (Linux/C++)？

我正在研究获取目录文件夹并派生某种形式的唯一数字标识符的方法我研究了字符串到哈希方法但是鸽子洞原理 http www codinghorror com blog 2007 12 hashtables pigeonholes a
java中带有二维键的映射

我想要一个在 Java 中由两个键索引的映射在其中使用两个键放置和检索值的映射需要明确的是我正在寻找以下行为 map put key1 key2 value map get key1 key2 returns value map ge
在 Ruby 中，哈希中标识符后面的冒号的含义是什么？

我正在了解 Factory Girl 我看到了这段代码 factory post do association author factory user last name Writely end why do factory and las
Qt 计算和比较密码哈希

目前正在 Qt 中为测验程序构建面向 Web 的身份验证服务据我了解在数据库中存储用户密码时必须对其进行隐藏以防落入坏人之手流行的方法似乎是添加的过程Salt https en wikipedia org wiki Salt cr
为什么 Java 中的 hashCode() 可以对不同对象返回相同的值？

引用我正在读的书中的一段话首先Java http www amazon co uk Head First Java Kathy Sierra dp 0596009208 关键是哈希码可以相同但不一定保证对象相等因为使用的哈希算法 h
有没有办法在Python中使用非openssl md5作为hashlib？

我生成 md5 内容哈希值用于上传验证但最近我注意到对于在启用 FIPS 的计算机上运行的任何用户来说这都会失败 FIPS 禁用 openssl md5 导致ValueError当我尝试初始化 hashlib 时通常我会使用 SHA
什么时候使用哈希表？

什么情况下使用哈希表可以提高性能什么情况下不能哪些情况不适合使用哈希表什么情况下使用哈希表可以提高性能什么情况下不能如果您有理由关心请使用哈希表和您正在考虑的其他任何内容来实现将您的实际数据放入其中并衡量哪个性能更好也就是
PHP - hash_pbkdf2 函数

我正在尝试使用此 php 函数执行一个函数来哈希密码 http be php net manual en function hash pbkdf2 php http be php net manual en function hash pb
从哈希中删除 nil 值

我希望从哈希中删除具有nil value article是一个存储每篇文章的类并且attributes方法将文章存储为散列预期结果 articles results author null title Former bar manage
如何使用“子例程引用”作为哈希键

在 Perl 中我正在学习如何取消引用子例程引用但我似乎无法使用子例程引用作为哈希键在下面的示例代码中我可以创建对子例程 subref 的引用然后取消引用它以运行子例程 subref 我可以使用引用作为哈希值然后轻松取消引
PHP 的password_verify() 是否可以抵御极长的密码（DoS 攻击）？

一般攻击场景 2013 年 Django 存在一个普遍漏洞攻击者可以通过非常大的密码创建极其密集的 CPU 计算请参阅此处的安全通知 https www djangoproject com weblog 2013 sep 15 secu
带有可选第一个哈希参数和keyword_args的奇怪方法行为

我有以下方法 def test first param nil keyword arg nil puts first param first param puts keyword arg keyword arg end 以下所有调用都按照我
mysql 使用什么样的哈希？

我正在编写类似于 phpMyAdmin 的自己的代码但我需要用户能够使用 mysql 数据库中的用户名和密码登录我需要知道mysql数据库使用什么样的哈希来存储每个用户的密码我检查了 dev mysql com 寻找答案但除了以开

随机推荐

将创建的文档结果转换为 POCO

我有以下代码调用 DocumentDB 并创建一个新的 Employee 文档然后如何将结果再次转换为员工文档基本上我想捕获创建的文档并将其转换为 Employee 对象 var result await client CreateD
在 Woocommerce 购物车结账和订单中禁用特定产品的商品名称链接

我希望禁用购物车中特定产品的产品页面的产品链接该产品是当购物车小计金额等于特定值时自动添加到购物车的礼品产品我知道可以对所有购物车商品执行此操作但我不太确定如何针对特定项目适用于的新答案所有产品类型对于已定义产品 ID 的数组请在
OWIN 无法启动，并显示“无法访问网络位置”

我尝试在 NET 4 5 控制台应用程序上运行以下代码 var app WebApp Start
使用 Sequelize ORM 插入/更新 PostGis 几何图形

我使用sequelize auto提取了一些PostGis图层的模型给出 module exports function sequelize DataTypes return sequelize define table id type
sbt 查找所请求依赖项的另一个版本

项目 plugins sbt addSbtPlugin org scala js sbt scalajs 0 6 28 addSbtPlugin ch epfl scala sbt scalajs bundler 0 15 0 build
是否可以使用基于父 div 大小而不是行数的 Dojo/Dijit DataGrid 自动高度功能？

我有一个定期更新的数据网格其中的行数随着时间的推移稳步增长它位于父 div 内部高度为屏幕的 60 如果我将自动高度设置为 5 行则该表可以正常工作添加第六行时数据网格中会出现一个滚动条我可以向上向下滚动并且标题保持固定在
进程退出时flock会自动释放吗？

在Linux 中的bash 脚本中我使用flock 命令flock 而不是系统调用flock 来实现文件锁定从而防止共享资源这是tmpfs 中的文件的并发访问我有陷阱处理程序来处理脚本的异常终止 trap rm rf LOCK r
禁用 CSRF SiteWide

有没有办法为所有控制器禁用 CSRF 或者是否必须在每个控制器上禁用它我仅使用 ruby on Rails 作为 API 不需要任何类型的 CSRF 因为请求不是基于会话的我想仅禁用 JSON 请求我相信这可能有效但我不确定 cla
如何通过路径为 QFileSystemModel 选择 QTreeView 中的文件？

我有一个显示文件系统模型的树视图我希望在启动时选择某个文件特别是当前目录这样用户就不会被迫沿着文件系统树一路向下查找它但是 QTreeView 和 QFileSystemModel 都没有任何按角色查找项目并检索其 QModelIn
python if语句字典与Series不兼容的索引器

这个脚本 for x in df index if df loc x medicament1 in dicoprix df loc x coutmed1 dicoprix df loc x medicament1 给出这个错误 File
如何使用 NLP 将非结构化文本内容分成不同的段落？

以下非结构化文本具有三个不同的主题史泰龙费城和美国革命但是您会使用哪种算法或技术将这些内容分成不同的段落分类器在这种情况下不起作用我还尝试使用 Jaccard 相似度分析器来查找连续句子之间的距离并尝试在连续句子之间的距离小于给
Spring Batch 脚本项处理器

我想在我的批处理程序中使用网络抓取 python 脚本但我在网络中找不到任何相关示例因此可以将 python 脚本与 ScriptItemProcessor 一起使用吗这是我测试这个的简单代码 Bean public ScriptI
仅当新属性大于现有属性时，DynamoDb 才会更新项目

仅当新项目的日期比现有项目更新时我才想更新 DynamoDB 中的项目目前我正在查询现有项目在代码中进行比较然后写入 db 我想知道是否有办法让 DynamoDB 为我进行检查我研究过使用Expected http docs a
如何使用 Flexbox 使元素覆盖容器中 100% 的可用空间？

我有 2 个容器我试图使它们具有相同的高度我正在使用 flexbox 使用属性来解决这个问题flex direction column flex column 但我不知道我做错了什么所以每个元素都除以可用容器的高度 borde gri
array_map show mysql_real_escape_string() 需要参数 1 [重复]

这个问题在这里已经有答案了可能的重复 mysql fetch array 期望参数 1 是资源在 select 中给出的布尔值 https stackoverflow com questions 2973202 mysql fetch
Winston/Node.js 如何仅为特定环境添加 Transport？

我有以下配置 var winston require winston var Mail require winston mail Mail var logger new winston Logger transports new winst
在 Linux 和 Windows 上的 Grizzly 上运行 Jersey

我有 Windows NET 背景但我正在努力扩展我的专业知识因此选择了一些 Java 项目目前我正在尝试创建一个 REST API 因此我决定在这里完成 Jersey 的演练 http jersey java net nonav
如何正确使用Vue Router beforeRouteEnter或Watch来触发单文件组件中的方法？

我正在使用单文件组件和 Vue Router 在 Vue js 中开发一个应用程序我有一个搜索组件每次用户访问该路线时我需要执行一个方法来重新填充搜索结果由于 create 钩子该方法在第一次访问路由时正确执行 created f
将零填充添加到现有表

我正在尝试将 ZEROFILL 添加到 MySQL 数据库中的自动递增主 ID 字段这是代码由 MySQL Workbench 自动生成 ALTER TABLE database table CHANGE COLUMN id id IN
用于索引相似文本的哈希函数

我正在搜索一种哈希函数来索引相似的文本例如如果我们有两个非常长的文本称为 A 和 B 其中 A 和 B 相差不大那么应用于 A 和 B 的哈希函数称为 H 应该返回相同的数字因此 H A H B 其中 A 和 B 是相似的文本

用于索引相似文本的哈希函数

用于索引相似文本的哈希函数 的相关文章

随机推荐

热门标签

用于索引相似文本的哈希函数的相关文章