数据流中的近似重复检测

2023-12-19

我目前正在开发一个可以生成大量文本内容的流 API。正如预期的那样，API 给出了大量重复数据，而且我们也有过滤接近重复数据的业务需求。

我对数据流中的重复检测做了一些研究，并阅读了。稳定布隆过滤器是用于数据流中重复检测的数据结构，具有误报率上限。

但是，我想识别近似重复项，并且我还研究了用于最近邻问题和近似重复项检测的散列算法，例如 LSH 和 MinHash。

我有点陷入困境，正在寻找有关如何进行的指示以及我可以查看的论文/实施？

首先，将文本标准化为所有小写（或大写）字符，用空格替换所有非字母，将所有多个空格压缩为一个，删除前导和尾随空格；为了速度，我将在一次文本中执行所有这些操作。接下来采取MD5结果字符串的哈希（或更快的东西）。进行数据库查找MD5表中的哈希（作为两个 64 位整数），如果存在，则它是一个exact重复，如果没有，请将其添加到表中并继续下一步。您将希望根据时间或内存使用情况使旧哈希值老化。
要查找接近的重复项，需要将规范化字符串转换为潜在的签名（子字符串的哈希值），请参阅SpotSigs纸和博客文章 http://glinden.blogspot.com/2008/08/clever-method-of-near-duplicate.html作者：格雷格·林登。假设例程Sigs()对于给定的字符串（即给定标准化的字符串）执行此操作x, Sigs(x)返回一小组 (1-5) 64 位整数。你可以使用类似的东西SpotSigs算法来选择文本中的子字符串作为签名，但是如果您对数据有所了解，那么制定自己的选择方法可能会效果更好。您可能还想看看 simhash 算法（代码是here http://code.google.com/p/simhash/).
鉴于Sigs()有效地找到邻近重复项的问题通常称为设置相似连接 http://bit.ly/JPTZ2I问题。这SpotSigs论文概述了一些启发式方法，以减少新集合需要与旧集合进行比较的集合数量。simhash method.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Streaming

duplicates

Filtering

bloomfilter

数据流中的近似重复检测的相关文章

将 MATLAB 绘图转换为图像

我生成了一个类似的情节 figure hold axis 0 10 0 10 fill 1 1 5 5 5 1 1 5 b 现在我想将此图作为矩阵以便我可以用高斯过滤博客谷歌搜索我发现了这个线程将绘图光栅化为图像 http www ma
从具有重复值的 MySQL 结果创建多维嵌套数组 (PHP)

我目前正在使用 PDO fetchAll 函数从数据库中提取菜单数据这样做会将查询结果的每一行放入以下结构的数组中 Array 0 gt Array MenuId gt mmnlinlm08l6r7e8ju53n1f58 MenuName
python从2个列表中删除重复项

我正在尝试从 2 个列表中删除重复项所以我写了这个函数 a abc def ijk lmn opq rst xyz b ijk lmn opq rst 123 456 for i in b if i in a print found i
按日期过滤 Pandas 数据框

我有一个带有日期列的 Pandas DataFrame 现在我需要过滤掉 DataFrame 中日期在未来两个月之外的所有行本质上我只需要保留接下来两个月内的行实现这一目标的最佳方法是什么 If 日期列是索引然后使用 loc 进
Excel：如果在另一列中发现重复的单元格值，则突出显示绿色

有人可以帮助我我不知道该使用什么公式我突出显示了图片中的单元格以展示我的意思的示例 What I want to do is highlight the cell in column A where the value matches
android autocompletetextview 应仅在下拉列表中显示相关选项

我在代码中使用 AutoCompleteTextView 并使用 SimpleCursorAdapter 从数据库加载列表 AutoCompleteTextView cocktailIngredientView AutoCompleteTe
PostgreSQL 中的多个 DISTINCT ON 子句

是否可以选择以下行DISTINCT ON一些单独的独立的列集假设我想要满足以下条件的所有行明显于 name birth 明显于 name height 因此在下表中标有红叉的行不会有所不同并指示失败的子句 name birth
模块中发现重复的类

在模块 jsp api 2 1 6 1 14 jar org mortbay jetty jsp api 2 1 6 1 14 和 jsp api 2 1 jar javax servlet 中发现重复的类 javax el ArrayEL
插入前检查是否有重复项

在插入数据库之前我使用以下代码来检查重复项对我来说只有在以下情况下重复才被视为重复 name description price city and enddate match foreach states to add as item
我可以在 rspec 中使用多个排除过滤器吗？

在 spec rb 文件中我设置了一个排除过滤器如下所示 RSpec configure do config we need determine this once at the very front and the result be
MySQL使用BLOB的二进制存储VS OS文件系统：大文件、大数量、大问题

我正在运行的版本基本上最新的一切 PHP 5 3 1MySQL 5 1 41阿帕奇 2 2 14操作系统 CentOS 最新情况是这样的我有数千个非常重要的文档从客户合同到语音签名客户对合同的授权录音文件类型包括但不限于jpg
如何在SAS中删除重复的记录\观察而不进行排序？

我想知道是否有办法取消重复记录WITHOUT排序有时候我想保留原来的顺序只想删除重复的记录是否可以顺便说一句以下是我对不重复记录的了解它最终会进行排序 1 proc sql create table yourdata nodu
数据库镜像/Postgres流复制

我不是 DBA 我是基于企业数据库的应用程序的主要开发人员我目前正在指定一些新机器来升级我们现有的企业数据库目前我们在 DR 站点上运行带有数据库的 Postgres 8 4 该数据库通过前员工执行的一些自定义 rsync 工作定期接
如何使用 Angular/Ionic/JS 显示 Motion JPEG 二进制数据流？

我正在为设备编写应用程序此类设备将收到 POST 请求并发回multipart x mixed replace二进制数据流我必须在我的应用程序主页的一部分上显示此类流我查了一下这种情况的资源非常有限到目前为止我发现如果 Mot
SQL：列出多个连接语句中的重复记录？

你好以下查询在连接多个表后返回所有员工 select e from dbo EMP e join dbo HREMP a on a ID e ID join dbo LOGO c on c EMPID e id join dbo LOGO
如何在正则表达式之后打印单词但不打印相似的单词？

我想要一个 awk 或 sed 命令来打印正则表达式之后的单词我想找到一个单词后面的单词但不是看起来相似的单词该文件如下所示 somethingsomething X Windows Icon xournal somethingsom
Java中的媒体播放器库[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在评估用于在 Java 中播放音频视频的库它不需要 100 Java Java 与本机库的绑定
Elasticsearch 数组必须和must_not

我的 elasticsearch 数据库中有一个如下所示的文档 tags gt tag 1 tag 2 tag 3 tag A created at gt 2013 07 02 12 42 19 UTC label gt Mon super
如何修复第三方 SDK 中重复的 libgnustl_shared.so 文件？

当我使用 gradle 构建并运行 apk 时出现以下错误 Error Execution failed for task app transformNative libsWithMergeJniLibsForDebug gt com a
Twitter Streaming API 使用的官方编码？是UTF-8吗？

Twitter 流 API 的官方编码是什么根据我所看到的我最好的猜测是 UTF 8 但我想避免做出假设我见过的 Twitter 网站上唯一暗示他们使用什么作为官方编码的部分是在这里 Twitter 不想因为我们使用 UTF 8 或相

随机推荐

Go 为什么没有 stackoverflows

我在这个演示文稿中读到http golang org doc ExpressivenessOfGo pdf http golang org doc ExpressivenessOfGo pdf第 42 页 Safe 没有堆栈溢出这怎么可能
为什么 setTimeout(.., 0) 不立即执行？

var timeout setTimeout function console log I m message from timeout 0 console log I m message from outside timeout 1 I
字节比布尔[8]更有效[重复]

这个问题在这里已经有答案了如果我在一个类中需要 8 个布尔成员变量 Java 是否可以有效地将它们全部放在一个字节中或者它会为每个使用一个字节吗换句话说内存占用是否不同 boolean a boolean b boolean c b
Pandas 从组中获取列的第一个和最后一个值

嗨我有dataframe包含同一 ID 的多行其中一列是日期按升序排列我想计算第一个条目和最后一个条目之间的日期差我通过实例化 pandas 构造函数来实现此目的如下所示 g df groupby ID print pd Dat
CKEditor 按键事件未正确更新文本

我有以下代码当用户在 CKEditor 文本区域内键入内容时自动更新 div 内的内容 CKEDITOR instances editor on key function e var preview document getElemen
C++矢量源代码

我正在尝试获取向量源代码以了解标准 std 或 stl 向量是如何实现的这是出于学习目的现在的问题是我在哪里可以找到源代码甚至其他 C 容器的源代码也有帮助不存在标准向量标准定义了行为和接口以及一些实现细节例如连续存储但
DataType 属性破坏日期时间字段上的 jQuery 日期选择器

我在用MVC 4 and 剃刀视图我无法理解为什么我的日期字段上的编辑视图没有正确绑定到内置 jQuery 日期选择器该字段是数据类型Date在数据库中以及DateTime在域模型中我不想显示时间只想显示日期该字段是必填字段需要
透明度实际上是如何实现的？

给定两个图像 A B 我想要第三个图像 C 就好像 B 的透明度为 t 0 5 并放置在 A 的顶部现实中C是如何计算的以及n如何影响它我对任何程序或伪代码都不感兴趣我只想知道基本原理我认为 C 的一种方式只不过是 A 和 B 的交
ImportError：colab google 中没有名为 object_detection.builders 的模块

我运行时出现此错误 cd git clone quiet https github com tensorflow models git apt get install qq protobuf compiler python tk pip i
为什么不为 Rspec + Selenium 使用共享 ActiveRecord 连接？

处理 Selenium 和测试的最普遍接受的方法似乎是避免使用事务固定装置然后在测试场景之间使用诸如 database cleaner 之类的东西我最近遇到了以下情况article http blog plataformatec co
为什么 Eclipse 的 Egit 中 Commit 是灰色的

EGit 中的提交按钮神秘地变灰了几天前还运行得很好有谁知道如何解决这一问题我在谷歌上没有找到任何线索我会附上屏幕截图但我还没有足够的声誉点我遇到了这个问题发现在远程获取和合并后我有未暂存的更改将未暂存的更改移至 Git S
null 不是对象（评估“ShareDialog.canShow”）

我有这样的代码 import React Component from react import AppRegistry StyleSheet Text TouchableHighlight View from react native i
Sitecore Field Renderer - 在渲染内添加标记

作为 SEO 增强项目的一部分我的任务是在字段渲染器在页面上生成的图像的标记内添加以下属性 itemprop contentURL 在结束标签之前
如何将PIL Image.image对象转换为base64字符串？ [复制]

这个问题在这里已经有答案了我正在尝试以 90 度旋转的方式操作 Base64 编码的图像经过此操作我想将其转换回 Base64 字符串但不幸的是还无法实现这一目标这是我到目前为止所做的 image string StringIO
Android：从服务调用片段方法

运行 Firebase Cloud 消息服务我希望每次收到新消息时都会调用特定片段中的方法 public class FirebaseMsgService extends FirebaseMessagingService public F
在sql中以管道分隔的列中搜索值

我想搜索列中以管道分隔的值见下文 Column1 1 1 2 23 2 6 6 12 我想在所有行中搜索 2 这样它将返回下面的行 Column1 1 2 23 2 谁能告诉我我们怎样才能实现这一目标您可以使用like where co
如何更改 Xamarin 表单中的密码屏蔽字符 - 条目

我目前面临一个相当简单的问题最终使我陷入了死胡同我正在构建一个使用 Xamarin Forms 的应用程序并希望在用户输入密码时将掩码字符从项目符号更改为星号为了输入密码我在内容页面的可移植库项目中使用条目控件在 VS2017
C++ STL 中的确定性随机数流

我想提供一个数字然后收到一组随机数但是我希望这些数字是相同的无论我在哪台计算机上运行它假设我提供相同的种子基本上我的问题是在 C 中如果我使用rand 但供应srand 使用用户定义的种子而不是当前时间我是否能够在任何计算
列表以按间隔返回特定字段的值

我正在使用大量数据实施 Telerik Chart 图表 x 轴上的标签重叠我已经克服了这个问题但从长远来看它并不可靠这些是列表具有的字段 FieldName DataType Date DATETIME DateString STR
数据流中的近似重复检测

我目前正在开发一个可以生成大量文本内容的流 API 正如预期的那样 API 给出了大量重复数据而且我们也有过滤接近重复数据的业务需求我对数据流中的重复检测做了一些研究并阅读了稳定布隆过滤器是用于数据流中重复检测的数据结构具有误报率

数据流中的近似重复检测

数据流中的近似重复检测 的相关文章

随机推荐

热门标签

数据流中的近似重复检测的相关文章