检测大型数据集中重复/相似的文本？

2023-12-19

我有一个包含数千条记录的大型数据库。每次用户发布他的信息时，我都需要知道是否已经有相同/相似的记录。有没有算法或开源实现来解决这个问题？

我们用的是中文，“相似”的意思是记录内容最相同，可能80%-100%是相同的。每条记录不会太大，大约2k-6k字节

http://d3s.mff.cuni.cz/~holub/sw/shash/ http://d3s.mff.cuni.cz/~holub/sw/shash/

http://matpalm.com/resemblance/simhash/ http://matpalm.com/resemblance/simhash/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

similarity

检测大型数据集中重复/相似的文本？的相关文章

生成 2D 中的非简并点集 - C++

我想在 2D 平面中创建一大组非退化的随机点云整个集合中没有 3 个点在一条直线上我有一个简单的解决方案它生成一个随机浮点对 P new x y 并检查到目前为止生成的每对点 P1 P2 是否位于同一行这需要 O n 2 检查添加到
Diamond-Square 算法的平滑问题

我正在使用菱形方形算法来生成随机地形它工作得很好除了我让这些大圆锥形状要么伸出或伸入地形问题似乎在于时不时会有一个点被设置得太高或太低 Here is a picture of the problem And it can be b
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
比较两棵树的伪代码

这是我遇到过几次的问题并且不确信我使用了最有效的逻辑例如假设我有两棵树一棵是文件夹结构另一棵是该文件夹结构的内存模型我希望比较两棵树并生成一棵树中存在的节点列表而不是另一棵树中存在的节点列表反之亦然是否有公认的算法来处
对列表中的相邻元素进行分组

假设我想编写一个函数来执行此操作输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组这个方法的名称应该是什么此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6
如何确定字符串的最小公约数？

我在面试时被问到以下问题并被它难住了我遇到的部分问题是要下定决心要解决什么问题起初我并不认为这个问题在内部是一致的但后来我意识到它要求你解决两个不同的问题第一个任务是弄清楚一个字符串是否包含另一个字符串的倍数但第二个任务是在两个
java中的Anagram算法

我想做字谜算法但是这段代码不起作用我的错在哪里例如 des 和 sed 是字谜但输出不是字谜同时我必须使用字符串方法不是数组 public static boolean isAnagram String s1 String s2
在大文件中查找重复项

我有一个非常大的文件大约有 1500 万个条目文件中的每一行都包含一个字符串称为键我需要使用 java 查找文件中的重复条目我尝试使用哈希图并检测重复的条目显然这种方法向我抛出了 java lang OutOfMemoryEr
n的渐近增长选择下限(n/2)

如何找到 n select Floor n 2 的渐近增长我试过使用扩展并得到它等于 n n 1 floor n 2 1 n floor n 2 知道我该如何从那里去吗感谢任何帮助更喜欢提示而不是答案我同意上面的答案但想提供更多
仅使用两个变量交换两个数字

它如何执行交换 a a b b a b a b a 我不同意把它换成书书中的选项包括 a和b的值的补集否定和b 希望这些选项也不能满足它正确的算法应该是 a a b b a b a a b
CSR 矩阵 - 矩阵乘法

我有两个方阵A and B 我必须转换B to CSR Format并确定产品C A B csr C 我在网上找到了很多关于CSR 矩阵向量乘法 http www mathcs emory edu cheung Courses 561 S
插入排序 - 如何接受输入并打印排序后的数组

我试图做一个插入排序程序它接受任何数据类型 Int Double String 然后打印排序后的数组我知道我的代码可以工作但我无法找出真正的问题 import java util public class MyInsertionSor
创建将 n 个用户放入 k 个组的所有可能方法

给定 n 个用户 u 1 u 2 u n 和 k 个组 g 1 g 2 g k 创建所有组的所有可能组合基本上最后每个组合都是一个Map 其中第一个Integer是用户ID 第二个Integer是组ID 例如 u 1 g 1 u 2 g
为什么 n 按位和 -n 总是返回最右边的位（最后一位）

这是Python代码片段 1 1 1 2 2 2 3 3 1 看来任何n n总是返回最右边最后位我真的不知道为什么有人可以帮助我理解这一点吗这是由于负数以二进制表示的方式称为二进制补码表示创建某个数字 n 的补码换句话说创
哪种算法可以有效地找到路径一定距离内的一组点？

给定一组点s 一组 x y 坐标和由连接一组点的线段组成的路径l 描述一种有效的算法可用于从s在指定距离内d路径的l 其实际应用可能是查找沿城市之间的公路旅行路径 10 英里内任意位置的餐馆列表 For example in the f
地形/山地算法未按预期工作

我想使用一个非常基本的原理创建一个上面有山的地形如以下高度图所示 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 2 1 0 0 0
为什么对本地列表求和比用“GHC -O2”对教会编码列表求和慢？

为了测试教会编码的列表如何针对用户定义的列表和本机列表执行我准备了 3 个基准测试用户定义的列表 data List a Cons a List a Nil deriving Show lenumTil n go n Nil where
以编程方式分解大量数字

好吧所以我有一个巨大的数字f 实际上这个数字只有 100 多位数字长我知道这些因子的大小大致相同如果我的资源和时间有限我应该使用什么语言和算法我包括在限制时间内编写算法的时间长度想法编辑我所说的有限是指在尽可能短的时间内
将两个大数作为字符串相除，而不使用java中的Bignumbers

我需要在不使用 Biginteger 的情况下划分两个大整数因为数字不能存储在原始类型中因为我需要从给定的字符串中逐个字符地执行此操作我已经创建了一个名为 BigNumber 的类用这个类我可以 Add multiply 比较两个内
根据位置计算组合

我在解决这个问题时遇到了麻烦创建一个函数给定字符集 C 可以生成第 N 个组合或者返回给定起始位置 Ns 和结束位置 Ne 以及组合的最大长度 Mx 的一系列组合一个具体的例子令 C A B C 我们知道不同的组合将如下所示假设

随机推荐

setTimeout() 和 setInterval() 之间的区别[重复]

这个问题在这里已经有答案了我试图根据我向下滚动页面的程度沿着 y 方向的大 div 移动一个小 div 但是我发现使用 setTimeout 和 setInterval 会给出两个完全不同的结果实际上 setInterval 多次被浏览
为什么这个阶乘算法不准确

抱歉我觉得问这个问题很愚蠢并且准备好失去一半的分数但为什么这个算法不起作用它在一定程度上有效数字 13 之后的阶乘有点偏离例如在数十万位及以后的数字并不完全匹配 include
如何将RGB图像转换为CMYK图像？

我想将 RGB 图像转换为 CMYK 这是我的代码第一个问题是当我将每个像素除以 255 时该值接近于零因此生成的图像近似为黑色第二个问题是我不知道如何将单通道结果图像转换为 4 通道当然我不确定下面代码中制作的CMYK是否正
在 VBA 中创建计数器

我想知道是否有一种有效的方法可以使用 vba 创建计数机制Worksheet SelectionChange事件我想计算特定单元格被选择的次数如果选择该单元格则变量将增加 1 否则不会对变量进行任何更改 Dim S As String
SSL 证书可以由多个证书颁发机构签名吗？

如果能稍微分散一点信任就好了这样我们在任何情况下都不必只依赖一个根是否可以有一个证书由多个 CA 签署 No the X509证书格式 https www rfc editor org rfc rfc5280直到版本 3 的设计都只包含
在 python @patch 装饰器中使用 self

我正在尝试使用python的mock patch来用nose实现单元测试 class A def setUp self self b 8 contrived example patch object module class functio
如何从 GC 存储中删除过时的 Firebase Cloud 函数容器？

因此最近 Firebase 开始对 Cloud Functions 容器存储收费 https firebase google com pricing https firebase google com pricing 没有免费使用 0 0
标题如何“即时”修改页面标题

我的标题在每一页上都被称为你可以想象的那样这意味着在每个页面上我都有相同的标题对 SEO 不利是否有解决方法可以在 header php 之外设置页面标题 Thanks 做一个变量 page title 在包含标题之前设置它并在标题
取消引用：我错过了什么？

我正在尝试获取Unquote http code google com p unquote 在 NET 4 中使用 xUnit 的库但我根本没有运气让测试运行因此我将其分解为最简单的重现步骤有人知道我可能会错过什么吗创建一个新的
如何按需重新加载Ext.tree.TreePanel？

我想创建 Ext tree TreePanel 组件并定期从外部 URl 加载内容所以我写了类似的东西 new Ext tree TreePanel root nodeType async text asdasd draggable fa
使用 C# 运行带有关键字 GO 的 .sql 语句？

我有以下内容 USE TESTDB CREATE FUNCTION dbo Function1 input VARCHAR 250 RETURNS VARCHAR 250 AS BEGIN do work here END SET ANSI
Android应用程序更新问题

最近我一直面临着我的Android应用程序更新过程的问题简而言之应用程序能够检查是否已将更高版本代码的更新上传到服务器上如果是用户决定是否更新加载该应用程序并开始标准安装后 final Intent intent new Inte
Azure WebJob 的 BlobInput 和 BlobOutput 类在哪里？

我正在创建一个 Azure WebJob 控制台应用程序用于调整上传到 blob 存储的图像大小当遵循任何在线代码示例时我无法引用和使用 BlobInput 和 BlobOutput 输入参数属性我正在使用 NuGet 包 Micr
rcpp 检查列表是否有元素

我的程序涉及聚类除了数据集之外用户还必须指定一些有关集群的详细信息有两种方法可以解决此问题指定集群数量或准备集群描述列表 args lt list dataset points K 5 args lt list dataset po
如何将值应用于 Clojure 中的多个函数？

基本上我需要做类似的事情map 但我不需要将函数应用于集合中的所有元素而是需要将相同一组值应用于函数集合此操作有名称吗这可能看起来是一个简单的问题但我还没有找到在 Clojure 中执行此操作的惯用方法对于我需要仅对每个函数
如何在 Node js 中使用 FCM 向多个 Android 设备发送消息？

我尝试将消息发送到单个设备即单个注册 ID 它工作正常但当尝试添加多个注册 ID 时它会给出 InvalidServerResponse 错误例如适用于 regTokens regId1 但不适用于 regTokens regId1
使用ajax上传图片和表单提交

我想使用Ajax将图像上传到服务器但是出现问题请有人帮助我这里出了什么问题我可以使用提交表单提交图像但不能使用ajax 这是我的代码 html div Select a photo to upload div
如何在字符串中四舍五入到小数点后两位？ [复制]

这个问题在这里已经有答案了可能的重复 c 如何将小数值四舍五入到小数点后两位用于页面上的输出 https stackoverflow com questions 164926 c sharp how do i round a decim
JQuery 和 GWT 历史记录支持混淆

我使用 JQuery 动态附加 GWT 脚本然后使用 JQuery 历史记录跟踪历史记录 Problem 我的 GWT 模块生成History令牌因为我的所有 GWT 模块都是 MVP 模块和onClick s of MenuItem
检测大型数据集中重复/相似的文本？

我有一个包含数千条记录的大型数据库每次用户发布他的信息时我都需要知道是否已经有相同相似的记录有没有算法或开源实现来解决这个问题我们用的是中文相似的意思是记录内容最相同可能80 100 是相同的每条记录不会太大大约2k 6

检测大型数据集中重复/相似的文本？

检测大型数据集中重复/相似的文本？ 的相关文章

随机推荐

热门标签

检测大型数据集中重复/相似的文本？的相关文章