检测大型数据集中重复/相似的文本?

2023-12-19

我有一个包含数千条记录的大型数据库。每次用户发布他的信息时,我都需要知道是否已经有相同/相似的记录。有没有算法或开源实现来解决这个问题?

我们用的是中文,“相似”的意思是记录内容最相同,可能80%-100%是相同的。每条记录不会太大,大约2k-6k字节


http://d3s.mff.cuni.cz/~holub/sw/shash/ http://d3s.mff.cuni.cz/~holub/sw/shash/

http://matpalm.com/resemblance/simhash/ http://matpalm.com/resemblance/simhash/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

检测大型数据集中重复/相似的文本? 的相关文章

  • 生成 2D 中的非简并点集 - C++

    我想在 2D 平面中创建一大组非退化的随机点云 整个集合中没有 3 个点在一条直线上 我有一个简单的解决方案 它生成一个随机浮点对 P new x y 并检查到目前为止生成的每对点 P1 P2 是否位于同一行 这需要 O n 2 检查添加到
  • Diamond-Square 算法的平滑问题

    我正在使用菱形方形算法来生成随机地形 它工作得很好 除了我让这些大圆锥形状要么伸出或伸入地形 问题似乎在于 时不时会有一个点被设置得太高或太低 Here is a picture of the problem And it can be b
  • 在Python中确定句子中2个单词之间的邻近度

    我需要确定 Python 句子中两个单词之间的接近度 例如 在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意 该词
  • 比较两棵树的伪代码

    这是我遇到过几次的问题 并且不确信我使用了最有效的逻辑 例如 假设我有两棵树 一棵是文件夹结构 另一棵是该文件夹结构的内存 模型 我希望比较两棵树 并生成一棵树中存在的节点列表 而不是另一棵树中存在的节点列表 反之亦然 是否有公认的算法来处
  • 对列表中的相邻元素进行分组

    假设我想编写一个函数来执行此操作 输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组 这个方法的名称应该是什么 此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6
  • 如何确定字符串的最小公约数?

    我在面试时被问到以下问题 并被它难住了 我遇到的部分问题是要下定决心要解决什么问题 起初我并不认为这个问题在内部是一致的 但后来我意识到它要求你解决两个不同的问题 第一个任务是弄清楚一个字符串是否包含另一个字符串的倍数 但第二个任务是在两个
  • java中的Anagram算法

    我想做字谜算法但是 这段代码不起作用 我的错在哪里 例如 des 和 sed 是字谜 但输出不是字谜 同时我必须使用字符串方法 不是数组 public static boolean isAnagram String s1 String s2
  • 在大文件中查找重复项

    我有一个非常大的文件 大约有 1500 万个条目 文件中的每一行都包含一个字符串 称为键 我需要使用 java 查找文件中的重复条目 我尝试使用哈希图并检测重复的条目 显然 这种方法向我抛出了 java lang OutOfMemoryEr
  • n的渐近增长选择下限(n/2)

    如何找到 n select Floor n 2 的渐近增长 我试过 使用扩展并得到它等于 n n 1 floor n 2 1 n floor n 2 知道我该如何从那里去吗 感谢任何帮助 更喜欢提示而不是答案 我同意上面的答案 但想提供更多
  • 仅使用两个变量交换两个数字

    它如何执行交换 a a b b a b a b a 我不同意把它换成书 书中的选项包括 a和b的值的补集 否定和b 希望这些选项也不能满足它 正确的算法应该是 a a b b a b a a b
  • CSR 矩阵 - 矩阵乘法

    我有两个方阵A and B 我必须转换B to CSR Format并确定产品C A B csr C 我在网上找到了很多关于CSR 矩阵 向量乘法 http www mathcs emory edu cheung Courses 561 S
  • 插入排序 - 如何接受输入并打印排序后的数组

    我试图做一个插入排序程序 它接受任何数据类型 Int Double String 然后打印排序后的数组 我知道我的代码可以工作 但我无法找出真正的问题 import java util public class MyInsertionSor
  • 创建将 n 个用户放入 k 个组的所有可能方法

    给定 n 个用户 u 1 u 2 u n 和 k 个组 g 1 g 2 g k 创建所有组的所有可能组合 基本上 最后每个组合都是一个Map 其中第一个Integer是用户ID 第二个Integer是组ID 例如 u 1 g 1 u 2 g
  • 为什么 n 按位和 -n 总是返回最右边的位(最后一位)

    这是Python代码片段 1 1 1 2 2 2 3 3 1 看来任何n n总是返回最右边 最后 位 我真的不知道为什么 有人可以帮助我理解这一点吗 这是由于负数以二进制表示的方式 称为二进制补码表示 创建某个数字 n 的补码 换句话说 创
  • 哪种算法可以有效地找到路径一定距离内的一组点?

    给定一组点s 一组 x y 坐标 和由连接一组点的线段组成的路径l 描述一种有效的算法 可用于从s在指定距离内d路径的l 其实际应用可能是查找沿城市之间的公路旅行路径 10 英里内任意位置的餐馆列表 For example in the f
  • 地形/山地算法未按预期工作

    我想使用一个非常基本的原理创建一个上面有山的地形 如以下高度图所示 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 2 1 0 0 0
  • 为什么对本地列表求和比用“GHC -O2”对教会编码列表求和慢?

    为了测试教会编码的列表如何针对用户定义的列表和本机列表执行 我准备了 3 个基准测试 用户定义的列表 data List a Cons a List a Nil deriving Show lenumTil n go n Nil where
  • 以编程方式分解大量数字

    好吧 所以我有一个巨大的数字f 实际上 这个数字只有 100 多位数字长 我知道这些因子的大小大致相同 如果我的资源和时间有限 我应该使用什么语言和算法 我包括在限制时间内编写算法的时间长度 想法 编辑 我所说的有限是指在尽可能短的时间内
  • 将两个大数作为字符串相除,而不使用java中的Bignumbers

    我需要在不使用 Biginteger 的情况下划分两个大整数 因为数字不能存储在原始类型中 因为我需要从给定的字符串中逐个字符地执行此操作 我已经创建了一个名为 BigNumber 的类 用这个类我可以 Add multiply 比较两个内
  • 根据位置计算组合

    我在解决这个问题时遇到了麻烦 创建一个函数 给定字符集 C 可以生成第 N 个组合 或者返回给定起始位置 Ns 和结束位置 Ne 以及组合的最大长度 Mx 的一系列组合 一个具体的例子 令 C A B C 我们知道不同的组合将如下所示 假设

随机推荐

  • setTimeout() 和 setInterval() 之间的区别[重复]

    这个问题在这里已经有答案了 我试图根据我向下滚动页面的程度沿着 y 方向的大 div 移动一个小 div 但是我发现使用 setTimeout 和 setInterval 会给出两个完全不同的结果 实际上 setInterval 多次被浏览
  • 为什么这个阶乘算法不准确

    抱歉 我觉得问这个问题很愚蠢 并且准备好失去一半的分数 但为什么这个算法不起作用 它在一定程度上有效 数字 13 之后的阶乘有点偏离 例如 在数十万位及以后的数字并不完全匹配 include
  • 如何将RGB图像转换为CMYK图像?

    我想将 RGB 图像转换为 CMYK 这是我的代码 第一个问题是 当我将每个像素除以 255 时 该值接近于零 因此生成的图像近似为黑色 第二个问题是我不知道如何将单通道结果图像转换为 4 通道 当然 我不确定下面代码中制作的CMYK是否正
  • 在 VBA 中创建计数器

    我想知道是否有一种有效的方法可以使用 vba 创建计数机制Worksheet SelectionChange事件 我想计算特定单元格被选择的次数 如果选择该单元格 则变量将增加 1 否则不会对变量进行任何更改 Dim S As String
  • SSL 证书可以由多个证书颁发机构签名吗?

    如果能稍微分散一点信任就好了 这样我们在任何情况下都不必只依赖一个根 是否可以有一个证书由多个 CA 签署 No the X509证书格式 https www rfc editor org rfc rfc5280直到版本 3 的设计都只包含
  • 在 python @patch 装饰器中使用 self

    我正在尝试使用python的mock patch来用nose实现单元测试 class A def setUp self self b 8 contrived example patch object module class functio
  • 如何从 GC 存储中删除过时的 Firebase Cloud 函数容器?

    因此 最近 Firebase 开始对 Cloud Functions 容器存储收费 https firebase google com pricing https firebase google com pricing 没有免费使用 0 0
  • 标题如何“即时”修改页面标题

    我的标题在每一页上都被称为你可以想象的那样 这意味着在每个页面上我都有相同的标题 对 SEO 不利 是否有解决方法可以在 header php 之外设置页面标题 Thanks 做一个变量 page title 在包含标题之前设置它 并在标题
  • 取消引用:我错过了什么?

    我正在尝试获取Unquote http code google com p unquote 在 NET 4 中使用 xUnit 的库 但我根本没有运气让测试运行 因此 我将其分解为最简单的重现步骤 有人知道我可能会错过什么吗 创建一个新的
  • 如何按需重新加载Ext.tree.TreePanel?

    我想创建 Ext tree TreePanel 组件并定期从外部 URl 加载内容 所以我写了类似的东西 new Ext tree TreePanel root nodeType async text asdasd draggable fa
  • 使用 C# 运行带有关键字 GO 的 .sql 语句?

    我有以下内容 USE TESTDB CREATE FUNCTION dbo Function1 input VARCHAR 250 RETURNS VARCHAR 250 AS BEGIN do work here END SET ANSI
  • Android应用程序更新问题

    最近我一直面临着我的Android应用程序更新过程的问题 简而言之 应用程序能够检查是否已将更高版本代码的更新上传到服务器上 如果是 用户决定是否更新 加载该应用程序并开始标准安装后 final Intent intent new Inte
  • Azure WebJob 的 BlobInput 和 BlobOutput 类在哪里?

    我正在创建一个 Azure WebJob 控制台应用程序 用于调整上传到 blob 存储的图像大小 当遵循任何在线代码示例时 我无法引用和使用 BlobInput 和 BlobOutput 输入参数属性 我正在使用 NuGet 包 Micr
  • rcpp 检查列表是否有元素

    我的程序涉及聚类 除了数据集之外 用户还必须指定一些有关集群的详细信息 有两种方法可以解决此问题 指定集群数量或准备集群描述列表 args lt list dataset points K 5 args lt list dataset po
  • 如何将值应用于 Clojure 中的多个函数?

    基本上 我需要做类似的事情map 但我不需要将函数应用于集合中的所有元素 而是需要将相同 一组 值应用于函数集合 此操作有名称吗 这可能看起来是一个简单的问题 但我还没有找到在 Clojure 中执行此操作的惯用方法 对于我需要仅对每个函数
  • 如何在 Node js 中使用 FCM 向多个 Android 设备发送消息?

    我尝试将消息发送到单个设备 即单个注册 ID 它工作正常 但当尝试添加多个注册 ID 时 它会给出 InvalidServerResponse 错误 例如适用于 regTokens regId1 但不适用于 regTokens regId1
  • 使用ajax上传图片和表单提交

    我想使用Ajax将图像上传到服务器 但是出现问题 请有人帮助我这里出了什么问题 我可以使用提交表单提交图像 但不能使用ajax 这是我的代码 html div Select a photo to upload div
  • 如何在字符串中四舍五入到小数点后两位? [复制]

    这个问题在这里已经有答案了 可能的重复 c 如何将小数值四舍五入到小数点后两位 用于页面上的输出 https stackoverflow com questions 164926 c sharp how do i round a decim
  • JQuery 和 GWT 历史记录支持混淆

    我使用 JQuery 动态附加 GWT 脚本 然后使用 JQuery 历史记录跟踪历史记录 Problem 我的 GWT 模块生成History令牌 因为我的所有 GWT 模块都是 MVP 模块 和onClick s of MenuItem
  • 检测大型数据集中重复/相似的文本?

    我有一个包含数千条记录的大型数据库 每次用户发布他的信息时 我都需要知道是否已经有相同 相似的记录 有没有算法或开源实现来解决这个问题 我们用的是中文 相似 的意思是记录内容最相同 可能80 100 是相同的 每条记录不会太大 大约2k 6