如何检测文本文档之间的重复项并返回重复项的相似度？

2024-03-21

我正在编写一个爬虫来从某个网站获取内容，但是内容可以重复，我想要以避免这种情况。所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例：

文本 1：“我正在编写一个爬虫”
文本2：“我正在编写一些文本爬虫来获取”

比较函数将返回文本 2 作为相同文本 1 的 5/8%（其中 5 是文本 2 相同文本 1 的字数（按字序比较），8 是文本 2 的总字数）。如果删除“某些文本”，则文本 2 与文本 1 相同（我需要检测情况）。我该怎么做？

您面临着一个在该领域已知的问题信息检索 http://en.wikipedia.org/wiki/Information_retrieval as 接近重复检测.

已知的解决方案之一是使用杰卡德相似性 http://en.wikipedia.org/wiki/Jaccard_index用于获取两个文档之间的差异。

Jaccard 相似度基本上是 - 从每个文档中获取单词集，让这些集合为s1 and s2- 杰卡德相似度是|s1 [intersection] s2|/|s1 [union] s2|.

通常，当面对接近的重复时，单词的顺序有一定的重要性。为了处理它 - 生成集合时s1 and s2- 您实际上生成了 k-shingling 集合，而不是仅单词集合。
在你的例子中，与k=2，集合将是：

s1 = { I'm write, write a, a crawler, crawler to }
s2 = { I'm write, write a, a some, some text, text crawler, crawler to, to get }
s1 [union] s2 = { I'm write, write a, a crawler, crawler to, a some, some text, text crawler, to get } 
s1 [intersection] s2 = { I'm write, write a, crawler to }

在上面的例子中，jaccard 相似度为3/8。如果您使用相同方法的单个单词（k=1 shinglings），您将得到您想要的5/8- 但在我（和大多数 IR 专家）看来，这是更糟糕的解决方案。

这个过程可以很好地扩展，以非常有效地处理巨大的集合，而无需检查所有对并创建大量的集合。更多详细信息可以在这些讲义 http://webcourse.cs.technion.ac.il/236375/Winter2013-2014/ho/WCFiles/tutorial_8_near_duplicates_detection.pdf（我几个月前根据作者的笔记做了这个讲座）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何检测文本文档之间的重复项并返回重复项的相似度？的相关文章

实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
CSS Hex 到速记十六进制转换

将十六进制转换为速记十六进制的正确算法是什么例如 996633很容易被转换为 963 但如果是这样怎么办 F362C3 我的第一个猜测是我只取每种颜色的第一个值并使用它所以 F362C3变成 F6C 但我不知道如何从数学上证明这种方法的
分割如何提高埃拉托斯特尼筛法的运行时间？

我遇到了埃拉托色尼筛的分段实现它的运行速度比传统版本快很多倍有人可以解释一下分段如何提高运行时间吗请注意我想在其中找到素数 1 b 它适用于这个想法用于查找 10 9 之前的质数我们首先生成 sqrt 10 9 以下的筛选素数
计算产生相同 BST 的唯一节点序列的数量

问题给定一个最多 50 个整数的特定序列它们代表某个二叉搜索树 BST 的节点有多少种排列这个序列在那里这也会产生完全相同的空白石板时间将原始序列作为 1 个序列包含在总计数中例如对于这样的序列 5 2 1 9 8 答案
对 Big O 表示法仍然有点困惑

所以我一直在尽力理解 Big O 表示法但仍然有一些事情我感到困惑所以我一直读到如果某件事是 O n 那么它usually指的是算法的最坏情况但它不一定要指最坏的情况这就是为什么我们可以说插入排序的最佳情况是 O n 但是我无法真
创建横幅交换算法来轮播广告

我正在构建广告横幅轮播脚本基于印象整个月均匀地显示广告每次请求显示广告时都会进行计算所以这将是即时完成的广告应显示为一个接一个轮流播放而不是仅显示一个广告 1000 次展示然后显示另一个广告 1000 次展示大多数情况下它应该
最大流量算法的修改

我试图解决一个关于最大流量问题 http en wikipedia org wiki Maximum flow problem 我有一个源和两个接收器我需要找到该网络中的最大流量这部分是一般的最大流量然而在这个特殊版本的最大流量问题
算法的最佳、最差和平均情况运行时间是多少？

算法的最佳最差和平均情况运行时间是多少用最简单的术语来说对于输入大小为n 最好的情况最快完成时间选择最佳输入例如排序算法的最佳情况是已经排序的数据最坏的情况下完成最慢的时间选择了消极的输入例如排序算法的最坏情况可能是
如何在 O(n) 时间内遍历二叉树而不需要额外的内存

给定一棵带有整数左指针和右指针的二叉树如何在 O n 时间和 O 1 额外内存无堆栈队列递归内遍历该树 This guy http nandacumar blogspot com 2006 06 traversing tree
硬币兑换的空间优化解决方案

给定一个值 N 如果我们想要找 N 分钱并且我们有无限供应每种 S S1 S2 Sm 价值的硬币我们可以有多少种找零方式硬币的顺序并不重要例如对于 N 4 且 S 1 2 3 有四种解 1 1 1 1 1 1 2 2 2 1 3
这个洗牌算法有什么问题吗？

我一直在做一些休闲假期计算我的迷你项目是模拟意大利游戏 tomboli 一个关键的组成部分是对以下过程的模拟游戏由一名男子控制他拿着一袋 90 个弹珠编号为 1 到 90 他从袋中随机取出一颗弹珠每次向玩家喊出弹珠编号经过一番思
如何选择部分密集数据集的均匀分布子集？

P是一个 n d 矩阵持有nd 维样本 P某些地区的密度是其他地区的几倍我想选择一个子集P其中任意样本对之间的距离大于d0 并且我需要将其传播到整个区域所有样本都具有相同的优先级无需优化任何内容例如覆盖面积或成对距离之和这是执行
在二维平面中找到距离 P 点最近的 K 个点

资料来源亚马逊面试问题解决方案1制作大小为 K 的堆并按最小距离收集点O NLogK 复杂解决方案2 取大小为 N 的数组并按距离排序应该使用QuickSort 霍尔修改取前 K 点作为答案这太复杂了 NlogN 但可以优化到近
O(mn) 比 O((m+n)^2) 更好吗？

算法的输入是m and n 我的算法的时间复杂度是O mn 我有一个时间复杂度为的基准算法O m n 我的实现在时间复杂度方面是否优于基准许多评论者和回答者希望只考虑以下情况 m n或者至少当它们通过一个常数因子相关时这不是它的工作原理
Java：使用indexOf方法根据另一个数组对数组进行排序

我想根据另一个数组索引的排序顺序迭代两个数组 A B 在本例中为 10 34 32 21 String A a b c d String B e f g h int indexes 10 34 32 21 为这里的坏例子道歉我已经更新
当目标是查找某个字符串的所有出现情况时，KMP 最坏情况的复杂度是多少？

我还想知道哪种算法在查找另一个字符串中所有出现的字符串时具有最坏情况的复杂性博耶摩尔算法似乎具有线性时间复杂度 KMP 算法在查找字符串中所有出现的模式时具有线性复杂度如 Boyer Moore 算法1 如果您尝试在 aaaaaaaa
检查数独字段的很酷的算法？

有谁知道一个简单的算法来检查数独配置是否有效我想出的最简单的算法是对于大小为 n 的板伪代码 for each row for each number k in 1 n if k is not in the row using ano
交换两个向量之间的值，使两个向量的 max_element 之和最小

这是 Codechef 的问题但请耐心等待 https www codechef com ZCOPRAC problems ZCO16001 https www codechef com ZCOPRAC problems ZCO16001
如何在Scala中实现尾递归快速排序

我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ
Java：如何实现3和？

我正在研究 3 Sum 来自己实现它并遇到了以下规则的实现给定一个由 n 个整数组成的数组 S S 中是否存在满足 a b c 0 的元素 a b c 查找数组中所有总和为零的唯一三元组注意三元组 a b c 中的元素必须按非降序排

随机推荐

无法实例化fragment找不到Fragment构造函数android

我遇到以下错误我在 DailyVerseFragment 上添加了构造函数但还是不行我遇到这个问题已经超过一周了 Fatal Exception java lang RuntimeException Unable to start a
如何从终端运行 mvim (MacVim)？

我安装了 MacVim 并尝试将其设置为 Git 版本控制的编辑器但我无法从命令行运行 mvim 因为它无法识别如何设置 mvim 以便可以从终端运行它我不认为我会在路径中添加任何东西是的 brew install macvim
如何编写按日期接收数据的查询？

我写了一个简单的查询 SELECT date count user as count FROM sessions GROUP BY date 回应是这样的但是我想查看每个日期如果日期不存在行必须是这样的 2018 02 01 0 2
使用 Cordova 3.1 CLI 构建 Android 应用程序时出错

我正在尝试通过 Mac 上的终端通过phonegap CLI 运行 cordova build android 首先我下载了 Android SDK 然后我设置了项目并添加了android 然后我尝试 cordova build andro
增长 NSTextView 以适应内容会剪切最后一行文本

我正在尝试创建一个 NSTextView 它随着用户键入而垂直增长并在高度达到最大值后滚动这类似于消息作品中的文本视图我的第一次尝试使用委托来侦听文本更改并调整与 NSTextView 的滚动视图关联的高度约束 void textDi
在 codeigniter 中卷曲

我想在我的 codeigniter 应用程序中使用curl 但我得到的是空数组我的代码是这样的 this gt load gt library curl url http url checkweb php post data array
JWT 和签名 cookie 有什么区别？

我正在调查JWT http jwt io作为传统 Cookie 会话的替代方案但我看不出它们与签名 Cookie 有何根本区别例如 Express 通过中间件提供的签名 Cookiecookie解析器 https www npmjs c
如何在 Olingo V4 中创建有界动作 (java)

我尝试到处寻找但无法弄清楚如何在 olingo V4 java 中实现有界操作处处给出无界动作教程我尝试调整这段代码 final CsdlAction action new CsdlAction action setName test
收到“Stream 不支持写入。”以下代码中出现异常

我正在尝试将图像上传到 Amazon S3 但在此之前我正在调整图像大小为了调整大小我必须传递流对象并且在某一时刻注释为 Error 的行我收到 Stream 不支持写入例外请帮忙 public ActionResult Ad
Vim 中可以有特定于文件类型的键绑定吗？

In my vimrc文件中我有一个用于注释的键绑定用于插入双斜杠在一行的开头 the mappings below are for commenting blocks of text map
扩展 AbstractAnnotationConfigDispatcherServletInitializer 时的 getServletConfigClasses() 与 getRootConfigClasses()

有什么区别getServletConfigClasses vs getRootConfigClasses 延伸时AbstractAnnotationConfigDispatcherServletInitializer 从今天早上开始我已经阅
管理中自定义 Magento 配置出现 404 错误

我正在 Magento 1 6 中开发自定义 SMS 模块我已经设置了system xml文件来管理相关的自定义配置字段菜单条目显示出来但当我单击它时会显示 404 错误页面而不是预期的配置字段列表你能看到我的代码中有任何错误吗
如何在 iPhone 应用程序中实现密码恢复？

我想在我正在开发的 iPhone 应用程序中添加简单的密码保护我可能会使用 crypt 将密码存储在我的数据库中该数据库采用 CoreData sqlite 格式我认为我对如何创建和存储密码有很好的了解但如果用户忘记密码我想添加密
do-while 循环的目的是什么？ [复制]

这个问题在这里已经有答案了我知道 do 的作用以及它如何与 while 循环配合但是无论 do 是否存在 while 循环代码不会相同吗考虑以下 while condition myFunction and do myFunctio
在 NodeJS 中，如何将 HTTP 请求包装到 Promise 中？

NodeJS 6 9 3 我编写了一个简单的 NodeJS 应用程序它发出如下所示的请求 var http request require request http request method GET uri https search
持续检测互联网连接

我希望我的应用程序能够自动检测互联网连接丢失所以我使用以下代码 void applicationDidBecomeActive UIApplication application Reachability networkReachabil
跟踪未登录的用户

是否可以在不使用会话或 cookie 的情况下跟踪未登录的用户有没有更靠谱的方法呢就像www filefactory com或其他类似的下载空间网站一样他们可以跟踪您是否是免费用户并发送下载请求在开始下一次下载之前您必须等待x次我
如何使用R表函数获取比例？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我有一个犯罪数据集其中变量很少如 ID Year Date Arrest 现在我试图获取特定年份中逮捕的比例例如多
检查数组中的值

我需要检查数组以查看用户输入是否已存在并显示一条消息以确定用户输入是否存在第一部分正在工作但我尝试创建一种单词检查方法我不确定我是否走在正确的道路上干杯 import java util Scanner public class
如何检测文本文档之间的重复项并返回重复项的相似度？

我正在编写一个爬虫来从某个网站获取内容但是内容可以重复我想要以避免这种情况所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例文本 1 我正在编写一个爬虫文本2 我正在编写一些文本爬虫来获取比较函数

如何检测文本文档之间的重复项并返回重复项的相似度？

如何检测文本文档之间的重复项并返回重复项的相似度？ 的相关文章

随机推荐

热门标签

如何检测文本文档之间的重复项并返回重复项的相似度？的相关文章