是否有一种可以容忍微小差异的哈希算法？

2024-01-03

我正在做一些网络爬行类型的工作，在网页中查找某些术语并找到它们在页面上的位置，然后将其缓存以供以后使用。我希望能够定期检查页面是否有任何重大更改。像 md5 这样的东西可以通过简单地将当前日期和时间放在页面上来阻止。

有没有适用于这样的事情的哈希算法？

进行文档相似度的常见方法是木瓦 http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html，这比哈希更复杂一些。还查看内容定义分块一种分割文档的方法。

几年前我读过一篇关于使用布隆过滤器 http://en.wikipedia.org/wiki/Bloom_filter用于相似性检测。使用布隆过滤器优化 Web 搜索结果 http://webdb2005.uhasselt.be/papers/2-1.pdf。这是一个有趣的想法，但我从未抽出时间去尝试。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否有一种可以容忍微小差异的哈希算法？的相关文章

如何防止 Ajax/javascript 结果在浏览器中缓存？

如何防止浏览器缓存Ajax结果我有事件触发的 Ajax 脚本仅当浏览器数据被清除时才显示结果在 IE6 和 Firefox 3 0 10 中测试随机 URL 可以工作但它是一种 hack HTTP 内置了应该可以工作的解决方案尝
如何在 O(n) 时间内遍历二叉树而不需要额外的内存

给定一棵带有整数左指针和右指针的二叉树如何在 O n 时间和 O 1 额外内存无堆栈队列递归内遍历该树 This guy http nandacumar blogspot com 2006 06 traversing tree
使用Redis从有限范围内生成唯一ID

我有一些数据库项目除了主键之外还需要项目所属组的唯一索引我们来调用属性nbr 以及将项目分组在一起并定义唯一范围的属性nbr 我们会打电话group This nbr必须在 1 N 范围内并且may从外部源导入项目时进行设置由于所
使用哈希检查具有 $_POST 值的页面是否已刷新

当将表单发布到同一个PHP页面时正确的方法是什么来查找页面是否被意外刷新而不是再次提交这是我现在正在使用的 tmp implode POST myHash md5 tmp if isset SESSION myHash SESSION
在 C 中打印字符串的所有排列

我正在学习回溯和递归并且我陷入了打印字符串所有排列的算法我用以下方法解决了它贝尔算法 http programminggeeks com bell algorithm for permutation 用于排列但我无法理解递归方法我在
这个洗牌算法有什么问题吗？

我一直在做一些休闲假期计算我的迷你项目是模拟意大利游戏 tomboli 一个关键的组成部分是对以下过程的模拟游戏由一名男子控制他拿着一袋 90 个弹珠编号为 1 到 90 他从袋中随机取出一颗弹珠每次向玩家喊出弹珠编号经过一番思
找到两个移动物体的更好交点

我想极大地优化我的算法之一我将尽力以最好的方式解释它主题我们当时处于二维欧几里德系统中t 0 在这个系统中有两个对象 O1 and O2 O1 and O2分别位于点PA and PC O1移动于常数和已知点方向的速度PB 当物体到达
使用 Webpack 进行缓存，索引源代码中的 [hash] 值，使用 React.js

我正在构建一个同构应用程序它完全是用react构建的也就是说 html基础也在react中我有我的根 html 作为应用程序组件它看起来像这样 var AppTemplate React createClass displayNam
Rails 缓存数据库查询和最佳实践

我网站上的数据库负载变得非常高因此我需要缓存每小时被调用 1000 次且结果不变的常见查询例如在我的城市模型上我执行以下操作 def self fetch id Rails cache fetch city id City find
修改排列算法以防止重复打印输出的策略

我一直在审查实践算法目前正在研究一种我非常喜欢的排列算法 void permute char set int begin int end int range end begin if range 1 cout lt lt set lt l
C# 计算LRC（纵向冗余检查）

我一直在到处研究这个问题所有 LRC 实现似乎都没有给我正确的答案花了几天时间后我决定将我的代码放在这里看看其他人是否可以发现问题这是代码 C Input Data 31303030315E315E31303030325E315E
如何找到最长的回文子序列（不是它的长度）

我想找出字符串中最长的回文子序列我到处都找到了找出子序列长度的算法并声明该算法也可以扩展以返回子序列但我没有找到如何实现的有人能解释一下我怎样才能得到序列吗既然你提到了链接最长回文子序列 http www geeksforgeek
Java：使用indexOf方法根据另一个数组对数组进行排序

我想根据另一个数组索引的排序顺序迭代两个数组 A B 在本例中为 10 34 32 21 String A a b c d String B e f g h int indexes 10 34 32 21 为这里的坏例子道歉我已经更新
Google App Engine - 破坏服务 URL 缓存

我终于设法让图像在 App Engine 上正确旋转现在我正在努力绕过缓存的图像而标准缓存清除技术不起作用因此第一次旋转图像时我得到了一个不同的 URL 并且图像被旋转第二次旋转它时我得到相同的 URL 只有在附加 s300
给定两个（大）点集，我如何有效地找到彼此最接近的点对？

我需要解决一个计算问题该问题归结为搜索两个集合之间最接近的点对问题是这样的给定欧几里德空间中的一组点 A 和一组点 B 找到所有对 a b 使得 b 是 B 中与 a 最近的点 a 是 A 中与 b 最近的点集合 A 和 B 的大小
为无向无权图实现推重标签算法 s-t 最小割边

我正在寻找一个好的解决方案来在无向和未加权图中找到 s t 最小切割边我想使用推送重新标记算法但我不确定如何实现它以在无向和未加权图上找到最小割在每对顶点之间有两条反向边并在所有边上赋予相同的权重并应用推送重新标记算法我可以用这
交换两个向量之间的值，使两个向量的 max_element 之和最小

这是 Codechef 的问题但请耐心等待 https www codechef com ZCOPRAC problems ZCO16001 https www codechef com ZCOPRAC problems ZCO16001
如何在Scala中实现尾递归快速排序

我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ
哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？

这是我的场景考虑在不同地点和时间发生的一组事件例如考虑有人在高空记录暴风雨期间城市中的雷击就我的目的而言闪电是瞬时的只能击中某些位置例如高层建筑还可以想象每次雷击都有一个唯一的 ID 以便以后可以参考该雷击这个城市大约有1
反转二进制网络

如何反转二元方程以便找到哪些输入将产生给定的输出 Example Inputs i0 through i8 Outputs o0 through o8 Operators XOR AND 二元方程 1 i0 1 i1 0 i2 1 i3

随机推荐

如何在 Python 中处理命令行参数？ [复制]

这个问题在这里已经有答案了如果我期望像 001 或 999 这样的东西这次让我们将期望限制在 001 999 范围并且传递的其他参数很少并且希望忽略任何意外的参数那么处理命令行参数的简单表达式是什么我知道例如如果我需要查明
Facebook 身份验证对话框（JS SDK）返回空白屏幕

我正在设置一个 Rails 应用程序并尝试通过 Facebook JS SDK 实现登录已经缺少 Omniauth 无论如何发生的情况是弹出对话框用户提供登录信息但随后它重定向到https www facebook com conn
如何使用服务帐户访问 GSuite 电子邮件帐户的 GMAIL API

我希望我的服务帐户能够模拟 GSuite 中的用户之一我有通过 GCP 创建项目在项目中启用GMail API 向该项目添加了一个服务帐户启用了domain wide delegation在服务帐户设置中GCP 添加了一个API C
.Net 中的缓存和 WebBrowser 控件

我正在使用 Net 中的 WebBrowser 控件来执行一些第三方联属营销转换我在数据库中有一个队列表其中包含要执行的所有脚本图像我使用 WebBrowser 控件在 WinForms 应用程序中循环遍历所有这些内容执行脚本图
使用 bash 命令结果设置 ant 属性

我怎样才能设置antproperty 的值是 bash 脚本执行的结果例如我需要有一个利用的目标svn and bash实用程序以控制构建执行更具体地说我尝试创建的目标将用于定义通过命令部署的应用程序中是否有修改的文件 svn st
使用 auto 的模板函数重载解析

具有以下 3 个重载 template
将 UITableView 滑动到屏幕上，继续滑动？

我想要一个从屏幕外开始并可以在屏幕上滚动到达顶部并继续滚动的表格视图我在下面制作了所需交互的视觉效果我尝试过两件事但都没有完全按照我的需要工作我做的第一件事是将表视图放入滚动视图中并在表视图上检测到平移时移动滚动视图这会阻止桌
Parsley.js - 仅验证数字的可选输入

我有一个表单其中有 1 个可选输入和 3 个必填输入字段对于可选输入我有以下标记
在 Meteor 中配置 Iron 路由器 - React

使用 Meteor 1 2 0 1 和 React 我的简单应用程序运行良好但现在我需要铁路由器 https github com iron meteor iron router 应用程序布局 client app jsx lib rou
Emmet - 带缩写的换行 - 表示换行文本的令牌，即{原始文本}

我正在尝试尽可能惰性地将 URL 列表转换为 HTML 链接 www annaandsally com au www babylush com au www babysgotstyle com au etc 使用缩写形式的wrapper 我
WebWorkers 的执行速度似乎比主线程慢得多

我一直致力于优化一些长时间运行的 JAvaScript 并尝试实现 WebWorkers 我有一组独立的任务需要计算在我最初的测试中有 80 个任务在主线程上完成需要 250 毫秒我认为我可以将任务分配给一些网络工作人员并将时间缩
Hibernate 中的枚举

在 DAO 中拥有一个其值来自 Java 枚举的字段通常很有用一个典型的示例是登录 DAO 其中通常有一个将用户特征描述为 NORMAL 或 ADMIN 的字段在 Hibernate 中我将使用以下 2 个对象以半类型安全的方式表
C++ 实验/文件系统remove_all

我想删除 C 17 中包含子文件夹和文件的文件夹我在用着experimental filesystem namespace filesys std experimental filesystem uintmax t n filesys r
在Android 8.1中访问WallpaperManager

我正在构建一个启动器需要访问用户当前的背景壁纸但每次启动应用程序时都会收到警告W WallpaperManager No permission to access wallpaper suppressing exception to a
SaveChanges() 实体框架 4.1 的问题

我在保存对数据库的更改时遇到问题我正在控制器中更新模型 A 但是当我使用 SaveChanges 保存更改时我最终在 B 的数据库中出现了重复的项目调用 UpdateModel 后我检查了 Bs 属性它正如我所预期的那样但是在调
使用 supertest、express 和 mocha 进行 Grunt 测试 api

我有一个由express运行的https服务器我使用mocha和supertest对其进行测试我的问题是如果我只运行测试就可以了如果我尝试使用 test 运行 gruntfile 然后运行 express 我会看到很多 EADDR
如何让按钮文本在 IE 中顶部对齐？

我在按钮内有一些文本我希望该文本在按钮顶部对齐默认情况下它似乎与中间对齐在 webkit 中我可以使用 webkit box align start 将此文本对齐到顶部这似乎不适用于 IE 例子 http jsfiddle net
如何从具有 EXCEPTION 效果的 PureScript 函数返回值？

我刚刚开始学习 PureScript 效果并且一直在尝试创建一个具有 EXCEPTION 效果的函数 lengthGt5 forall eff String gt Eff err EXCEPTION eff String lengthGt
kubectl 端口转发是否加密？

在运行 kubectl port forward 命令时我找不到任何有关集群 pod 和 locahost 之间的连接创建被加密的信息看起来它使用的是 socat https linux die net man 1 socat 支持加密
是否有一种可以容忍微小差异的哈希算法？

我正在做一些网络爬行类型的工作在网页中查找某些术语并找到它们在页面上的位置然后将其缓存以供以后使用我希望能够定期检查页面是否有任何重大更改像 md5 这样的东西可以通过简单地将当前日期和时间放在页面上来阻止有没有适用于这样的事情的

是否有一种可以容忍微小差异的哈希算法？

是否有一种可以容忍微小差异的哈希算法？ 的相关文章

随机推荐

热门标签

是否有一种可以容忍微小差异的哈希算法？的相关文章