快速相似性检测

2024-01-14

我有大量的对象，我需要找出它们之间的相似之处。

确切地说：给定两个对象，我可以将它们的差异计算为数字，ametric http://en.wikipedia.org/wiki/Metric_%28mathematics%29- 值越高意味着相似度越低，0 意味着对象具有相同的内容。计算该数字的成本与较小对象的大小成正比（每个对象都有给定的大小）。

我需要能够在给定一个对象的情况下快速找到与其相似的一组对象。

确切地说：对于某些相异值 d，我需要生成一个数据结构，将任何对象 o 映射到与 o 不相似的对象集，这样列出集合中的对象所花费的时间不会比它们花费的时间多。位于数组或链表中（也许它们实际上是）。通常，该集合将比对象总数小得多，因此执行此计算确实值得。如果数据结构假设一个固定的 d 就足够了，但如果它适用于任意 d，那就更好了。

您以前见过这个问题或类似的问题吗？什么是好的解决方案？

To be exact: a straightforward solution involves computing the dissimilarities between all pairs of objects, but this is slow - O(n²) where n is the number of objects. Is there a general solution with lower complexity?

我需要生成一个数据结构将任何对象 o 映射到集合物体与 o 的相似度不超过 d，对于某些相异值d。

当小计变得大于时，放弃相似性计算可能是最快的d。例如，如果您的相似性基于余弦或豪斯多夫距离，则可以轻松完成。

PS: 如果无法做到这一点，则您的问题可能与 k 最近邻问题（或更准确地说是具有阈值邻域的最近邻问题）有关。您应该寻找无需计算所有距离即可找到附近成员的算法（可能使用三角不等式）。维基百科应该帮助您探索合适的算法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

快速相似性检测的相关文章

关于在字典中查找所有有效单词的算法问题

给定一个字典只是一个字符串列表您收到来自外部来源的未知数量的信件给定字母串您将如何列出您可以通过这些字母的任意组合组成的所有有效单词来自字典因此如果您收到 applead 你应该找到apple bad pad lead等我知
包围一组点的多边形

我有一组 S 点 2D 由 x 和 y 定义我想找到 P 包围该组所有点的最小含义具有最少数量的点多边形 P 是S 有没有已知的算法来计算这个我在这个领域缺乏文化令人惊讶感谢您的帮助对于这个问题有很多算法它被称为最小边界框
7 张牌扑克手牌评估器

有谁知道评估 7 张牌扑克牌的快速算法吗这比简单地暴力检查 7 张牌中每 21 个 5 张牌的组合更有效 Cheers Pete 我写了一篇JavaScript 核心评估方法仅使用位操作因此速度非常快考虑到这一点查看 21 种组合还
异或交换可以扩展到两个以上的变量吗？

我一直在尝试将异或交换扩展到两个以上的变量例如n变量但我没有得到比这更好的地方3 n 1 对于两个整型变量x1 and x2你可以像这样交换它们 swap x1 x2 x1 x1 x2 x2 x1 x2 x1 x1 x2 所以假设你有
如何有效地找到距给定点最远的点（从一组点中）？

我正在寻找一种算法或数据结构来解决以下问题给你一组点 S 然后你会得到另一个点形式的 Q 查询对于每个查询找到集合中距离给定点最远的点集合中最多有 10 5 个点和 10 5 个查询所有点的坐标都在 0 到 10 5 范围内我想
数学组合的完美最小哈希

首先定义两个整数N and K where N gt K 两者都在编译时已知例如 N 8 and K 3 接下来定义一组整数 0 N or 1 N 如果这使答案更简单并调用它S 例如 0 1 2 3 4 5 6 7 的子集数量S wi
具有多个谓词的 C++11 算法

功能如std find if来自algorithmheader 确实很有用但对我来说一个严重的限制是我只能为每次调用使用 1 个谓词count if 例如给定一个像这样的容器std vector我想同时应用相同的迭代find if 多个
照片马赛克算法。如何在给定基本图像和瓷砖列表的情况下创建马赛克照片？

Hy 我要做的是创建一个程序使用 C 或 C 它将 24 位像素位图和图像集合作为输入我必须创建一个马赛克图像类似于使用库的输入图像给定的图像创建与输入类似的马赛克照片到目前为止我可以访问输入的图像像素及其颜色但我有点卡住了
如何对对象进行排序？（画家算法）

所以我有 4 个矩形形状我正在尝试应用排序算法画家算法 https en wikipedia org wiki Painter 27s algorithm 来知道我需要先绘制哪些形状在 3d 中然后绘制哪个形状 Note 相机位于右
平铺单纯形噪声？

我作为业余爱好者对伪随机噪声生成很感兴趣特别是 Perlin 和 Simplex 算法 Simplex 的优点是速度尤其是在更高的维度上但 Perlin 可以相对容易地平铺我想知道是否有人知道平铺单纯形算法固定维度就好泛型更
Swift 使用哪种通用排序算法？它在排序数据上表现不佳

我一直在挑选和探索 Swift 标准库sort 其函数为Array类型令我惊讶的是我注意到它在已经排序的数据上表现不佳对数组进行排序Int打乱顺序似乎比对已经排序的同一个数组进行排序快 5 倍对已打乱顺序的对象数组进行排序比对已按排
归并排序中的递归：两次递归调用

private void mergesort int low int high line 1 if low lt high line 2 int middle low high 2 line 3 mergesort low middle l
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
我正在尝试寻找“调酒师算法”

我正在解决旧编程竞赛中的一些示例问题在这个问题中我们输入了我们有多少调酒师以及他们知道哪种配方每杯鸡尾酒的制作时间为 1 分钟我们需要计算是否可以在 5 分钟内使用所有调酒师完成订单解决这个问题的关键是尽可能高效地分配鸡尾酒这就
从 1 到 20 亿，像 (23,29) 这样相差 6 的连续素数对的数量

如何在考虑时间复杂度的情况下从 1 到 20 亿使用任何编程语言且不使用任何外部库找到像 23 29 这样相差 6 的连续素数对的数量尝试过埃拉托色尼筛但获得连续素数是一个挑战使用了生成器但时间复杂度非常高代码是 def ge
将名称字符串编码为唯一的数字

我有一大堆名字数以百万计他们每个人都有一个名字一个可选的中间名和一个姓氏我需要将这些名称编码为唯一代表这些名称的数字编码应该是一对一的即一个名称只能与一个数字相关联一个数字只能与一个名称相关联对此进行编码的明智方法是什么我
应用对数来导航树

我曾经知道一种使用对数从树的一片叶子移动到树的下一个有序叶子的方法我认为它涉及获取当前叶子的位置值排名并将其用作从根向下到新目标叶子的新遍历的种子一直使用对数函数测试来确定是否沿着右或左节点向下到达叶子我已经不记得如何运用
使用到达时间差对信号进行三边测量

我在寻找或实现寻找信号源的算法时遇到一些麻烦我的工作目标是找到声音发射器的位置为了实现这一点我使用了三个麦克风我正在使用的技术是多点定位这是基于到达时间差 The 到达时间差使用发现每个麦克风之间互相关接收到的信号我已经实现了算法
欧拉项目 45

我还不是一名熟练的程序员但我认为这是一个有趣的问题我想我应该尝试一下三角形五边形六边形数字由以下生成公式三角形 T n n n 1 2 1 3 6 10 15 五边形 P n n 3n 1 2 1 5 12 22 35 六角
如何从 Trie 中检索给定长度的随机单词

我有一个简单的 Trie 用来存储大约 80k 长度为 2 15 的单词它非常适合检查字符串是否是单词但是现在我需要一种获取给定长度的随机单词的方法换句话说我需要 getRandomWord 5 来返回 5 个字母的单词所有 5

随机推荐

JTree：如何获取所有项目的文本？

我想获取 JTree 格式的文本 root sudir1 node1 node2 subdir2 node3 node4 是否可以我写了一些代码 public static String getLastSelectedText JTree
从命令行将键盘输入发送到程序

如何将键盘输入发送到程序就是在Linux GUI下有没有好的手动可编程方式或者工具在 Linux 上运行的程序上模拟键盘输入以便我可以发送从命令行例如 Control T 到 Firefox 进程并 echo hello
如何使用RelativeSource Binding 创建DataGrid 到Model 和ViewModel 的绑定？

我有一个 DataGrid 其中有一个 DataGridTemplateColumn 它使用 DataGrid 的 ItemsSource 绑定但在 DataGridTemplateColumn 的 ComboBox 中我希望能够绑定到
主线程优先级的值是多少？

所有线程都有其优先级那么主线程的整数值是多少此代码显示了主线程的优先级 public class Main public static void main String args System out println Thread cu
如何使用 javascript 从 PNG 中提取像素信息（getImageData 替代方案）

我正在尝试从 PNG 图像中获取像素数据进行处理目前的方法是使用canvas drawImage已关注canvas getImageData 例子在这里 https stackoverflow com questions 3528299
在 Visual Studio Code 中显示符号链接

我最近从 Atom 切换到 VS Code 但我似乎找不到一个关键功能是否可以在 Visual Studio Code 文件资源管理器中显示符号链接 VSCode 2018 年 2 月更新包括对符号链接的支持链接如下所示欲了解更多信息
如何更改 x 轴以便没有空白？

因此目前正在学习如何导入数据并在 matplotlib 中使用它即使我有书中的确切代码我也遇到了麻烦这就是图的样子但我的问题是如何在 x 轴的起点和终点之间没有空白的情况下得到它这是代码 import csv from matp
Firebase 数据库：尽管有“无参数构造函数”错误

我正在尝试在一个活动中写入数据然后在另一个活动中读取数据我的写作部分正在发挥作用对于我的阅读部分我尝试将 getValue 与我编写的类的参数一起使用但我不断收到此错误 com google firebase database D
您应该在类中引用属性还是成员变量？ [复制]

这个问题在这里已经有答案了可能的重复您应该通过属性访问同一类中的变量吗 https stackoverflow com questions 271318 should you access a variable within the s
如何使用 Apache Mesos/Marathon 运行一次性任务？

我正在尝试使用 Marathon 运行一项一次性任务我能够让任务容器运行但在任务命令完成后 marathon 会运行另一个任务依此类推如何防止 Marathon 运行多个任务命令或者如果 Marathon 无法做到这一点我怎
将布尔值传递给 Python C 扩展的“正确”方法是什么？

这是 python 文档 http docs python org extending extending html 中的一个简单示例 static PyObject spam system PyObject self PyObject a
通过 Javascript 更改 CSS 关键帧

我想知道是否可以调整CSS关键帧的内容因为我在网上看到了各种各样的建议但似乎没有一个对我有用这些是我的关键帧 keyframes changeColor 0 color yellow 50 color red moz keyframe
Dopdownlist 正在填充有限的值，而不是总集合中的值

我有一个下拉列表作为过滤器然后总帖子数限制为一次仅显示 4 条除非单击加载更多按钮以显示另外 4 条记录问题是下拉列表也仅加载前 4 条记录中的值这是我的出版物 Meteor publish allJobs function l
使用 Python、PyQt、Qt Designer 将现有的 MainWindow 替换为新窗口

I m new to Python GUI programming I m have trouble making a GUI app I have a main window with only a button widget on it
是否可以在使用 python 执行 javascript 后加载页面？

这是我读到的页面如您所见 Hello World当我使用 HTML 解析器时使用 javascript 添加到 HTML 页面上例如BeautifulSoup解析它它无法解析Hello World 我有可能解析客户端如何真正看到的实
整数字段上的 Rails mongoid 正则表达式

我有一些身份证214001 214002 215001 etc 我想要从搜索栏中自动完成 ID 214 应该触发 ID 自动完成214001 214002 显然我不能只是做一个 scope by number gt number wher
如何获取 Kafka Debezium MySQL 连接器的database.server.name？

EDITING问题尝试配置 Debezium MySQL Kafka 连接器以为例 https debezium io documentation reference stable connectors mysql html mysql
使用 Pymunk 和 Pygame 进行横向滚动。如何移动相机/视口以仅查看世界的一部分？

从 pymunk 示例中我发现 pymunk 坐标和 pygame 坐标之间存在差异另外 pymunk 仅用于 2D 物理而 pygame 用于在屏幕上渲染对象精灵因此当寻找如何构建摄像机跟随玩家的环境时人们包括我最终会变得
C# 如何为集合的集合编写 EnableCollectionSynchronization 代码

我搜索了整个互联网寻找没有结果的解决方案在我的程序中我有 UI 线程在两个数据网格客户和订单中显示显示所选客户的订单集合的定义及其更新在后台进行 UI 的目的只是显示最新信息我利用 C 4 5 中引入的最新功能即 Bi
快速相似性检测

我有大量的对象我需要找出它们之间的相似之处确切地说给定两个对象我可以将它们的差异计算为数字 ametric http en wikipedia org wiki Metric 28mathematics 29 值越高意味着相似度越低

快速相似性检测

快速相似性检测 的相关文章

随机推荐

热门标签

快速相似性检测的相关文章