快速 (< n^2) 聚类算法

2023-12-24

我有 100 万个 5 维点，需要将它们分组为 k 个簇，其中 k

但！我需要运行时间远低于 n^2。 n log n 左右应该没问题。我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵（这需要 n^2 时间或多个小时），而是我只想计算聚类之间的距离。

我尝试了 pycluster k-means 算法，但很快意识到它太慢了。我还尝试了以下贪心方法：

将空间在每个维度上切成 20 块。（所以总共有 20^5 块）。我将根据它们的质心将簇存储在这些网格框中。
对于每个点，检索 r（最大边界球体半径）内的网格框。如果有足够近的簇，则将其添加到该簇中，否则创建一个新簇。

然而，这似乎给了我比我想要的更多的集群。我也两次实施了类似的方法，但他们给出了截然不同的答案。

是否有任何标准方法可以比 n^2 时间更快地进行聚类？概率算法没问题。

考虑一个近似最近邻（ANN）算法或局部敏感哈希（LSH）。它们不直接解决聚类问题，但它们能够告诉您哪些点彼此“接近”。通过更改参数，您可以将 close 定义为您想要的接近程度。而且速度很快。

更准确地说，LSH可以提供哈希函数，h，这样对于两点x and y和距离度量d,

d(x,y) <= R1  =>  P(h(x) = h(y)) >= P1
d(x,y) >= R2  =>  P(h(x) = h(y)) <= P2

where R1 < R2 and P1 > P2。所以是的，这是概率性的。您可以对检索到的数据进行后处理以获得真正的聚类。

这里有关于LSH http://www.mit.edu/~andoni/LSH/包括E2LSH说明书 http://www.mit.edu/~andoni/LSH/manual.pdf。 ANN 在精神上是相似的；大卫·蒙特有信息here http://www.cs.umd.edu/~mount/ANN/，或者尝试FLANN http://www.cs.ubc.ca/~mariusm/index.php/FLANN/FLANN（具有 Matlab 和 Python 绑定）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

快速 (< n^2) 聚类算法的相关文章

如何衡量字符串的复杂度？

我有一些长字符串 1 000 000 个字符每个字符串仅包含定义字母表中的符号例如 A 1 2 3 示例字符串 string S1 1111111111 meta complexity 0 string S2 1111222333 me
卷积 ImageNet 网络对于翻转图像具有不变性

我正在使用深度学习 caffe 框架进行图像分类我有一些有头像的硬币有些是左向的有些是右向的为了对它们进行分类我使用常见的方法从预训练的 ImageNet 网络中获取权重和结构该网络已经捕获了大量图像模式并主要训练最后一层以
通过排列四个给定数字找到最大可能时间 HH:MM

我最近为了工作晋升而参加了编码测试这是我真正遇到的任务之一我想知道什么是最好的方法来做到这一点我使用了大量的 if 和 if else 这不是最干净的解决方案但完成了工作我被问到的问题是将 4 个数字格式化为 24 小时时间 0
比 BMH (Boyer–Moore–Horspool) 更快的算法

您会使用哪种算法来搜索短文本中的短子字符串简而言之我的意思是子字符串有 5 10 个字符字符串有 255 个字符我正在考虑根据输入数据长度选择算法哪种算法对于较长的输入更好 Try Turbo BM http www igm un
如何加速 svm.predict？

我正在编写一个滑动窗口来提取特征并将其输入到 CvSVM 的预测函数中然而我偶然发现 svm predict 函数相对较慢基本上窗口以固定的步幅长度在图像比例上滑动穿过图像遍历图像加上提取每个图像特征的速度窗口大约需要 1000
基于 2 个输入的伪随机数生成器 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我需要根据 2 个输入值 X 和 Y 生成一个伪随机数给定相同的 X 和 Y 值我需要得到相同的结果结果应介于 0 和 1 之间含
最接近 x,y 的线上的点[重复]

这个问题在这里已经有答案了可能的重复如何判断一个点是否在某条线附近 https stackoverflow com questions 910882 how can i tell if a point is nearby a certa
分组符号最大长度平衡子序列

将 B 视为分组符号和的序列如果 B 的长度为 0 或 B 具有以下形式之一则称 B 为平衡序列 X Y 或 X Y 或 X Y 其中 X 和 Y 本身是平衡的平衡示例现在的问题是找到一种有效的算法来找到给定输入的最大长度平衡子
为什么分割任务使用 Dice Coefficient 而不是 IOU？

我见过人们使用IOU作为衡量标准detection任务和Dice Coeff for segmentation任务这两个指标在方程方面看起来非常相似只是骰子给予相交部分的权重是两倍如果我是对的那么 Dice 2 x A B A B
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
为什么我们需要检测链表中的循环

我看到很多关于如何检测链表中的循环的问答但我想了解的是我们为什么要这样做换句话说检测链表中的循环的实际用例是什么在现实生活中您可能永远不需要检测链表中的循环但是执行此操作的算法很重要我在现实生活中多次使用它们例如我经常会递
O(n^2) 与 O (n(logn)^2)

时间复杂度是O n 2 or O n logn 2 better 我知道当我们简化它时它就变成了 O n vs O logn 2 and logn lt n 但是关于logn 2 n is only less than log n 2 f
最低共同祖先算法

所以我一直在研究实现最低共同祖先算法我研究了许多不同的算法主要是 Trajan 解决方案的变体或 RMQ 的变体我正在使用非二叉树我的树经常会在查询之间发生变化因此预处理不一定值得树的节点数不应超过 50 75 个我想知道的是
如何确定字符串的最小公约数？

我在面试时被问到以下问题并被它难住了我遇到的部分问题是要下定决心要解决什么问题起初我并不认为这个问题在内部是一致的但后来我意识到它要求你解决两个不同的问题第一个任务是弄清楚一个字符串是否包含另一个字符串的倍数但第二个任务是在两个
如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件并且我正在尝试使用 jTessBoxEditor 创建它但它不接受图像作为输入我也尝试过 boxFactory 但它无法正常运行有谁知道
查找两个大小为 n 的数组中第 n 大数的算法

我有这个问题给定两个大小为 n 的排序列表存储在数组中找到 O log n 计算并集中第 n 大元素的算法两个列表我可以看到这里可能有一个技巧因为它需要第 n 个最大的元素并且数组的大小也是 n 但我不知道它是什么我在想我可
打印从 1 到 100 的质数

此 C 代码打印出以下素数 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97 但我不认为这就是我的书所希望的写作方式它提到了一些关于数字的平方根的内容
埃拉托斯特尼筛法是生成 1 到 N 素数的最佳算法吗？

我在一次采访中被问到这个问题我使用埃拉托色尼筛子概念和数组实现了一种算法有没有更好的方法来解决这个问题对于不知道筛子的人请点击以下链接 http en wikipedia org wiki Sieve of Eratosthenes
递归：n项级数之和

需要递归函数系列是 1 2 3 3 4 5 4 5 6 7 递归求 n 的级数之和我无法想到应该在函数中传递哪些参数我的方法我认为我应该传递 n 要相乘的项数但我无法想到的是我应该如何在同一个函数中和以及我的 return 语
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met

随机推荐

服务器崩溃后 MongoDB 将无法启动

我的 Ubuntu 计算机崩溃了当我重新启动它时 MongoDB 无法工作我尝试了以下命令并得到以下输出 mongo Error couldn t connect to server 127 0 0 1 27017 src mongo
识别联合多边形的原始边

我有很多多边形在将所有这些多边形合并后我得到一个新的大多边形联合算法是一个黑匣子使用第三方库过程我无法控制我也不希望从进度中提取任何信息有没有有效的方法让我知道对于那个巨大的联合多边形的每条边其中哪一条属于较小多边形的哪条
为什么我得到的是 AggregationCursor 结果而不是平均值？

我正在查询 MongoDB 数据库但不明白为什么当我期望返回单个数字时却得到聚合器游标也许我需要从光标对象中获取一些东西只是想不明白是什么 module exports CalculateAvg async collection gt
Ruby require 'tk' 产生 LoadError: no such file to load -- tk

我无法让红宝石需要 tk 成功地我正在使用 rvm ruby 2 0 0 ActiveTcl 8 6 和 Ubuntu 12 04 LTS 我跑了wish与 ActiveTcl 一起提供它似乎可以工作我查看了 RVM 网站http r
Xcache var_size 错误

我正在尝试将 xcache 与 zend 框架结合使用来缓存 Zend Db Table Abstract 中的元数据以便每个表仅调用一次描述查询在我的引导程序中实现 xcache 并运行该应用程序时出现以下错误 Warning xc
没有发送过期标头，缓存内容，浏览器发出条件 GET 请求需要多长时间？

假设浏览器默认设置并且发送的内容没有过期标头用户访问网站浏览器缓存图像等用户没有关闭浏览器或刷新页面用户继续正常浏览网站假设浏览器不会出于任何原因转储缓存当用户浏览时浏览器会缓存图像等但尚不清楚何时会发出条件 GET 请求
Git：取消交互式变基

我喜欢git rebase i HEAD 5压缩我的承诺有时我认为我需要返回 5 次提交但后来意识到我需要 7 次然而 git 已经调出了 rebase 编辑器 git rebase merge git rebase todo在维姆中
Play框架中的异常处理

我正在使用 play 框架 2 3 x 来构建一个宁静的 API 今天我在 API 控制器中的所有 api 函数周围有一个 try catch 块以便能够捕获异常并返回通用的错误 json 对象 Example def someApi
通过perl脚本在linux中按密码提示登录

我想通过 Perl 脚本传递密码我基本上是在编写一个脚本来在 Linux 终端上执行命令在执行特定命令时我收到提示 Password I need to enter password here through my script 但是
确定最后单击的项目

我需要检索导致焦点移出模糊事件的 DOM 元素在模糊事件中以下代码将为我提供失去焦点的元素的 ID 而不是导致该元素失去焦点的元素这是我需要的第二个元素 live blur function e var id this attr i
在Python中使用循环来命名变量[重复]

这个问题在这里已经有答案了如何使用循环来命名变量例如如果我想要一个变量double 1 2 double 2 4一直到double 12 24 我该怎么写呢我感觉它会是这样的 for x in range 1 13 double x
jQuery 搜索过滤器 - 在输入框中搜索

我正在使用 jQuery 搜索过滤器它运行良好不过我还需要在输入框中进行搜索和过滤输入框都是文本类型我需要像其他表列中的文本一样使用该值我创造了一个小提琴 http jsfiddle net ktcle Jf6q5 http j
JPA @ManyToOne 在删除最后一个子项时自动删除父项

我有一个由 ManyToOne 从子级到父级的单向映射如下所示 ManyToOne JoinColumn name PARENT ID private ParentEntity parent 当最后一个子实体被删除而没有从 ParentE
存储过程未在另一个存储过程中执行

我发现执行 SP1 时 SP2 不会从 SP1 内执行 SP1的结构如下 ALTER PROCEDURE SP1 AS BEGIN Declare c1 cursor open c1 fetch next from c1 while fet
将多个参数传递给线程函数

我有一个名为 workForThread 的函数它接受两个参数并返回 void 我想使用类似的方法来线程化这个函数 thread workForThread a b Where a and b属于适当的类型上面的代码无法编译给出调
Visual Studio 2010 数据比较自动化

我注意到在高级版数据菜单中带有数据比较选项它可以满足我需要的一切只是想知道是否有一种方法可以自动执行我的应用程序中 GUI 中的操作理想情况下我想获得不同左右行的集合在这篇博客中我将引导您了解 Data NewDataCom
使用独特的 bean 进行 spring 自动装配：Spring 期望单个匹配的 bean，但发现了 2 个

我正在尝试使用 Spring 自动装配一些 bean 用于依赖注入作为 web 应用程序一个控制器 bean 包含另一个 bean 而另一个 bean 又保存另一组 bean 的哈希图目前该地图只有一个条目当我在 tomcat 中运
Apache Solr 中的多对一映射

我正在使用 Solr 来索引我的报告数据库报告可以包含文本提交者信息等当前的工作原理如下 docs Text Some Report Text ReportId 1 Date 2013 08 09T14 59 28 147Z Subm
当用户未登录时，Servlet 过滤器在无限重定向循环中运行

我有两个 HTML 文件登录 html 测试 html 我的要求是用户不应该能够访问 test html 除非他通过 login html 成功登录这是我的login html 文件
快速 (< n^2) 聚类算法

我有 100 万个 5 维点需要将它们分组为 k 个簇其中 k 但我需要运行时间远低于 n 2 n log n 左右应该没问题我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵这需要 n 2 时间或多个小时而是我只想计算聚

快速 (< n^2) 聚类算法

快速 (< n^2) 聚类算法 的相关文章

随机推荐

热门标签

快速 (< n^2) 聚类算法的相关文章