KMeans 聚类超过 500 万个向量

2023-11-21

我遇到了一个真正的问题。我需要对 500 万个向量进行一些 Kmeans 聚类，每个向量包含大约 32 列。我尝试了 Mahout，它需要 Linux，而我在 Windows 上，我无法使用 Linux 操作系统和任何类型的模拟器。

谁能建议一种可扩展至 5M 向量并且可以快速收敛的 KMeans 聚类算法？

我已经测试了一些，但它们无法扩展。这意味着它们很慢并且需要很长时间才能完成。

Thanks

好的，如果想要对大规模数据集进行聚类，唯一的方法就是使用 Mahout。 IT需要Linux平台。所以我不得不使用virtual box，在上面放置Ubuntu，然后使用Mahout。设置 Mahout 的过程很长，但我使用的两个链接如下。

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_（单节点_集群）

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_（多节点_集群）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

clusteranalysis

KMeans 聚类超过 500 万个向量的相关文章

使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
如何有效地找到距给定点最远的点（从一组点中）？

我正在寻找一种算法或数据结构来解决以下问题给你一组点 S 然后你会得到另一个点形式的 Q 查询对于每个查询找到集合中距离给定点最远的点集合中最多有 10 5 个点和 10 5 个查询所有点的坐标都在 0 到 10 5 范围内我想
数学组合的完美最小哈希

首先定义两个整数N and K where N gt K 两者都在编译时已知例如 N 8 and K 3 接下来定义一组整数 0 N or 1 N 如果这使答案更简单并调用它S 例如 0 1 2 3 4 5 6 7 的子集数量S wi
如何从迭代器推导连续内存

不知何故本土stl copy VC Dinkumware 上的算法表明它可以使用memcpy 可以轻松复制的数据一个凡人能做到这一点吗假设每个元素都是普通可复制的 random access iterator 是否意味着连续内存标准
归并排序中递归树的高度log(n)+1是怎么来的

我按照 stackoveflow 的建议阅读了一些问题和答案我正在遵循 cormen 的算法简介一书进行自学那本书里已经解释得很清楚了但唯一没有解释的是如何在合并排序分析中计算树的高度如果在后面的章节中对此进行解释的话我仍然在
Florian 的 Grisu2 算法如何工作？

我遇到了一个关于将 double 转换为 ascii 的问题经过搜索我得到了 Florian 的论文使用整数快速准确地打印浮点数 http www cs tufts edu nr cs257 archive florian loits
两组点之间的最佳匹配

I ve got two lists of points let s call them L1 P1 x1 y1 Pn xn yn and L2 P 1 x 1 y 1 P n x n y n 我的任务是找到它们点之间的最佳匹配以最小化它
二维滑动窗口最小值/最大值

假设我们得到一个大小为 NxN 的像素整数矩阵和一个整数 k 窗口大小我们需要使用滑动窗口找到矩阵中的所有局部最大值或最小值这意味着如果某个像素与其周围窗口中的所有像素相比具有最小最大值则应将其标记为最小最大有一种著名的滑
归并排序中的递归：两次递归调用

private void mergesort int low int high line 1 if low lt high line 2 int middle low high 2 line 3 mergesort low middle l
生产代码中的 LRU 实现

我有一些 C 代码需要使用 LRU 技术实现缓存替换目前我知道两种实现LRU缓存替换的方法每次访问缓存数据时使用时间戳最后比较替换时的时间戳使用缓存项的堆栈如果最近访问过它们则将它们移动到顶部因此最后底部将包含 LRU 候选
AStar-名称解释

我正在寻找 AStar A 算法为何被称为 AStar 的解释所有类似的最短路径问题算法通常都以其开发者的名字命名那么 AStar 代表什么有称为 A1 和 A2 的算法后来证明A2是最优的实际上也是可能的最好算法所以他给它
如何衡量字符串的复杂度？

我有一些长字符串 1 000 000 个字符每个字符串仅包含定义字母表中的符号例如 A 1 2 3 示例字符串 string S1 1111111111 meta complexity 0 string S2 1111222333 me
如何高效生成总和在指定范围内的所有组合（在所有深度）

假设您有一组值 1 1 1 12 12 16 如何生成总和在预定义范围内的所有可能组合不重复 min max 例如这里是所有深度的范围在13 and 17 1 12 1 1 12 1 1 1 12 16 1 16 这假设具有相同值的
用于计算有向图上非循环路径数量的快速算法

简而言之我需要一个fast计算简单有向图中有多少条非循环路径的算法 By simple我的意思是没有自环或多重边的图 Apath可以从任何节点开始并且必须在没有传出边的节点上结束一条路径是acyclic如果没有边出现两次我的图经验
比 BMH (Boyer–Moore–Horspool) 更快的算法

您会使用哪种算法来搜索短文本中的短子字符串简而言之我的意思是子字符串有 5 10 个字符字符串有 255 个字符我正在考虑根据输入数据长度选择算法哪种算法对于较长的输入更好 Try Turbo BM http www igm un
融合元组以查找等价类

假设我们有一个包含 k 个元素的有限域 D d1 dk 我们认为 S 是 D n 的子集即一组形式的元组其中 ai 在 D 中我们希望使用 S 2 D n 的子集即一组形式的元组其中 Ai 是 D 的子集来紧凑地表示它
如何提高洪水填充例程的性能？

我正在我的应用程序中实现四路洪水填充伪代码如下 Flood fill node target color replacement color 1 If the color of node is not equal to target co
依次构建完整的 B 树

如果我有一组排序的数据我想以最适合顺序读取和随机查找的方式将其存储在磁盘上那么 B 树或其中一个变体似乎是一个不错的选择假设该数据集并不全部适合 RAM 问题是可以从一组排序的数据构建完整的 B 树而不进行任何页面拆分吗这样排序
将数字的各个数字部分相加/求和的最快方法

不久前我在数学论坛上看到一个问题其中一个人正在讨论一遍又一遍地将数字中的数字相加直到达到个位数即 362 将变成 3 6 2 这将变成 11 然后 11 将变成 1 1 将变成 2 因此 362 将返回2 我写了一些很好的代码来得到
寻找簇的中心

我有以下问题进行抽象以找出关键问题我有 10 个点每个点与其他点有一定距离我想要能够找到簇的中心即与其他点的成对距离最小的点令 p j p k 表示点 j 和 k 之间的成对距离p i 是簇的中心点 iff p i s t m

随机推荐

使用 AFNetworking 2.0 上传图像

我不明白为什么这这么难网上所有的教程和文章似乎都在谈论 1 0 api 这是相当无用的我尝试了几种不同的方法并得到了不同的结果我究竟做错了什么上传任务这似乎没有使用多部分表单 wtf NSMutableURLRequest req
在 Swift/iOS 中的应用程序之间共享文件数据[重复]

这个问题在这里已经有答案了我一直在研究如何在应用程序之间安全地共享数据在我深入研究使用错误方法的实现之前我想获得一些有关处理此问题的正确方法的信息仅仅因为你可以做某事并不一定意味着你应该做某事用户案例我正在开发一套语言学习应用程
PHP error_reporting(0) 是否影响错误日志记录，或仅影响显示？

Does error reporting 0 对错误记录到文件有任何影响还是只是抑制屏幕上的错误显示 Thanks 是的它对两者都有影响 error reporting 级别定义了错误的级别触发的是否记录或显示这些错误由其他设置决
HTML5 视频 // 完全隐藏控件

如何才能完全隐藏 HTML5 视频控件
使用 vlookup 或索引/匹配函数对多行中的值求和

我想使用公式对 B C 和 D 列中的值求和我尝试结合SUMIF VLOOKUP and INDEX with MATCH但没有运气我想查找 France 然后添加 B C 和 D 中的值我努力了 SUM VLOOKUP A9 A1
如何解决/破解 IE8 中半透明 PNG 褪色问题？

如您所知 IE6 有一个 bug 如果不使用滤镜等非标准样式就无法显示半透明 PNG 文件在 IE7 中此问题已得到修复但它仍然存在一些关于 PNG 文件的错误它无法正确显示褪色的半透明 PNG 文件当您在 jQuery 中使用
OpenCV：如何找到轮廓/多边形内的颜色？

这是我所拥有的 im cv2 imread luffy jpg gray cv2 cvtColor im cv2 COLOR BGR2GRAY ret thresh cv2 threshold gray 127 255 0 contours
编写一个柯里化的 JavaScript 函数，该函数可以被调用任意次数，并在最后一次函数调用时返回一个值

我目前正在用我的个人时间解决一个编程问题要求我制作一个可以以这种方式调用的 JavaScript 函数 add 1 1 add 1 2 3 add 1 2 3 6 add 1 2 3 4 10 add 1 2 3 4 5 15 我无法弄清
OpenGL ES - 如何绘制填充多边形？

我尝试在堆栈上进行谷歌搜索和搜索但没有找到任何东西在 OpenGL ES 中将不规则形状或其他多边形卡通精灵映射到三角形我想绘制一个填充多边形OpenGL ES在 iPad 上 2D 不需要 3D 我是 OpenGL OpenG
将 HTML 文本同步并突出显示为音频

如果有必要我可以更详细地解释但本质上我需要做的是与音轨同步对 HTML 文本进行 CSS 更改即与音频播放同步突出显示单词短语我还需要通过单击文本来控制音频播放我有很好的 HTML CSS 能力但我对原始 js 不太擅长所以
SonataAdminBundle - 检查“preUpdate”挂钩中的更改

是否可以检查字段是否已更改preUpdate钩我正在寻找类似的东西preUpdate hasChangedField fieldName 教义功能有任何想法吗这个问题有点类似于this one 您的解决方案只是将旧对象的字段与新对象的
Bootstrap & LESS：导入 mixins 仅作为参考

我正在使用 Bootstrap 3 0 和 LESS 1 5 我将为许多网站使用相同的 bootstrap css 或使用他们的 CDN 所以我正在使用 import reference bootstrap 3 0 0 less boots
PHP 忽略我的 max_execution_time

我的脚本中有一些关于使用 ffmpeg 转换视频的任务我使用 codeigniter 2 0 3 执行此操作并在库中找到脚本并使用 shell exec 运行 ffmpeg 我的 php 脚本中有 3 个任务上传文件将视频转换为 f
在 ASP.NET Core Web API 中上传文件和 JSON

如何使用分段上传将文件图像和 json 数据列表上传到 ASP NET Core Web API 控制器我可以成功收到上传的文件列表multipart form data像这样的内容类型 public async Task
jQuery 如果 div 包含此文本，则替换该文本部分

就像标题所说我想替换div中文本的特定部分结构如下 div class text div This div contains some text div 例如我只想将包含替换为大家好我无法找到解决方案您可以使用text方法并
滚动视图中的列表视图我的滚动视图移动到列表视图的顶部。我该如何防止这种情况？

在此之前我的滚动视图中有一个列表视图位于几乎一页滚动的下方但是一旦我的列表视图被填充滚动视图就会移动到列表视图的顶部我该如何解决这个问题防止这种情况发生滚动查看 XML
为什么在 Zapier 中使用此代码时会收到 Runtime.MarshalError？

以下代码给了我 Runtime MarshalError 无法封送响应 Yes 不是 JSON 可序列化 from calendar import monthrange def time remaining less than fourte
如何将新列添加到现有的德鲁伊架构中？

我创建了一个架构并将 1TB 数据添加到德鲁伊架构中然后日志文件版本升级并添加新的两列然后我想将该数据添加到德鲁伊架构中但还不能为了向现有数据源添加新列您需要执行以下步骤前往Tasks德鲁伊控制台中的菜单从列出的数据源中转
将 ISO 日期转换为 yyyy-mm-dd 格式

给定集合 name users 结构 id ObjectId 57653dcc533304a40ac504fc username XYZ followers count 31 ts ISODate 2016 06 17T18 30 00 9
KMeans 聚类超过 500 万个向量

我遇到了一个真正的问题我需要对 500 万个向量进行一些 Kmeans 聚类每个向量包含大约 32 列我尝试了 Mahout 它需要 Linux 而我在 Windows 上我无法使用 Linux 操作系统和任何类型的模拟器谁能建议

KMeans 聚类超过 500 万个向量

KMeans 聚类超过 500 万个向量 的相关文章

随机推荐

热门标签

KMeans 聚类超过 500 万个向量的相关文章