具有非常大矩阵的 K 均值

2023-11-25

我必须在一个非常大的矩阵（大约 300.000x100.000 个值，超过 100Gb）上执行 k 均值聚类。我想知道我是否可以使用 R 软件或 weka 来执行此操作。我的计算机是一台多处理器，具有 8GB 内存和数百 GB 可用空间。

我有足够的空间进行计算，但加载这样的矩阵似乎是 R 的问题（我不认为使用 bigmemory 包对我有帮助，大矩阵会自动使用我的所有 RAM，然后是我的交换文件，如果空间不足）。

所以我的问题是：我应该使用什么软件（最终与其他一些软件包或自定义设置相关）。

谢谢你帮助我。

注：我用的是linux。

一定是K-means吗？另一种可能的方法是首先将数据转换为网络，然后应用图聚类。我是作者MCL，一种在生物信息学中经常使用的算法。链接到的实现应该可以轻松扩展到具有数百万个节点的网络 - 假设您有 100K 个属性，您的示例将有 300K 个节点。通过这种方法，数据将在数据转换步骤中自然地被修剪——而该步骤很可能成为瓶颈。如何计算两个向量之间的距离？在我处理过的应用程序中，我使用了 Pearson 或 Spearman 相关性，并且 MCL 附带了软件，可以在大规模数据上高效地执行此计算（它可以利用多个 CPU 和多台机器）。

数据大小仍然存在问题，因为大多数聚类算法将要求您至少执行所有成对比较至少一次。您的数据真的存储为一个巨大的矩阵吗？输入中有很多零吗？或者，你有办法丢弃较小的元素吗？您是否可以访问多台机器来分发这些计算？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有非常大矩阵的 K 均值的相关文章

Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
根据列A：列B范围内的值查找数据框中的相应行[重复]

这个问题在这里已经有答案了我有一个 data frame 和一个向量例如 df data frame id 1 3 start c 1 1000 16000 end c 100 1100 16100 info c a b c vec c
自动将变量名称添加到列表的元素[重复]

这个问题在这里已经有答案了我有一个模型列表为了使代码更易于维护因此可以方便地添加和删除模型我希望有一个地方来存储它们及其名称为此我必须解决以下命名问题上游我生成模型的方式比以下方式效率低如果是这样压缩的我会assign他
r 连接两个列表并对它们的值求和

我有两个列表 x y gt x carlo monte simulation model quantum 31 31 9 6 6 gt y model system temperature quantum simulation proble
如何转置 R markdown 文档中的表格？

假设我打印一个名为summary table的数据框如下所示 summary table data frame a c 1 2 3 b c 11 12 13 c c 21 22 23 d c 31 32 33 e c 41 42 43 f
如何对工作区中的元素运行循环？

gt ls 1 A anorex 1 anorexia B byMonth C clotting 8 counts d D d AD DelayByDay delayed glm D93 15 glmout groups h housing
R 中使用 randomForest 进行内存高效预测

TL DR我想知道使用基于大型数据集数百个特征数十万行构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
R 中的 Mapdeck 包 - add_grid 似乎未渲染任何内容

Problem The add gridR 中的函数mapdeck包很精彩然而遵循CRAN 文档 https cran r project org web packages mapdeck mapdeck pdf 我似乎无法获得任何数据
计算数据框中每一行的 R 条件运行总和

我想创建一个等于 data Rating 的运行总和的列假设第 3 列和第 4 列中有两个条件成立特别是 data Year 换句话说这应该计算直到上一年为止每个 id 的评分累积总和它应该对数据框中的每一行大约 50 000 行
如何在折线图中显示 Sep-12 格式的数据并抑制网格线和灰色背景？

我正在努力使日期格式正确数据已经是melt 格式数据中有四个变量碰巧共享相同的数据我只是想绘制一个简单的四线折线图每个变量作为一条单独的线并将 Sep 12 显示为最新数据点我正在使用旧的 ggplot 请随意我有两个问题第
Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn
R 编程中的字符串分割

目前下面的脚本将组合的项目代码拆分为特定的项目代码 rule2 lt c MR df 1 lt test grep paste rule2 sep collapse test Name y SpaceName 1 lt function
提取所有列组中共有的元素

我有一个 R 数据集 x 如下 ID Month 1 1 Jan 2 3 Jan 3 4 Jan 4 6 Jan 5 6 Jan 6 9 Jan 7 2 Feb 8 4 Feb 9 6 Feb 10 8 Feb 11 9 Feb 12 10
R：计算自上次出现某个值以来的累积总和和计数

给定简化数据 set seed 13 user id rep 1 2 each 10 order id sample 1 20 replace FALSE cost round runif 20 1 5 75 1 category samp
枚举所有可能的二元组星座

我正在寻找一种方法来枚举 n 个成员的所有可能的两人组星座例如对于 n 4 个成员以下 3 个独特的组星座是可能的请注意组内成员的顺序和组顺序都不重要 1 2 3 4 1 3 2 4 1 4 2 3 例如对于 n 6 个成员可
R Shiny UI 子选项复选框？

我有一个基本的 RShiny 应用程序它有一个反应式复选框它根据复选框中选择的数据 df 列绘制时间序列数据我当前的代码生成一个带有复选框输入的 UI 如下所示 Load R packages library shiny libra
如何使用 R 或 PowerShell 从文本文件中提取数据？

我有一个包含如下数据的文本文件 This is just text Username SOMETHI C Text Account DFAG Finish time 1 JAN 2011 00 31 58 91 Process ID 202
不理解..密度的行为

在下面的数据框中我预计密度的 y 轴值为 0 6 和 0 4 但它们是 1 0 我觉得我使用的方式显然缺少一些非常基本的东西密度但是我的大脑冻结了我将如何使用密度获得所需的行为任何帮助将不胜感激 df lt data fram
使用 sapply 的列表和矩阵

我有一个也许是基本的问题我在网上搜索过我在读取文件时遇到问题尽管如此我还是按照 Konrad的建议设法读取了我的文件我很欣赏这一点 How to get R to read in files from multiple subdi
确定 R 中的组是否重复某个值

我有一个包含许多列和行的数据我想通过创建新的逻辑变量来确定某个组的值是否重复相同所以我的数据如下所示 v0 lt c 1 2 3 4 5 6 7 8 9 v1 lt c a b a c e c b b e v2 lt c R NA R

随机推荐

我可以使用 Google Visualization API 在应用脚本中查询电子表格吗？

我有一个包含大约 3000 行数据大约 30 列的 Google 电子表格数据以标准方式布局包含列标题和每个数据项一行这些数据代表各种学术课程中使用的案例研究和文章并且数据集始终在增长我需要根据指定的参数搜索查询数据例如
Meteor template.find 未定义

我正在尝试使用template find让我的生活更轻松但在 javascript 控制台中我得到 undefined is not a function 这就是我所拥有的它被绊倒了template find Template supe
我们可以在 perl 脚本中获取 shell 脚本吗

我们可以在 perl 脚本中获取 shell 脚本吗例子方案一 cat test1 sh bin ksh DATE bin date 方案2 cat test2 sh bin ksh test1 sh echo DATE 方案3 cat
为什么 printf 对浮点数进行四舍五入？

我正在尝试使用打印一些浮点数printf 例如 int main printf 1f 76 75 return 0 Output 76 8 我对结果有一些疑问首先为什么没有打印出来76 7 其次这个数字是如何四舍五入的 C99 7 1
在 apply 内使用 ifelse

我试图在数据集中创建一个新列根据预先存在的列的输入为每一行提供一个输出在此输出列中我希望 NA if给定行中的任何输入值都是 0 否则如果没有一个输入为 0 我希望该行的输出是输入的唯一值的数量我认为解决方案将使用ifelse嵌
更改 JAX-WS 服务 URL

创建 JAX WS Web 服务时是否可以更改 Web 服务 URL 自动 URL 为在 Glassfish 3 上 http
Xcode Instruments 错误：“分配跟踪库未及时加载”

安装 Xcode5 包时出现问题我正在使用 Mavericks 不确定这是否相关 Cannot profile allocations in simulator Instruments would load and start app i
如何在JavaScript中将文件转换为base64？

UPDTypeScript 版本也可以在答案中找到现在我通过这一行获取 File 对象 file document querySelector files gt input type file files 0 我需要通过 json 以 B
Chrome 扩展中内容脚本的未定义响应

我无法从我的内容脚本获得响应以显示在我的 popup html 中当此代码运行并单击查找按钮时 Hello from response 打印但变量响应被打印为未定义最终目标是将当前选项卡的 DOM 放入我的脚本文件中以便我可以解析它
Go——声明但未使用错误，当我认为我已经对变量这样做了

这段代码有什么问题 package main import fmt fibonacci is a function that returns a function that returns an int func fibonacci fun
我应该如何处理 PostgreSQL 中的“从 y 中排名 x”数据？

我有一个表格我希望能够呈现 Y 中排名 X 的数据特别是我希望能够以相对有效的方式呈现单个行的数据即无需选择表中的每一行排名本身非常简单它是对表中单个列的直接 ORDER BY Postgres 似乎在这方面提出了一些独特的挑战
从 Fragment 访问 Activity

我正在尝试更改片段中的活动标题在本例中它是一个android support v4 app Fragment 为此我将活动保存在片段的属性中onAttach 在片段上调用根据文档 onAttach 应该在之前调用onCreateVi
将星期几存储在数据库中

我必须为学校做一个小项目在数据库表中存储一周中的几天的最佳可能性是什么例如一周中的哪几天进行数据备份我应该使用这样的列 backupDays varchar 50 1 5 gt gt monday friday 2 3 4 gt g
连接由对等方重置：套接字写入错误 - Coldfusion 10 上的 cfcontent

我们最近从 Coldfusion 9 升级到 CF10 我现在在使用 cfcontent 提供文档 pdf doc 等的页面上收到偶发错误我使用 cfcontent 来控制对文件的访问如下所示有些仅供内部使用使用 CF9 均为标准
urllib2 HTTP 错误 429

所以我有一个 sub reddits 列表我使用 urllib 来打开它们当我仔细检查它们时最终 urllib 失败了 urllib2 HTTPError HTTP Error 429 Unknown 经过一些研究我发现 reddi
Altera Quartus 错误 (12007)：顶层设计实体“alt_ex_1”未定义

我看了之前所有的问题似乎没有人有问题和我的一样简单我也在网上搜索过但找不到解决方案我是 VHDL 新手正在尝试编译提供的简单示例由Altera设计如下 library ieee use ieee std logic 1164
在一条规则中为同一属性分配两次值是否有效？

考虑一下 h1 color red color blue 或者一个更复杂的示例取自 SVG 文件笔画是两次 style fill none stroke ffffff stroke width 20 stroke linecap bu
从 Dataframe 中所有列的列名中删除最后两个字符 - Pandas

我使用用户 ID 密钥连接具有相同列列名称的两个数据帧 a b 在连接时我必须给出后缀字符以便创建它以下是我使用的命令 a join b how inner on userId lsuffix 1 如果我不使用此后缀则会出现错误
ASP.NET 中间件不再保留文化

Given asp net 4 与 mvc 5 2 3 和 net 4 6 1 我想根据一些请求相关的事情例如主机更改 CurrentCulture 支持全球化一个设定文化的 Owin 中间件产生行为的简化版本 public ove
具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵大约 300 000x100 000 个值超过 100Gb 上执行 k 均值聚类我想知道我是否可以使用 R 软件或 weka 来执行此操作我的计算机是一台多处理器具有 8GB 内存和数百 GB 可用空间我

具有非常大矩阵的 K 均值

具有非常大矩阵的 K 均值 的相关文章

随机推荐

热门标签

具有非常大矩阵的 K 均值的相关文章