具有非常大矩阵的 K 均值

2023-11-25

我必须在一个非常大的矩阵(大约 300.000x100.000 个值,超过 100Gb)上执行 k 均值聚类。我想知道我是否可以使用 R 软件或 weka 来执行此操作。 我的计算机是一台多处理器,具有 8GB 内存和数百 GB 可用空间。

我有足够的空间进行计算,但加载这样的矩阵似乎是 R 的问题(我不认为使用 bigmemory 包对我有帮助,大矩阵会自动使用我的所有 RAM,然后是我的交换文件,如果空间不足)。

所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关)。

谢谢你帮助我。

注:我用的是linux。


一定是K-means吗?另一种可能的方法是首先将数据转换为网络,然后应用图聚类。我是作者MCL,一种在生物信息学中经常使用的算法。链接到的实现应该可以轻松扩展到具有数百万个节点的网络 - 假设您有 100K 个属性,您的示例将有 300K 个节点。通过这种方法,数据将在数据转换步骤中自然地被修剪——而该步骤很可能成为瓶颈。如何计算两个向量之间的距离?在我处理过的应用程序中,我使用了 Pearson 或 Spearman 相关性,并且 MCL 附带了软件,可以在大规模数据上高效地执行此计算(它可以利用多个 CPU 和多台机器)。

数据大小仍然存在问题,因为大多数聚类算法将要求您至少执行所有成对比较至少一次。您的数据真的存储为一个巨大的矩阵吗?输入中有很多零吗?或者,你有办法丢弃较小的元素吗?您是否可以访问多台机器来分发这些计算?

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

具有非常大矩阵的 K 均值 的相关文章

  • Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

    我有一个使用 Rgplk 的梦幻足球阵容优化器 它使用for循环生成多个最佳阵容 其数量由用户输入 代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
  • 根据列A:列B范围内的值查找数据框中的相应行[重复]

    这个问题在这里已经有答案了 我有一个 data frame 和一个向量 例如 df data frame id 1 3 start c 1 1000 16000 end c 100 1100 16100 info c a b c vec c
  • 自动将变量名称添加到列表的元素[重复]

    这个问题在这里已经有答案了 我有一个模型列表 为了使代码更易于维护 因此可以方便地添加和删除模型 我希望有一个地方来存储它们及其名称 为此 我必须解决以下命名问题 上游 我生成模型的方式比以下方式效率低 如果是这样压缩的 我会assign他
  • r 连接两个列表并对它们的值求和

    我有两个列表 x y gt x carlo monte simulation model quantum 31 31 9 6 6 gt y model system temperature quantum simulation proble
  • 如何转置 R markdown 文档中的表格?

    假设我打印一个名为summary table的数据框 如下所示 summary table data frame a c 1 2 3 b c 11 12 13 c c 21 22 23 d c 31 32 33 e c 41 42 43 f
  • 如何对工作区中的元素运行循环?

    gt ls 1 A anorex 1 anorexia B byMonth C clotting 8 counts d D d AD DelayByDay delayed glm D93 15 glmout groups h housing
  • R 中使用 randomForest 进行内存高效预测

    TL DR我想知道使用基于大型数据集 数百个特征 数十万行 构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集 内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
  • R 中的 Mapdeck 包 - add_grid 似乎未渲染任何内容

    Problem The add gridR 中的函数mapdeck包很精彩 然而 遵循CRAN 文档 https cran r project org web packages mapdeck mapdeck pdf 我似乎无法获得任何数据
  • 计算数据框中每一行的 R 条件运行总和

    我想创建一个等于 data Rating 的运行总和的列 假设第 3 列和第 4 列中有两个条件成立 特别是 data Year 换句话说 这应该计算直到上一年为止每个 id 的评分累积总和 它应该对数据框中的每一行 大约 50 000 行
  • 如何在折线图中显示 Sep-12 格式的数据并抑制网格线和灰色背景?

    我正在努力使日期格式正确 数据已经是melt 格式 数据中有四个变量碰巧共享相同的数据 我只是想绘制一个简单的四线折线图 每个变量作为一条单独的线 并将 Sep 12 显示为最新数据点 我正在使用旧的 ggplot 请随意 我有两个问题 第
  • Scikit Learn - K-Means - 肘部 - 标准

    今天我想学习一些关于 K means 的知识 我已经了解该算法并且知道它是如何工作的 现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法 但我不明白如何将它与 scikit learn 一起使用 在 scikit learn
  • R 编程中的字符串分割

    目前 下面的脚本将组合的项目代码拆分为特定的项目代码 rule2 lt c MR df 1 lt test grep paste rule2 sep collapse test Name y SpaceName 1 lt function
  • 提取所有列组中共有的元素

    我有一个 R 数据集 x 如下 ID Month 1 1 Jan 2 3 Jan 3 4 Jan 4 6 Jan 5 6 Jan 6 9 Jan 7 2 Feb 8 4 Feb 9 6 Feb 10 8 Feb 11 9 Feb 12 10
  • R:计算自上次出现某个值以来的累积总和和计数

    给定简化数据 set seed 13 user id rep 1 2 each 10 order id sample 1 20 replace FALSE cost round runif 20 1 5 75 1 category samp
  • 枚举所有可能的二元组星座

    我正在寻找一种方法来枚举 n 个成员的所有可能的两人组星座 例如 对于 n 4 个成员 以下 3 个独特的组星座是可能的 请注意 组内成员的顺序和组顺序都不重要 1 2 3 4 1 3 2 4 1 4 2 3 例如 对于 n 6 个成员 可
  • R Shiny UI 子选项复选框?

    我有一个基本的 RShiny 应用程序 它有一个反应式复选框 它根据复选框中选择的数据 df 列 绘制时间序列数据 我当前的代码生成一个带有复选框输入的 UI 如下所示 Load R packages library shiny libra
  • 如何使用 R 或 PowerShell 从文本文件中提取数据?

    我有一个包含如下数据的文本文件 This is just text Username SOMETHI C Text Account DFAG Finish time 1 JAN 2011 00 31 58 91 Process ID 202
  • 不理解..密度的行为

    在下面的数据框中 我预计密度的 y 轴值为 0 6 和 0 4 但它们是 1 0 我觉得我使用的方式显然缺少一些非常基本的东西 密度 但是我的大脑冻结了 我将如何使用 密度 获得所需的行为 任何帮助将不胜感激 df lt data fram
  • 使用 sapply 的列表和矩阵

    我有一个也许是基本的问题 我在网上搜索过 我在读取文件时遇到问题 尽管如此 我还是按照 Konrad的建议设法读取了我的文件 我很欣赏这一点 How to get R to read in files from multiple subdi
  • 确定 R 中的组是否重复某个值

    我有一个包含许多列和行的数据 我想通过创建新的逻辑变量来确定某个组的值是否重复 相同 所以我的数据如下所示 v0 lt c 1 2 3 4 5 6 7 8 9 v1 lt c a b a c e c b b e v2 lt c R NA R

随机推荐

  • 我可以使用 Google Visualization API 在应用脚本中查询电子表格吗?

    我有一个包含大约 3000 行数据 大约 30 列 的 Google 电子表格 数据以标准方式布局 包含列标题和每个数据项一行 这些数据代表各种学术课程中使用的案例研究和文章 并且数据集始终在增长 我需要根据指定的参数搜索 查询数据 例如
  • Meteor template.find 未定义

    我正在尝试使用template find让我的生活更轻松 但在 javascript 控制台中我得到 undefined is not a function 这就是我所拥有的 它被绊倒了template find Template supe
  • 我们可以在 perl 脚本中获取 shell 脚本吗

    我们可以在 perl 脚本中获取 shell 脚本吗 例子 方案一 cat test1 sh bin ksh DATE bin date 方案2 cat test2 sh bin ksh test1 sh echo DATE 方案3 cat
  • 为什么 printf 对浮点数进行四舍五入?

    我正在尝试使用打印一些浮点数printf 例如 int main printf 1f 76 75 return 0 Output 76 8 我对结果有一些疑问 首先 为什么没有打印出来76 7 其次 这个数字是如何四舍五入的 C99 7 1
  • 在 apply 内使用 ifelse

    我试图在数据集中创建一个新列 根据预先存在的列的输入 为每一行提供一个输出 在此输出列中 我希望 NA if给定行中的任何输入值都是 0 否则 如果没有一个输入为 0 我希望该行的输出是输入的唯一值的数量 我认为解决方案将使用ifelse嵌
  • 更改 JAX-WS 服务 URL

    创建 JAX WS Web 服务时是否可以更改 Web 服务 URL 自动 URL 为 在 Glassfish 3 上 http
  • Xcode Instruments 错误:“分配跟踪库未及时加载”

    安装 Xcode5 包时出现问题 我正在使用 Mavericks 不确定这是否相关 Cannot profile allocations in simulator Instruments would load and start app i
  • 如何在JavaScript中将文件转换为base64?

    UPDTypeScript 版本也可以在答案中找到 现在我通过这一行获取 File 对象 file document querySelector files gt input type file files 0 我需要通过 json 以 B
  • Chrome 扩展中内容脚本的未定义响应

    我无法从我的内容脚本获得响应以显示在我的 popup html 中 当此代码运行并单击查找按钮时 Hello from response 打印 但变量响应被打印为未定义 最终目标是将当前选项卡的 DOM 放入我的脚本文件中 以便我可以解析它
  • Go——声明但未使用错误,当我认为我已经对变量这样做了

    这段代码有什么问题 package main import fmt fibonacci is a function that returns a function that returns an int func fibonacci fun
  • 我应该如何处理 PostgreSQL 中的“从 y 中排名 x”数据?

    我有一个表格 我希望能够呈现 Y 中排名 X 的数据 特别是 我希望能够以相对有效的方式呈现单个行的数据 即无需选择表中的每一行 排名本身非常简单 它是对表中单个列的直接 ORDER BY Postgres 似乎在这方面提出了一些独特的挑战
  • 从 Fragment 访问 Activity

    我正在尝试更改片段中的活动标题 在本例中 它是一个android support v4 app Fragment 为此 我将活动保存在片段的属性中onAttach 在片段上调用 根据文档 onAttach 应该在之前调用onCreateVi
  • 将星期几存储在数据库中

    我必须为学校做一个小项目 在数据库表中存储一周中的几天的最佳可能性是什么 例如 一周中的哪几天进行数据备份 我应该使用这样的列 backupDays varchar 50 1 5 gt gt monday friday 2 3 4 gt g
  • 连接由对等方重置:套接字写入错误 - Coldfusion 10 上的 cfcontent

    我们最近从 Coldfusion 9 升级到 CF10 我现在在使用 cfcontent 提供文档 pdf doc 等 的页面上收到偶发错误 我使用 cfcontent 来控制对文件的访问 如下所示有些仅供内部使用 使用 CF9 均为标准
  • urllib2 HTTP 错误 429

    所以我有一个 sub reddits 列表 我使用 urllib 来打开它们 当我仔细检查它们时 最终 urllib 失败了 urllib2 HTTPError HTTP Error 429 Unknown 经过一些研究 我发现 reddi
  • Altera Quartus 错误 (12007):顶层设计实体“alt_ex_1”未定义

    我看了之前所有的问题 似乎没有人有问题 和我的一样简单 我也在网上搜索过 但找不到解决方案 我是 VHDL 新手 正在尝试编译提供的简单示例 由Altera设计 如下 library ieee use ieee std logic 1164
  • 在一条规则中为同一属性分配两次值是否有效?

    考虑一下 h1 color red color blue 或者 一个更复杂的示例 取自 SVG 文件 笔画是两次 style fill none stroke ffffff stroke width 20 stroke linecap bu
  • 从 Dataframe 中所有列的列名中删除最后两个字符 - Pandas

    我使用用户 ID 密钥连接具有相同列 列名称的两个数据帧 a b 在连接时 我必须给出后缀字符 以便创建它 以下是我使用的命令 a join b how inner on userId lsuffix 1 如果我不使用此后缀 则会出现错误
  • ASP.NET 中间件不再保留文化

    Given asp net 4 与 mvc 5 2 3 和 net 4 6 1 我想根据一些请求相关的事情 例如主机 更改 CurrentCulture 支持全球化 一个设定文化的 Owin 中间件 产生行为的简化版本 public ove
  • 具有非常大矩阵的 K 均值

    我必须在一个非常大的矩阵 大约 300 000x100 000 个值 超过 100Gb 上执行 k 均值聚类 我想知道我是否可以使用 R 软件或 weka 来执行此操作 我的计算机是一台多处理器 具有 8GB 内存和数百 GB 可用空间 我