计算大数据的相异矩阵

2023-11-30

我正在尝试基于具有数值和分类特征的大数据框架计算相异矩阵。当我运行daisy函数从集群包我收到错误消息：

错误：无法分配大小为 X 的向量。

就我而言，X 约为 800 GB。知道我该如何处理这个问题吗？此外，如果有人可以帮助我在并行核心中运行该函数，那就太好了。您可以在下面找到计算 iris 数据集上相异矩阵的函数：

require(cluster)
d <- daisy(iris)

我以前也遇到过类似的问题。跑步daisy()即使是 5k 行的数据集也需要很长时间。

我最终使用了kmeans算法中的h2o并行化和 1-hot 编码分类数据的包。我只是确保在将数据插入之前将其居中并缩放（平均 0 w/ stdev = 1）h2o.kmeans。这样聚类算法就不会优先考虑具有高标称差异的列（因为它试图最小化距离计算）。我用的是scale()功能。

安装 h2o 后：

h2o.init(nthreads = 16, min_mem_size = '150G')
h2o.df <- as.h2o(df)
h2o_kmeans <- h2o.kmeans(training_frame = h2o.df, x = vars, k = 5, estimate_k = FALSE, seed = 1234)
summary(h2o_kmeans)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

clustercomputing

rdaisy

计算大数据的相异矩阵的相关文章

R data.table fwrite 到 fread 空间分隔符并清空

我在使用 fread 以作为分隔符和散布的空白值时遇到问题例如这个 dt lt data table 1 5 1 5 1 5 make a simple table dt 3 V2 NA add a blank in the midd
如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
更改 pander 中的默认对齐方式 (pandoc.table)

我目前正在切换到pander对于我的大部分时间knitr markdown格式化因为它提供了如此出色的pandoc支持我不太满意的一件事是默认的居中对齐营销人员可能会喜欢它但对于技术报告来说这是一个可怕的事情使用的最佳选择Hmis
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple
如何使用 xpath 检查某个对象在网页中是否可见？

我正在 R 中使用 RSelenium 包来进行网络抓取有时加载网页后需要检查某个对象在网页中是否可见例如 library RSelenium open a browser RSelenium startServer remDr lt
dplyr 返回每个组的全局平均值，而不是每个组的平均值

有人可以解释一下我在这里做错了什么 library dplyr temp lt data frame a c 1 2 3 1 2 3 1 2 3 b c 1 2 3 1 2 3 1 2 3 temp gt group by temp 1 g
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
如何在 Caret 中绘制随机森林（护林员）树

我生成了如下所示的随机森林树并尝试绘制它但出现错误我在哪里犯了错误我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
警告消息 - 来自 dummies 包的 dummy

我正在使用 dummies 包为分类变量生成虚拟变量其中一些变量具有两个以上类别 testdf lt data frame A as factor c 1 2 2 3 3 1 B c A B A B C C C c D D E D D E
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

Swing 外行分页

在我开始之前我的类似的问题存在我希望删除那个问题因为我在那里没有很好地解释我的观点但不是这个谢谢首先我没有代码这只是一个我无法弄清楚的概念但这很有趣至少对我来说大家都知道 MSWord 是如何工作的你写东西然后
CSS 媒体查询和 JQuery 移动版哪个更好？

我是开发移动网站的新手我对两种方法感到非常困惑因为我没有任何经验两种方法之间哪个更好当我们在css文件中使用所有宽度设备时的css查询 or 使用 jquery mobile 使用 php 技术为使用桌面或移动设备的不同用户提供服务
Google App Engine 找不到 gdata 模块

我可以在本地主机上运行一个简单的 Hello World Google App Engine 应用程序没有任何问题但是当我将 import gdata auth 行添加到我的 Python 脚本中时我收到 ImportError 没
HTTP 客户端是否允许发送多个同名标头？

我知道 HTTP 服务器可以发送带有重复键的标头至少Set Cookie我想到了但是客户这样做有合理的理由吗 RFC 7230 在某些情况下允许重复标头从第3 2 2节发送方不得生成具有相同字段的多个标头字段消息中的名称除非该名
Firebase user.updateProfile({...}) 在 React 应用程序中不起作用

所以我有这个 ReactJS 应用程序有一个用户数据库创建用户的函数是这样的 import ref firebaseAuth from Components config export function auth email pw r
Rust 特征的简单组织以实现“多态”返回

我有一个名为的基本结构Frame这对于一系列计算很有用 pub struct Frame
C++ try-except语句

我看到这篇关于检测 VMWare 或 Virtual PC 的文章 http www codeproject com KB system VmDetect aspx我看到他们使用某种 try except 语句于是我在MSDN上查了一下
实体框架中的动态表名称

我正在使用实体框架和数据库优先的方法我想根据条件动态更改表名称或视图名称在这里我正在使用V OVT VLD 340B DNA CLD or V OVT B table or V OVT c table获取记录根据来源我需要调用不同
VBA - 将条件评估为字符串

我遇到过一个非常奇怪的场景在函数中我将收到一串要评估的条件 E g a gt b and b 2 or c 3 其中 a b 和 c 是我的变量名我尝试并搜索了很多但没有得到任何有意义的东西所以我的问题是是否可以评估这样的字符串
每天下午 5 点重复 UILocalNotification

如何每天下午 5 点重复 UILocalNotification 以下是我设置自定义时间的代码但我想每天在自定义时间或可能是静态时间通知用户我使用的是 iOS 6 void scheduleNotification NSDateForm
xpath 表达式“html/body/div/text()[1]”的结果是：[object Text]。使用 Selenium 打印元素文本应该是元素错误

我正在尝试从此示例 HTML 中提取 479 div 479 Miles Away div 我在 Python 中使用以下 Selenium 代码 xpath html body div text 1 WebDriverWait drive
将 dict 的元组键转换为新的 dict

我有一个dict像这样 America 25 m IT 10000 America 22 m IT 8999 Japan 24 f IT 9999 Japan 23 f IT 9000 现在我想用密钥获取所有结果 America m IT
以管理员身份从 Java 运行 Windows 命令行 - 创建 .manifest 文件

我正在运行 Windows 7 Pro 并在 Eclipse 中开发 Java 应用程序我需要 Eclipse 将用户指定的命令例如 chkdsk C 发送到命令提示符然后将命令提示符打印的任何内容输出到 Eclipse 中的控制台
Log4j 配置（基于大小）不起作用

我有我的申请以下条目是在Log4j属性文件基于大小的滚动不适用于此应用程序文件在 5 MB 时不会滚动应用程序会继续记录并以 GB 为单位进行记录一次运行会生成大约 6 MB 的日志应用程序每天运行多次有人可以帮助指出我在哪里
ember 数据序列化器数据映射

我正在使用 ember 和 ember data 尝试使用来自服务器的 json feed 这是我的代码 App Ember Application create DS RESTAdapter configure plurals categ
从 pdf 中获取页面并使用 itext 将其保存为图像文件

有一个pdf文件我想将第二页作为图像导入并将其保存为jpeg文件是否可能以及如何做到这是我导入页面的代码 Document document new Document File file File createTempFile Pdf
C中Char到int的转换

如果我想转换单个数字char为其数值例如如果 char c 5 而且我要c持有5代替 5 这样做是100 便携吗 c c 0 我听说所有字符集都按连续顺序存储数字所以我假设是这样但我想知道是否有一个有组织的库函数来执行此转换以及按
可空外键不好的做法？

假设您有一个 Orders 表其中包含一个指向 Customer Id 的外键现在假设您想添加一个没有客户 ID 的订单这是否可能是另一个问题您必须将外键设置为 NULL 这是不好的做法还是您宁愿使用之间的链接表订单和客户虽然关
如何对 DRF 中序列化器自定义字段的值进行排序

我在客户端序列化程序中创建了一个自定义字段该字段的值是通过复杂的序列化器方法计算的 class ClientsStatsSerializer serializers ModelSerializer Serializer shows tot
计算大数据的相异矩阵

我正在尝试基于具有数值和分类特征的大数据框架计算相异矩阵当我运行daisy函数从集群包我收到错误消息错误无法分配大小为 X 的向量就我而言 X 约为 800 GB 知道我该如何处理这个问题吗此外如果有人可以帮助我在并行核心中运行

计算大数据的相异矩阵

计算大数据的相异矩阵 的相关文章

随机推荐

热门标签

计算大数据的相异矩阵的相关文章