计算大数据的相异矩阵

2023-11-30

我正在尝试基于具有数值和分类特征的大数据框架计算相异矩阵。当我运行daisy函数从集群包我收到错误消息:

错误:无法分配大小为 X 的向量。

就我而言,X 约为 800 GB。知道我该如何处理这个问题吗?此外,如果有人可以帮助我在并行核心中运行该函数,那就太好了。您可以在下面找到计算 iris 数据集上相异矩阵的函数:

require(cluster)
d <- daisy(iris)

我以前也遇到过类似的问题。跑步daisy()即使是 5k 行的数据集也需要很长时间。

我最终使用了kmeans算法中的h2o并行化和 1-hot 编码分类数据的包。我只是确保在将数据插入之前将其居中并缩放(平均 0 w/ stdev = 1)h2o.kmeans。这样聚类算法就不会优先考虑具有高标称差异的列(因为它试图最小化距离计算)。我用的是scale()功能。

安装 h2o 后:

h2o.init(nthreads = 16, min_mem_size = '150G')
h2o.df <- as.h2o(df)
h2o_kmeans <- h2o.kmeans(training_frame = h2o.df, x = vars, k = 5, estimate_k = FALSE, seed = 1234)
summary(h2o_kmeans)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

计算大数据的相异矩阵 的相关文章

随机推荐

  • Swing 外行分页

    在我开始之前 我的 类似的问题存在 我希望删除那个问题 因为我在那里没有很好地解释我的观点 但不是这个 谢谢 首先 我没有代码 这只是一个我无法弄清楚的概念 但这很有趣 至少对我来说 大家都知道 MSWord 是如何工作的 你写东西 然后
  • CSS 媒体查询和 JQuery 移动版哪个更好?

    我是开发移动网站的新手 我对两种方法感到非常困惑 因为我没有任何经验 两种方法之间哪个更好 当我们在css文件中使用所有宽度设备时的css查询 or 使用 jquery mobile 使用 php 技术为使用桌面或移动设备的不同用户提供服务
  • Google App Engine 找不到 gdata 模块

    我可以在本地主机上运行一个简单的 Hello World Google App Engine 应用程序 没有任何问题 但是 当我将 import gdata auth 行添加到我的 Python 脚本中时 我收到 ImportError 没
  • HTTP 客户端是否允许发送多个同名标头?

    我知道 HTTP 服务器可以发送带有重复键的标头 至少Set Cookie我想到了 但是客户这样做有合理的理由吗 RFC 7230 在某些情况下允许重复标头 从第3 2 2节 发送方不得生成具有相同字段的多个标头字段 消息中的名称 除非该名
  • Firebase user.updateProfile({...}) 在 React 应用程序中不起作用

    所以 我有这个 ReactJS 应用程序 有一个用户数据库 创建用户的函数是这样的 import ref firebaseAuth from Components config export function auth email pw r
  • Rust 特征的简单组织以实现“多态”返回

    我有一个名为的基本结构Frame这对于一系列计算很有用 pub struct Frame
  • C++ try-except语句

    我看到这篇关于检测 VMWare 或 Virtual PC 的文章 http www codeproject com KB system VmDetect aspx我看到他们使用某种 try except 语句 于是我在MSDN上查了一下
  • 实体框架中的动态表名称

    我正在使用实体框架和数据库优先的方法 我想根据条件动态更改表名称或视图名称 在这里 我正在使用V OVT VLD 340B DNA CLD or V OVT B table or V OVT c table获取记录 根据来源 我需要调用不同
  • VBA - 将条件评估为字符串

    我遇到过一个非常奇怪的场景 在函数中 我将收到一串要评估的条件 E g a gt b and b 2 or c 3 其中 a b 和 c 是我的变量名 我尝试并搜索了很多 但没有得到任何有意义的东西 所以我的问题是 是否可以评估这样的字符串
  • 每天下午 5 点重复 UILocalNotification

    如何每天下午 5 点重复 UILocalNotification 以下是我设置自定义时间的代码 但我想每天在自定义时间或可能是静态时间通知用户 我使用的是 iOS 6 void scheduleNotification NSDateForm
  • xpath 表达式“html/body/div/text()[1]”的结果是:[object Text]。使用 Selenium 打印元素文本应该是元素错误

    我正在尝试从此示例 HTML 中提取 479 div 479 Miles Away div 我在 Python 中使用以下 Selenium 代码 xpath html body div text 1 WebDriverWait drive
  • 将 dict 的元组键转换为新的 dict

    我有一个dict像这样 America 25 m IT 10000 America 22 m IT 8999 Japan 24 f IT 9999 Japan 23 f IT 9000 现在 我想用密钥获取所有结果 America m IT
  • 以管理员身份从 Java 运行 Windows 命令行 - 创建 .manifest 文件

    我正在运行 Windows 7 Pro 并在 Eclipse 中开发 Java 应用程序 我需要 Eclipse 将用户指定的命令 例如 chkdsk C 发送到命令提示符 然后将命令提示符打印的任何内容输出到 Eclipse 中的控制台
  • Log4j 配置(基于大小)不起作用

    我有我的申请 以下条目是在Log4j属性文件 基于大小的滚动不适用于此应用程序 文件在 5 MB 时不会滚动 应用程序会继续记录并以 GB 为单位进行记录 一次运行会生成大约 6 MB 的日志 应用程序每天运行多次 有人可以帮助指出我在哪里
  • ember 数据序列化器数据映射

    我正在使用 ember 和 ember data 尝试使用来自服务器的 json feed 这是我的代码 App Ember Application create DS RESTAdapter configure plurals categ
  • 从 pdf 中获取页面并使用 itext 将其保存为图像文件

    有一个pdf文件 我想将第二页作为图像导入并将其保存为jpeg文件 是否可能以及如何做到 这是我导入页面的代码 Document document new Document File file File createTempFile Pdf
  • C中Char到int的转换

    如果我想转换单个数字char为其数值 例如 如果 char c 5 而且我要c持有5代替 5 这样做是100 便携吗 c c 0 我听说所有字符集都按连续顺序存储数字 所以我假设是这样 但我想知道是否有一个有组织的库函数来执行此转换 以及按
  • 可空外键不好的做法?

    假设您有一个 Orders 表 其中包含一个指向 Customer Id 的外键 现在 假设您想添加一个没有客户 ID 的订单 这是否可能是另一个问题 您必须将外键设置为 NULL 这是不好的做法还是您宁愿使用之间的链接表订单和客户 虽然关
  • 如何对 DRF 中序列化器自定义字段的值进行排序

    我在客户端序列化程序中创建了一个自定义字段 该字段的值是通过复杂的序列化器方法计算的 class ClientsStatsSerializer serializers ModelSerializer Serializer shows tot
  • 计算大数据的相异矩阵

    我正在尝试基于具有数值和分类特征的大数据框架计算相异矩阵 当我运行daisy函数从集群包我收到错误消息 错误 无法分配大小为 X 的向量 就我而言 X 约为 800 GB 知道我该如何处理这个问题吗 此外 如果有人可以帮助我在并行核心中运行