展开两个大数据文件并使用data.table应用？

2024-03-06

我正在尝试将函数应用于两个数据集df1 and df2 where df1包含(a, b)并且可以有 100 万行长，并且df2包含(x, y, z)并且可以非常大，从 ~100 到 >10,000。我想应用一个函数foo对两个数据集的每个组合进行求和，然后对第二个数据集求和。

foo <- function(a, b, x, y, z) a + b + x + y + z
df1 <- data.frame(a = 1:10, b = 11:20)
df2 <- data.frame(x= 1:5, y = 21:25, z = 31:35)

我用来应用此函数的代码（取自@jlhoward此处如何避免 R 中多个变量的多重循环 https://stackoverflow.com/questions/27572050/how-to-avoid-multiple-loops-with-multiple-variables-in-r)

foo.new <- function(p1, p2) {
  p1 = as.list(p1); p2 = as.list(p2)
  foo(p1$a, p1$b, p2$x, p2$y, p2$z)
}

indx   <- expand.grid(indx2 = seq(nrow(df2)), indx1 = seq(nrow(df1)))
result <- with(indx, foo.new(df1[indx1, ], df2[indx2, ]))
sums   <- aggregate(result, by = list(rep(seq(nrow(df1)), each = nrow(df2))), sum)

然而，作为df2变大（>1000）我很快就耗尽了内存来执行result上面的功能（运行 32GB RAM 的 64 位 PC）。

我读过关于data.table相当多，但无法评估其中是否有有助于节省内存的功能。可以替代的东西with并在以下位置创建一个较小的文件result步骤，或expand.grid at the index步骤，创建迄今为止最大的文件。

这是一个 data.table 解决方案：应该相当快：

library(data.table)
indx<-CJ(indx1=seq(nrow(df2)),indx2=seq(nrow(df1))) #CJ is data.table function for expand.grid
 indx[,`:=`(result=foo.new(df1[indx1, ], df2[indx2, ]),Group.1=rep(seq(nrow(df1)), each = nrow(df2)))][,.(sums=sum(result)),by=Group.1]

    Group.1 sums
 1:       1  355
 2:       2  365
 3:       3  375
 4:       4  385
 5:       5  395
 6:       6  405
 7:       7  415
 8:       8  425
 9:       9  435
10:      10  445

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

展开两个大数据文件并使用data.table应用？的相关文章

如何在 R 中的 dygraph 标题中使用 UTF-8 字符

使用 Rstudio Windows8 当我使用 dygraph 函数绘制时间序列时在尝试在主标题中使用 UTF 8 字符时遇到问题 library dygraphs dygraph AirPassengers main T tulo 这
jQuery：如果使用 html() 从 DOM 中删除事件处理程序，是否会从对象中删除事件处理程序

我担心应用程序中的内存泄漏因为我经常使用 jquery 的 html 方法来替换 DOM 中的内容我只是想确保这些事件侦听器不会停留在浏览器内存中我搜索了 jquery 文档没有明确的答案有人知道吗多谢你们是的他们是如果你使
计算 R 行中的非零条目数

我有以下类型的数据 mode1 mode2 mode3 1 8 1 0 2 0 0 0 3 6 5 4 4 1 2 3 5 1 1 1 数据使用dput structure list mode1 c 8L 0L 6L 1L 1L mode2
在 Google Colab 上的 R 笔记本中安装 python 库

我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
条件和分组 mutate dplyr

假设我有以下每个抽屉库存增加的数据 gt socks year drawer nbr sock total 1990 1 2 1991 1 2 1990 2 3 1991 2 4 1990 3 2 1991 3 1 我想要一个二进制变量来标
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
ggplot2：带有 geom_line 的 x 轴因子不起作用

我想要一个线图其中value绘制为函数expt每级一行var 这是我的数据 lines lt expt var value 1 none p 0 183065327746799 2 none p 0 254234138384241 3 n
更改ggplot2中的字体

曾几何时我改变了我的ggplot2字体使用windowsFonts Times windowsFont TT Times New Roman 现在我无法摆脱这一切在尝试设置family in ggplot2 theme 当我用不同的字
如何在Django中显示内存中的图片？

我知道如何将图片显示为内存中的页面如下所示 import cStringIO mStream cStringIO StringIO picBin return HttpResponse mStream getvalue image jpg
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet
如何使用 C# 在 xsd 文件中创建数据表

我需要通过在 xsd 文件中编写代码来创建数据表而不是通过在 xsd 文件中使用 exixting 数据表右键单击 xsd 文件添加数据表但我不想使用这个我想编写一些代码来创建数据表我不知道解决这个问题请帮助解决这个问题谢
使用 Firestore 和 Flutter 填充数据表（使用 StreamBuilder）

如何使用 StreamBuilder 填充数据表下面是我的代码 new StreamBuilder stream widget returnStreamWithActiveKeysOnly builder BuildContext con
如何在 foreach( ... , .packages="pkg") %dopar% 中指定 R 包的位置

我的包安装在其他地方我如何告诉 foreach 在哪里可以找到该包 foreach i 1 2 packages pkg dopar 这给我错误消息 worker initialization failed there is no p
ggplot 的每个方面都有不同的 `geom_hline()`

这个问题在这里已经有答案了 library tidyverse ggplot mpg aes cty hwy geom point facet grid year fl geom hline yintercept mean mpg hwy
使用非标准评估公式

我正在创建一个使用的包非标准评价 http adv r had co nz Computing on the language html跟踪列的含义该包在函数之间传递数据框这些函数执行同一组列的各种操作非标准评估对此非常有用 my s
上传到 Shiny 服务器后在 R 中解压文件

我正在尝试在我们的本地服务器上使用 Shiny 来构建一个应用程序允许用户上传包含 ESRI shapefile 和关联文件的 zip 文件 Shiny 服务器的 fileInput 可以获取数据并且当它这样做时它会将其存储在临时目录
如何在 R 中 fork 进程

我试图了解 R 多核包实现的分叉系统包的例子是 p lt fork if inherits p masterProcess cat I m a child Sys getpid n exit I was a child cat I m t
使用行内 r 代码作为 R markdown 标头的一部分

我希望使用行 R 代码作为 r markdown 文件中标头的一部分然而当我编织文件时标题上使用的字体是不同的如何确保字体相同下面是一个简单的例子 r 1 1 Header 您可以将内容括在反引号中以表示内联 r 代码如下所示
ggplot geom_bar - 条形太宽

对于这个非信息性的标题我感到很抱歉 gt y read csv textConnection scan sep n what raw org art type length 191 gk Finish short 4 147 ik Att
导入 .sav 时出现警告/错误

我工作中有两个版本的 SPSS SPSS 11 在 Windows XP 上运行 SPSS 20 在 Linux 上运行 SPSS 的两个副本都工作正常使用任一版本的 SPSS 创建的文件在其他版本的 SPSS 上打开时不会出现任何问题

随机推荐

static_cast(-1) 是在没有 numeric_limits 的情况下生成全一位数据的正确方法吗？

我在无法访问 C 标准库的环境中编写 C 代码特别是无法访问std numeric limits 假设我想实现 template
如何使用 API (curl) 编辑 github 问题？（特别是：关闭）

我计划将另一个本地系统中跟踪的数百个错误迁移到 GitHub 的问题系统中大多数这些错误在过去都已被修复我可以使用 github 的 API 来创建问题例如 curl u GITHUB TOKEN x oauth basic ht
片段添加或替换不起作用

我正在使用这里的代码参考 http developer android com guide components fragments html When I put in that code in my program I get an e
如何从Sqlite获取最后一条记录？

我有一张桌子question table和一个ImageButton Back 单击后我需要从数据库中获取最后插入的记录Back 我的行包含以下列 question optionA optionB optionC optionD 我需要这些
关于java设计模式的建议

我需要一些关于 Java 中以下问题的设计模式的有用建议我有三门课 class A extends X implement Y doA class B extends X implement Y doB class C extends X
如何在 Spark SQL 中压缩两个数组列

我有一个 Pandas 数据框我尝试首先将包含字符串值的两列连接到一个列表中然后使用 zip 我用连接列表的每个元素我的数据集如下 df column 1 abc def ghi df column 2 1 0 2 0 3 0 我想
Spring MVC 中的 WebRequest 和 HttpServletRequest

两者有什么区别两者都有一个getParameter方法以及setAttribute方法那么两者的区别在哪里呢 1 一般情况下使用哪一种更好 2 请说明具体的使用场景 The WebRequest 的 javadoc http docs
pop eip 指令合法吗？

我正在参加大学的理论考试并被问到这个问题经过一些指令后 esp 增长了 4 eip 增长了 20 该指令可能是什么我标记了 pop eip 和 ret nasm 32位汇编中是否可以执行pop eip指令 pop eip不是真正的 x
在 Shopify 中更新/删除购物车属性

我使用购物车属性将每个产品的额外信息添加到购物车从产品页面我专门使用购物车属性 over 行项目属性因为客户需要能够稍后按订单编辑此信息而订单项属性不允许添加信息工作得很好当客户决定从购物车中删除商品时问题就出现了因为尽管该商
毕达哥拉斯三倍效率

我需要创建一个函数它接受整数列表并返回列表中是否存在毕达哥拉斯三元组例如 3 5 7 4 回报True因为 3 4 5 是毕达哥拉斯三元组到目前为止我有这个 Python def containsPythagoreanTriple a
如何 boost::bind 到传递并返回 std::string 的托管类的成员？

我正在尝试做一些非常类似的事情this https stackoverflow com questions 163757 how to use boostbind in c cli to bind a member of a managed
找不到记录器“apscheduler.scheduler”的处理程序

from apscheduler scheduler import Scheduler import os class ListHref def init self print In ListHref Class self name hre
如何计算 pandas 中每个唯一值的出现次数

我有一个大的 pandas 数据框我想计算其中每个唯一值的出现次数我尝试遵循但需要花费大量时间和内存使用量我怎样才能以Pythonic的方式做到这一点 pack for index row in packets iterrows p
动态禁用 jQuery Datepicker 图标

我对 jQuery 相当陌生并且我一直在寻找一个像样的免费日期选择器有一段时间了我对 jQuery UI 的日期选择器非常满意但我遇到了障碍我使用它的项目要求我在文本框旁边有一个图标虽然这相当简单但我不知道如何动态禁用该图标有
在 MATLAB 中单击图像时从指针获取索引值

如何找到点击点的索引并将其添加到数组列表或向量的末尾 h figure image result locx locy while ishandle h pos get 0 PointerLocation locx end 1 pos 1
RuntimeException：在注册表中找不到应用程序“”。

背景目标我尝试在 Windows 7 64 位上安装 Simics Tools for Eclipse 插件我正在使用 Eclipse Indigo for Java 64 位为了解决这个问题我决定在当前设置旁边安装 32 位版本
将 LWJGL java 应用程序放入 jpanel 或 canvas 中

随着 lwjgl 3 的新更新类 Display 不存在我到处搜索但找不到任何有关如何将所有 lwjgl 应用程序放入 jpanel 或画布或类似内容的内容我已经想过使用像 twl 这样的 opengl gui 但这会让一切变得更加
iOS 6 中的分段控件tintColor

我有一个有 8 段的分段控件我可以更改整个控件的默认色调但是我可以为控件中的每个部分设置不同的颜色吗我找到了一个在 5 1 中使用的教程其中有一个调用此方法的新类 void setTintColor UIColor color fo
onCreate 流程在 finish() 之后继续

我想从内部完成一项活动onCreate方法当我打电话时finish onDestroy 不会立即调用代码不断流过finish onDestroy 直到之后才被调用onCreate 右大括号 Per the onCreate 描述位于de
展开两个大数据文件并使用data.table应用？

我正在尝试将函数应用于两个数据集df1 and df2 where df1包含 a b 并且可以有 100 万行长并且df2包含 x y z 并且可以非常大从 100 到 gt 10 000 我想应用一个函数foo对两个数据集的每个组合

展开两个大数据文件并使用data.table应用？

展开两个大数据文件并使用data.table应用？ 的相关文章

随机推荐

热门标签

展开两个大数据文件并使用data.table应用？的相关文章