data.table高效回收

2024-01-12

我经常在 data.table 中使用回收，例如当我需要对未来几年进行预测时。我会在未来的每一年重复我的原始数据。

这可能会导致类似的情况：

library(data.table)
dt <- data.table(cbind(1:500000, 500000:1))
dt2 <- dt[, c(.SD, .(year = 1:10)), by = 1:nrow(dt) ]

但我经常需要处理数百万行，以及比这个玩具示例多得多的列。时间增加.. 尝试这个：

library(data.table)
dt <- data.table(cbind(1:50000000, 50000000:1))
dt2 <- dt[, c(.SD, .(year = 1:10)), by = 1:nrow(dt) ]

我的问题是：有没有更高效的方法来达到这个目的？

谢谢你的帮助！

编辑：对于这个问题的表述，所接受的答案是最完整的（到目前为止），但我意识到我的问题有点棘手。我会问另一个问题来展示它：data.table高效回收V2 https://stackoverflow.com/questions/59197298/data-table-efficient-recycling-v2

我认为这个问题是交叉连接。没有内置的方法可以在两个数据表之间进行交叉连接（CJ函数适用于向量），但从讨论来看在这个问题上 https://github.com/Rdatatable/data.table/issues/1717#issuecomment-545758165，这个函数效果很好：

CJDT <- function(...) {
    Reduce(function(DT1, DT2) cbind(DT1, DT2[rep(1:.N, each=nrow(DT1))]), list(...))
}

使用您的大型示例，这对我有用：

years = data.table(year = 1:10, key = "year")
setkey(dt)
dt3 = CJDT(dt, years)

您的方法在内存耗尽之前需要更长的时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

data.table高效回收的相关文章

一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
访问或解析 R 中的 summary() 中的元素

我运行以下 R 命令来进行 Dunnett 测试并获取摘要如何访问下面线性假设的每一行这是摘要输出的一部分基本上我不知道摘要的结构我尝试使用名称但它似乎不起作用因为我没有看到任何命名属性来提供这一点 library multco
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
`dplyr::_join` 函数的命名向量“by”参数[重复]

这个问题在这里已经有答案了我正在写一个函数dplyr join两个数据框by不同的列第一个数据帧的列名称动态指定为函数参数我相信我需要使用rlang准引用元编程但未能找到可行的解决方案我很感激任何建议 library dplyr
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
为什么这个 R ggplot2 代码会显示一个空白的显示设备？

虽然 SO 通常不用于帮助解决错误但这个显示了特别简单且特别烦人的行为如果你是一个ggplot2用户您可以在 10 秒或更短的时间内重现它正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
要在子集中显示的非数字条目的维恩图

我有以下数据框 SET1 SET2 SET3 par1 par2 par1 par2 par3 par2 par3 par4 par5 我想制作一个维恩图其中所有这些 parX 元素都显示在各自的子集中即作为标签而不仅仅是重叠元素的数

随机推荐

涉及动态字段的数据库结构

我正在做一个项目它主要是为了学习目的我发现实际上尝试一个复杂的项目是掌握基础知识后学习语言的最佳方法数据库设计不是强项我开始阅读它但它还处于早期阶段我仍在学习这是我的 alpha 模式我真的只是想记下我能想到的所有内容看看
通过 IMAP 添加自定义 RFC822 标头？

有没有一种简单的方法可以使用 imaplib 将自定义 RFC822 标头添加到 IMAP 服务器上的邮件中我正在编写一个基于 python 的程序来过滤我的 IMAP 邮件存储当我使用 Procmail 执行此操作时我可以选择添加标
如何在 ASP.NET MVC 身份上设置自定义身份验证？

我需要的我有一个 ASP NET 身份系统设置并使用外部登录运行无论出于何种原因我需要在 ASP NET 身份验证之后设置自定义身份验证让我解释一下如何假设我有三个页面供用户在我的应用程序上查看页面 A B C 谁可以查看页面
docker-compose - ADD 失败：构建上下文之外的禁止路径

我有这样的文件夹结构 project config docker Dockerfile docker compose yml src here is code requirements txt Dockerfile FROM python
React：TypeError：尝试使用react-bootstrap容器时无法读取null的属性（读取'useContext'）

正如标题中所述我正在尝试创建一个布局组件但使用任何react bootstrap组件似乎都会给我错误在这种情况下使用我收到错误类型错误无法读取 null 的属性读取 useContext 该布局组件的代码如下 import R
awk中的浮点计算

我对以下行为感到惊讶awk表演时浮点计算这导致我对表数据的计算错误 awk BEGIN print 2 3 0 1 23 lt Ok awk BEGIN print int 2 3 0 1 22 lt Wrong awk BEGIN pr
使用 NSLocalizedString 的最佳实践

我像所有其他人一样使用NSLocalizedString本地化我的应用程序不幸的是有几个缺点不一定是 NSLocalizedString 本身的错误包括 Xcode 中的字符串没有自动补全功能这使得工作不仅容易出错而且令人
Java找不到主类

我编写了以下 Java 源文件 Hello java package com public class Hello public static void main String args System out println Hello 我
Int32.ToString() 是否特定于区域性？

我正在运行 ReSharper 的 Beta 版本它向我发出以下代码的警告 int id DoSomethingWith id ToString 警告位于id ToString 调用它告诉我明确指定字符串转换中的区域性我理解这个警告
Tomcat 5.5 中的永久 301 重定向

是否可以使用独立运行的 Tomcat 5 5 而不是在 IIS Apache 后面进行 301 重定向没有一种方法可以像使用 Apache 那样轻松地进行设置最接近的方法是创建一个 servlet 或 jsp 来处理重定向然后将其映
时间间隔的 NSPredicate

我有一张表其中有 4 个字段开始日期结束日期开始时间和结束时间我需要设置谓词类似 if startdate lt currentdate and currentdate lt enddate if starttime lt cur
如何在 Xcode 4.4 中将部署目标从 iOS 5.1 更改为 4.2

我试图在 Xcode 4 4 中将部署目标从 5 1 更改为 4 2 但它不起作用我下载了 4 1 4 2 的调试支持我将架构设置为armv6 armv7 我在plist中设置了armv6 armv7 我不使用故事板 It s a 已知
大型列表上单击事件的 jQuery 委托性能 - 如果动态添加更多元素，速度会变慢？

我有一个像这样的项目的可视列表 http jsfiddle net viatropos XCe3T 1 http jsfiddle net viatropos XCe3T 1 在真实的应用程序中我总共只加载 200 个项目但问题是cli
无法解析 Android Studio 上的符号“android”

我一直在制作一个显示 MapView 的应用程序它已经构建完毕我什至在我的设备上使用它现在我想添加更多功能但工作室突然给出错误无法解析符号 android 我将工作室更新到 0 8 6 最新但是该死的没有什么变化 Errors
下载SSRS报告并保存在特定位置（C#）（未经授权）

Question 我正在尝试通过其 URL 将 SSRS 报告下载到数据缓冲区字节数组中因此我可以将其保存在特定的文件夹中并使用我选择的名称如果需要的话我愿意接受不同方法的建议问题但是我不断收到以下错误 401 未经授权无
字符串变量的 Null 或空检查

if isnull value 我想知道上面的代码是否可以检查变量是否为空或空是的该代码正是这样做的您还可以使用 if value is null or value Edit 添加的信息表明 value is an int值你需要
使用 Angular SPA 应用程序与 IdentityServer4 进行身份验证/授权接收令牌，然后与 Web API 进行对话

我有一个 asp net core Web API 我目前正在使用 Angular 4 应用程序直接调用它我现在想添加身份验证和授权层我想通过向我的解决方案添加另一个类型为 ASP NET Core MVC 带个人用户帐户的项目严格
为什么在使用 JPA 映射类时应该在 getter 或 setter 上添加注释？

主题说明了一切到目前为止我认为人们在 getter 和或 setter 上声明注释没有任何优势对我来说这唯一的缺点是将注释分散到类上这会使类更加难以阅读将注释放在字段上显然可以减少需要帮助时发布的代码量但这只是一个微小的优势
如何在 scala 中进行依赖注入？

除了java之外我还处于学习scala的开始阶段我不明白如何在那里进行DI 我可以或者应该使用现有的 DI 库应该手动完成还是有其他方法标准 Java DI 框架通常可与 Scala 配合使用但您也可以使用语言构造来达到同样的效果
data.table高效回收

我经常在 data table 中使用回收例如当我需要对未来几年进行预测时我会在未来的每一年重复我的原始数据这可能会导致类似的情况 library data table dt lt data table cbind 1 500000

data.table高效回收

data.table高效回收 的相关文章

随机推荐

热门标签

data.table高效回收的相关文章