如何根据列名子集的成对组合创建新的数据表？

2024-06-23

我正在尝试定义一个函数，该函数将数据框或表作为具有特定数量的 ID 列（例如 2 或 3 个 ID 列）的输入，其余列是 NAME1、NAME2、...、NAMEK（数字列））。输出应该是一个数据表，其中包含与之前相同的 ID 列以及一个附加 ID 列，该 ID 列对列名称的每个唯一的成对组合进行分组（NAME1、NAME2、...）。另外，我们必须根据ID列将数字列的实际值收集到两个新列中；具有两个 ID 列和三个数字列的示例：

ID1 <- c("A","A","A","B","B","B")
ID2 <- c(1,2,3,1,2,3)
NAME1 <- c(10,11,9,22,25,22)
NAME2 <- c(7,9,8,20,22,21)
NAME3 <- c(10,12,11,15,19,30)
DT <- data.table(ID1,ID2,NAME1,NAME2,NAME3)

我希望以 DT 作为输入的函数的输出为

ID.new <- c("NAME1 - NAME2","NAME1 - NAME2","NAME1 - NAME2", "NAME1 - NAME2",
 "NAME1 - NAME2","NAME1 - NAME2", "NAME1 - NAME3", "NAME1 - NAME3",
 "NAME1 - NAME3","NAME1 - NAME3","NAME1 - NAME3","NAME1 - NAME3",
 "NAME2 - NAME3","NAME2 - NAME3","NAME2 - NAME3","NAME2 - NAME3",
 "NAME2 - NAME3", "NAME2 - NAME3")
ID1 <- c("A","A","A","B","B","B","A","A","A","B","B","B","A","A","A","B","B","B")
ID2 <- c(1,2,3,1,2,3,1,2,3,1,2,3,1,2,3,1,2,3)
value.left <- c(10,11,9,22,25,22,10,11,9,22,25,22,7,9,8,20,22,21)
value.right <- c(7,9,8,20,22,21,10,12,11,15,19,30,10,12,11,15,19,30)
DT.output <- data.table(ID.new,ID1,ID2,value.left,value.right)

我发现 fun() （见下文）可以完成这项工作，但对于我来说太慢了：

  fun <- function(data, ID.cols){
   data <- data.table(data)
   # Which of the columns are ID columns
   ids <-  which(colnames(data) %in% ID.cols)
   # Obtain all pairwise combinations of numeric columns into a list
   numeric.combs <- combn(x = data.table(data)[,!ids, with = FALSE], m = 2, simplify = FALSE)
   id.cols <- data[,ids, with = FALSE]
   # bind the ID columns to each pairwise combination of numeric columns inside the list
   bind.columns.each.numeric.comb <- lapply(X = numeric.combs, FUN = function(x) cbind(id.cols,x)) 
   # Create generic names for the numeric columns so that rbindlist() may be applied. In addition we make a new column that groups based on which columns we are considering
   generalize <- suppressWarnings(lapply(X = bind.columns.each.numeric.comb, FUN = function(x) 
   setattr(x = x[,ID.NEW:=paste(colnames(x[,!ids,with=FALSE]),collapse=" - ")], name = 
   'names', value = c(ID.cols,"value.left","value.right","ID.NEW"))))
   return(rbindlist(l=generalize))
}

# Performance
print(microbenchmark(fun(DT,ID.cols=c("ID1","ID2")),times=1000))

有没有更快、更优雅的方法来做到这一点？

熔化的自连接选项：

library(data.table)
DTlong <- melt(DT, id.vars = c("ID1", "ID2"), variable.factor = FALSE)
out <- DTlong[DTlong, on = .(ID1, ID2), allow.cartesian = TRUE
  ][variable < i.variable,
  ][, .(ID.new = paste(variable, i.variable, sep = " - "),
        ID1, ID2, value.left = value, value.right = i.value)]
out
#            ID.new    ID1   ID2 value.left value.right
#            <char> <char> <num>      <num>       <num>
#  1: NAME1 - NAME2      A     1         10           7
#  2: NAME1 - NAME2      A     2         11           9
#  3: NAME1 - NAME2      A     3          9           8
#  4: NAME1 - NAME2      B     1         22          20
#  5: NAME1 - NAME2      B     2         25          22
#  6: NAME1 - NAME2      B     3         22          21
#  7: NAME1 - NAME3      A     1         10          10
#  8: NAME2 - NAME3      A     1          7          10
#  9: NAME1 - NAME3      A     2         11          12
# 10: NAME2 - NAME3      A     2          9          12
# 11: NAME1 - NAME3      A     3          9          11
# 12: NAME2 - NAME3      A     3          8          11
# 13: NAME1 - NAME3      B     1         22          15
# 14: NAME2 - NAME3      B     1         20          15
# 15: NAME1 - NAME3      B     2         25          19
# 16: NAME2 - NAME3      B     2         22          19
# 17: NAME1 - NAME3      B     3         22          30
# 18: NAME2 - NAME3      B     3         21          30

### validation
setorder(out, ID.new, ID1, ID2)
identical(DT.output, out)
# [1] TRUE

方法论combn当然，这是一个合理的想法，但它唯一的低效率是每个组合都会迭代一次。也就是说，函数传递给combn(..., FUN=)在本例中被调用 18 次；如果你的数据更大，它会被调用很多次。如果是merge不过，就像这里的 /join 一样，一切都是以我们可以管理的矢量化方式完成的：merge高效完成，过滤作为单个逻辑向量返回，并且paste(..)也是一个大向量。

公平地说，合并概念确实有其自身的低效率：由于笛卡尔连接，它最初生成 54 行。对于更大的数据，这将导致内存耗尽问题。如果您遇到这种情况，使用以下方法可能会有所帮助fuzzyjoin并包括variable < variable（左轴与右轴），这应该可以减少（如果不是完全消除）问题。

最后的建议可以在sqldf还有：

sqldf::sqldf("
  select t1.variable || ' - ' || t2.variable as [ID.new], t1.ID1, t1.ID2, 
    t1.value as [value.left], t2.value as [value.right]
  from DTlong t1
    join DTlong t2 on t1.ID1=t2.ID1 and t1.ID2=t2.ID2
      and t1.variable < t2.variable")
#           ID.new ID1 ID2 value.left value.right
# 1  NAME1 - NAME2   A   1         10           7
# 2  NAME1 - NAME3   A   1         10          10
# 3  NAME1 - NAME2   A   2         11           9
# 4  NAME1 - NAME3   A   2         11          12
# 5  NAME1 - NAME2   A   3          9           8
# 6  NAME1 - NAME3   A   3          9          11
# 7  NAME1 - NAME2   B   1         22          20
# 8  NAME1 - NAME3   B   1         22          15
# 9  NAME1 - NAME2   B   2         25          22
# 10 NAME1 - NAME3   B   2         25          19
# 11 NAME1 - NAME2   B   3         22          21
# 12 NAME1 - NAME3   B   3         22          30
# 13 NAME2 - NAME3   A   1          7          10
# 14 NAME2 - NAME3   A   2          9          12
# 15 NAME2 - NAME3   A   3          8          11
# 16 NAME2 - NAME3   B   1         20          15
# 17 NAME2 - NAME3   B   2         22          19
# 18 NAME2 - NAME3   B   3         21          30

基准测试：

bench::mark(
  pernkf  = fun(DT, c("ID1", "ID2")),
  tjebo   = fun2(DT, c("ID1", "ID2")),
  r2evans = fun3(DT, c("ID1", "ID2")),  # native data.table
  r2evans2 = fun4(),                    # sqldf
  check = FALSE)
# # A tibble: 4 x 13
#   expression      min   median `itr/sec` mem_alloc `gc/sec` n_itr  n_gc total_time result memory        time     gc        
#   <bch:expr> <bch:tm> <bch:tm>     <dbl> <bch:byt>    <dbl> <int> <dbl>   <bch:tm> <list> <list>        <list>   <list>    
# 1 pernkf       5.38ms   6.06ms     161.      287KB    13.2     61     5      379ms <NULL> <Rprofmem[,3~ <bch:tm~ <tibble [~
# 2 tjebo        5.08ms   5.63ms     172.      230KB     8.83    78     4      453ms <NULL> <Rprofmem[,3~ <bch:tm~ <tibble [~
# 3 r2evans      2.97ms   3.48ms     280.      170KB    11.0    127     5      454ms <NULL> <Rprofmem[,3~ <bch:tm~ <tibble [~
# 4 r2evans2    17.19ms  18.91ms      52.0     145KB    13.0     20     5      384ms <NULL> <Rprofmem[,3~ <bch:tm~ <tibble [~

(sqldf在这个例子中确实会影响性能，我欢迎改进查询:-)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

如何根据列名子集的成对组合创建新的数据表？的相关文章

在 dfm 中查找非英语标记并将其删除

在 dfm 中如何检测非英语单词并将其删除 dftest lt data frame id 1 3 text c Holla this is a spanish word English online here Bonjour commen
如何按组计算日期之间的时间差

我有一个包含日期时间和位置的数据框我想计算组内记录与上一条记录根据日期排列之间的分钟差异并变异为新列我已经弄清楚如何使用循环来完成此操作但这仅适用于所有组位置而且我不确定如何按组执行此操作 fake data set fo
使用 ggplot2 进行分面 qqplots

假设我有以下数据 datapoints1 data frame categ c rep 1 n rep 2 n vals1 c rt n 1 2 rnorm n 3 4 datapoints2 data frame categ c rep
贝叶斯网络中一个节点的条件概率修改（R代码）

估计贝叶斯网络中的条件概率后我问了一个节点 Inlet gas total Pressure 的概率如下 bn mle before Inlet gas total pressure 节点 Inlet gas total Pressure
如何将字符串转换为日期？

我已经搜索过但找不到如何从格式如下的字符串转换日期 date lt 07 21 2015 09 30AM 我想用as Date 但我还没有做到我得到的只是以下内容 as Date date format m d y hAM NA as
`filter()` 输入 `..1` 出现问题。与闪亮的R

我正在尝试构建一个闪亮的应用程序根据用户条目过滤数据帧但是我正在努力使用我创建的函数来执行此任务错误Problem with filter input 1 x Input 1 must be of size 9 or 1 not s
使用 dplyr::filter 创建 R 函数问题

我查看了其他答案但找不到使下面的代码起作用的解决方案基本上我正在创建一个函数inner join两个数据框和filter基于函数中输入的列问题是filter部分功能不起作用但是如果我将过滤器从函数中取出并附加它它就会起作用my
从 r 中的数据帧中删除每第 n 列

我试图通过删除每第三列来减小数据框的大小这是我的示例数据框 example data frame x c 1 2 3 4 y c 1 2 3 4 z c 1 2 3 4 w c 1 2 3 4 p c 1 2 3 4 q c 1 2 3
更改分配新变量的默认环境

我经常想在全局环境下的一个环境中创建很多变量这可以通过以下方式轻松完成envir论证sys source 如果由正在获取的文件创建的所有变量都应该进入单个环境但我通常使用创建变量集的文件一组应该进入一个环境另一组应该进入另一个环境
如何使用 caret 包解释模型输出的准确性

我正在使用 caret 包来训练模型并希望获得模型的准确性我听说的一种常见方法是使用confusionMatrix 然而当我运行下面的代码时经过训练的模型给出了一些与confuseMatrix 报告的精度值略有不同的精度值所以我的
包“diamonds”不可用（对于 R 版本 3.0.0）[重复]

这个问题在这里已经有答案了在我的 R 环境中拥有钻石包数据集的简单方法是什么我是使用 RStudio 3 0 的新手 gt install packages diamonds Warning in install packages p
knitr pandoc：“无法使用 pdf writer 生成 pdf 输出”

Up front using pandoc 在knitr中当尝试将 md或 Rmd编译为PDF时它会抱怨我正在简化流程可重复的研究正如许多地方所记录的那样我在用着pandoc and knitr并制作出色的文档我还试图为一些不太
R 绘制一些 unicode 字符，但不绘制其他字符

我们的系统管理员刚刚将我们的操作系统升级到 SLES12SP1 我重新安装了 Rv3 2 3 并尝试绘图我用cairo pdf并尝试绘制 x 标签为的图 u0298即太阳能符号但它不起作用标签只是空白例如 cairo pdf Rpl
求R中3列中每一行的最大值

我需要计算 3 列中每行的最大值一个表可以是 x c 1 2 3 4 5 y c 2 3 3 1 1 z c 4 3 2 1 1 df lt data frame x y z 我需要得到 x y z max 1 1 2 4 4 2 2 3
如何以角度将数据表导出到csv文件中

我的 angularjs 应用程序中有一个数据表我想将其导出到 csv 文件我在互联网上搜索了很多找到了这个指令但这仅在按钮位于表格旁边时才有效需要帮助来编辑它 app directive exportToCsv function
使用 R 并行处理 XML 节点

我正在尝试与 R 并行处理 XML 文档xml2包装和foreach功能但我收到 node attrs x node nsMap ns 中的错误外部指针无效尝试导出树集群导出示例代码 library xml2 library for
如何使用 ggplot2 在轴标签中使用上标

如何在x轴上打印埃平方我尝试如下 labs x x axis 2 y y axis 我们可以用bquote library ggplot2 ggplot mtcars aes hp mpg geom point labs x bquote
使用同一变量的多个子集创建新数据框

我想创建一个新的数据框其中的列是由不同变量分割的同一变量的子集例如我想创建一个新的变量子集 b 其中列由不同变量 year 的子集分割 set seed 88 df lt data frame year rep 1996 1998 3
根据值绘制具有条件颜色的折线图

我想绘制折线图根据值它应该改变它的颜色我发现的是 plot sin seq from 1 to 10 by 0 1 type p col ifelse sin seq from 1 to 10 by 0 1 gt 0 5 red ye
为什么 NaN^0 == 1

受到早期高尔夫代码的提示为什么会 gt NaN 0 1 1 这非常有道理NA 0为 1 因为NA缺少数据并且any数字提高到 0 将得到 1 包括 Inf and Inf 然而NaN应该代表非数字那么为什么会这样呢当帮助页面出现时

随机推荐

Android 中的 System.currentTimeMillis() ？

我面临问题System currentTimeMillis 在我的项目中我在这里编写了一些出现问题的代码 Date currentDate new Date System currentTimeMillis Log v 1st curre
如何制作 System.Net.Mail MailMessage 的模型？

所以我的代码中有一些 SMTP 内容我正在尝试对该方法进行单元测试所以我一直在尝试模拟 MailMessage 但它似乎从来没有工作过我认为这些方法都不是虚拟的或抽象的所以我不能使用最小起订量来模拟它所以我想我必须手工完成这就是
调用未定义的函数 mb_strimwidth

几个月前我编写了一个简短的代码使用mb strimwidth 为了将某些文本精确地放入表格单元格中请在截断字符串的末尾添加点现在经过一段时间后我尝试执行相同的代码但出现了以下错误 Fatal error Call to und
带注释的 Struts2 JSON 插件

我有一个通过注释配置的 Struts2 Action 类所有用 Action 注释的正常方法都可以正常工作但是我需要在返回 JSON 的操作中添加一个方法这是我的类的精简版本使用 Spring 自动装配的 dao Namesp
Elastic Search：聚合、按字段计数

我将此数据插入到弹性搜索中 name Cassandra Irwin location Monzon de Campos name Gayle Mooney location Villarroya del Campo name Angeli
虚拟引用对象

虚拟参考用于事后分析操作 Java 规范指出幻象引用对象在幻像引用本身被清理之前不会被释放我的问题是此功能未释放对象的用途是什么我想到的唯一想法是允许本机代码对对象进行事后清理但这不太令人信服编辑因为我首先误解了这个问题引
如何通过单击浏览器的后退按钮获得相同的页面

我在我的 aspx 页面中使用 asp net 和 c 我在这个面板中有一个更新面板我有一些到其他站点的链接这些链接在同一窗口中打开单击这些链接后当我通过浏览器的后退按钮返回时我在更新面板上没有得到相同的结果我已经与以下文章实现
如何制作跨模块变量？

The debug 变量很方便部分原因是它影响每个模块如果我想创建另一个以相同方式工作的变量我该怎么做该变量我们将其称为 foo 不必是真正的全局变量从某种意义上说如果我在一个模块中更改 foo 它就会在其他模块中更新如果我
Svg getCompulatedTextLength 函数始终返回零

你好我尝试集成这个 d3 可缩放树形图 http mbostock github io d3 talk 20111018 treemap html http mbostock github io d3 talk 20111018 tree
在 VC++ 中从 MSI（数据库）查找文件路径

我需要计算 MSI 中文件的相对路径目前我正在查询File表获取FileName对应的Component 然后我使用此组件来查询组件表并找到 Directory 接下来我使用这个Directory 来查询Directory表并找到D
Mockito.when().thenReturn() 不起作用或返回 null

测试期间抛出 NullPointerException 我尝试调试它但我唯一解决的问题是 eventOptional 始终为 null 就像 Mockito when thenReturn 不起作用一样有人可以帮忙吗这是我的经过测试的
用于实验协议设计和开发的工具？

是否有任何开源的高级工具可以使用 GUI 促进和简化实验网络协议 TCP UDP 的开发基本上类似于动态状态机编辑器它允许您定义数据包消息状态验证器处理程序等最好这样的工具足够全面足以处理协议的所有相关方面即客户端
php中使用Curl读取Cookie，如何操作？

我正在连接到一个 API 服务该服务使用 cookie 对用户进行身份验证我从命令提示符处发出这两条语句并且它有效 curl d u username p password c cookiejar https domain login
如何用R删除字符串中的重复字符？

我想实现一个功能R删除字符串中的重复字符例如假设我的函数名为removeRS 所以它应该这样工作 removeRS Buenaaaaaaaaa Suerrrrte Buena Suerte removeRS Hoy estoy tris
反应 | Ant design select值未设置

我正在尝试将全选取消全选添加到 React Antd 的 SELECT 组件中 My code const models A4 A6 A8 A1 Q3 Q5 const selected setSelected useState mo
交叉编译 - 检索目标 CPU 和版本

我正在使用 cmake 交叉编译 VxWorks 当我第一次运行 cmake 时我必须提供有关编译器目标操作系统等的信息在交叉编译对话框中我设置了三个目标系统设置操作系统 Version 处理器后面是编译器等虽然我可以使用检索
如何在 pygame 中制作一个进入网站的按钮？

我的 pygame 中有一个 Credits 菜单我想制作一些可以访问某些网站的按钮我的意思是当单击按钮时它应该打开例如 GitHub 或任何链接有什么方法可以实现这个目标吗实施一个Button类并使用网页浏览器 https
如何在 C# 中比较两个 list
并仅保留不重复的项目？
这里有两个列表 var list1 new List

如何为 ASP.NET Mvc 缓存数据库中的大量数据

我的网站使用 linq to sql 从数据库加载大约 50k 行数据该数据是静态的并且永远不会改变它的工作原理类似于垃圾邮件过滤器需要加载所有 50k 行模式对此进行编程的最佳方法是什么以获得最佳性能将整个数据加载到单个静态只

如何根据列名子集的成对组合创建新的数据表？

我正在尝试定义一个函数该函数将数据框或表作为具有特定数量的 ID 列例如 2 或 3 个 ID 列的输入其余列是 NAME1 NAME2 NAMEK 数字列输出应该是一个数据表其中包含与之前相同的 ID 列以及一个附加 ID 列
热门标签

hypermesh

车贴服务器维修

服务器共享设置密码

页面中直接播放

轻松实现在

方差公式

新建环境

EXPR

MARKER

服务器分几个虚拟主机

三菱伺服驱动器示例

按键中断控制蜂鸣器

来构建应用程序

读取大文件目录

下远程管理

远程管理方法

苹果闪退解决方法

语言调用

goqt
Powered by Hwhale

如何根据列名子集的成对组合创建新的数据表？

如何根据列名子集的成对组合创建新的数据表？ 的相关文章

随机推荐

热门标签

如何根据列名子集的成对组合创建新的数据表？的相关文章