快速/优雅地结合多对柱子

2024-04-11

是否有一种优雅/fastR 的方式来组合 data.frame 中的所有列对？

例如，使用mapply() and paste()我们可以转动这个data.frame：

mydf <- data.frame(a.1 = letters, a.2 = 26:1, b.1 = letters, b.2 = 1:26)
head(mydf)
  a.1 a.2 b.1 b.2
1   a  26   a   1
2   b  25   b   2
3   c  24   c   3
4   d  23   d   4
5   e  22   e   5
6   f  21   f   6

进入这个数据框：

mydf2 <- mapply(function(x, y) {
     paste(x, y, sep = ".")},
     mydf[ ,seq(1, ncol(mydf), by = 2)],
     mydf[ ,seq(2, ncol(mydf), by = 2)])
head(mydf2)
     a.1    b.1  
[1,] "a.26" "a.1"
[2,] "b.25" "b.2"
[3,] "c.24" "c.3"
[4,] "d.23" "d.4"
[5,] "e.22" "e.5"
[6,] "f.21" "f.6"

然而，这感觉很笨拙，并且在应用于大数据集时有点慢。有什么建议，也许使用 Hadley 包吗？

编辑：理想的解决方案可以轻松扩展到大量列，这样列的名称就不需要包含在函数调用中。谢谢！

有趣的是，OP 的解决方案似乎是最快的：

f1 <- function(mydf) {
    mapply(function(x, y) {
        paste(x, y, sep = ".")},
        mydf[ ,seq(1, ncol(mydf), by = 2)],
        mydf[ ,seq(2, ncol(mydf), by = 2)])
}

f.thelatemail <- function(mydf) {
    mapply(paste,mydf[c(TRUE,FALSE)],mydf[c(FALSE,TRUE)],sep=".")
}

require(dplyr)

f.on_the_shores_of_linux_sea <- function(mydf) {
    transmute(mydf,x1=paste0( a.1,'.', a.2),x2=paste0( b.1,'.', b.2)) 
}

f.jazurro <- function(mydf) {
    odd <- seq(1, ncol(mydf), 2);
    lapply(odd, function(x) paste(mydf[,x], mydf[,x+1], sep = ".")) %>% 
        do.call(cbind,.)
}

library(data.table) 
f.akrun <- function(mydf) {
    res <- as.data.table(matrix(, ncol=ncol(mydf)/2, nrow=nrow(mydf)))
    indx <- seq(1, ncol(mydf), 2)
    setDT(mydf)
    for(j in seq_along(indx)){
        set(res, i=NULL, j=j, value= paste(mydf[[indx[j]]], 
                                           mydf[[indx[j]+1]], sep='.'))
    }
    res
}

mydf <- data.frame(a.1 = letters, a.2 = 26:1, b.1 = letters, b.2 = 1:26)
mydf <- mydf[rep(1:nrow(mydf),5000),]


library(rbenchmark)
benchmark(f1(mydf),f.thelatemail(mydf),f.on_the_shores_of_linux_sea(mydf),f.jazurro(mydf),f.akrun(mydf))

Results:

#                                 test replications elapsed relative user.self sys.self user.child sys.child
# 5                      f.akrun(mydf)          100  14.000   75.269    13.673    0.296          0         0
# 4                    f.jazurro(mydf)          100   0.388    2.086     0.314    0.071          0         0
# 3 f.on_the_shores_of_linux_sea(mydf)          100  15.585   83.790    15.293    0.280          0         0
# 2                f.thelatemail(mydf)          100  26.416  142.022    25.736    0.639          0         0
# 1                           f1(mydf)          100   0.186    1.000     0.169    0.017          0         0

[更新基准]

我添加了来自 @thelatemail 的一种解决方案（我在原始答案中错过了该解决方案）以及来自 @akrun 的一种解决方案：

f.thelatemail2 <- function(mydf) {
    data.frame(Map(paste,mydf[c(TRUE,FALSE)],mydf[c(FALSE,TRUE)],sep="."))
}

f.akrun2 <- function(mydf) {    
    setDT(mydf)
    indx <- as.integer(seq(1, ncol(mydf), 2))
    mydf2 <- copy(mydf)
    for(j in indx){
        set(mydf2, i=NULL, j=j, value= paste(mydf2[[j]],
                                             mydf2[[j+1]], sep="."))
    }
    mydf2[,indx, with=FALSE]
}

基准：

library(rbenchmark)

benchmark(f1(mydf),f.thelatemail(mydf), f.thelatemail2(mydf), f.on_the_shores_of_linux_sea(mydf),f.jazurro(mydf),f.akrun(mydf),f.akrun2(mydf))
#                                 test replications elapsed relative user.self sys.self user.child sys.child
# 6                      f.akrun(mydf)          100  13.247   69.356    12.897    0.340          0         0
# 7                     f.akrun2(mydf)          100  12.746   66.733    12.405    0.339          0         0
# 5                    f.jazurro(mydf)          100   0.327    1.712     0.254    0.073          0         0
# 4 f.on_the_shores_of_linux_sea(mydf)          100  16.347   85.586    15.838    0.445          0         0
# 2                f.thelatemail(mydf)          100  26.307  137.733    25.536    0.708          0         0
# 3               f.thelatemail2(mydf)          100  15.938   83.445    15.136    0.750          0         0
# 1                           f1(mydf)          100   0.191    1.000     0.156    0.036          0         0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

reshape

dplyr

tidyr

快速/优雅地结合多对柱子的相关文章

数据表中的 NA

我有一个data table其中包含一些组我对每个组进行操作有些组返回数字其他组返回NA 因为某些原因data table很难将所有东西重新组合在一起这是一个错误还是我误解了这是一个例子 dtb lt data table a 1
如何将环境变量传递给shinyapps

我想将安全参数传递给shinyapps io部署以便我的应用程序可以通过以下方式获取它们 Sys getenv PASSWORD X 我找不到任何相关内容deployApp函数在rsconnect包裹您可以使用Renviron网站 or
如何在knitr中安装软件包？

到目前为止我一直在使用这段代码来加载 R 包并编写 R 文件但我正在尝试使用knitr rm list ls all TRUE kpacks lt c ggplot2 install github devtools mapdata ne
当我用一个观察值运行回归时，为什么“fastLm()”会返回结果？

为什么fastLm 当我用一项观察进行回归时返回结果吗下面为什么不lm and fastLm 结果相等吗 library Rcpp library RcppArmadillo library data table set seed 1 D
如何在RcppParallel中调用用户定义的函数？

受到文章的启发http gallery rcpp org articles parallel distance matrix http gallery rcpp org articles parallel distance matrix 我
R：计算自上次出现某个值以来的累积总和和计数

给定简化数据 set seed 13 user id rep 1 2 each 10 order id sample 1 20 replace FALSE cost round runif 20 1 5 75 1 category samp
R中一张图中的多个条形图

我是 R 初学者我需要创建一个像这样的图表 https i stack imgur com az56z jpg https i stack imgur com az56z jpg 我不知道如何生成整个数据集基本思想是某个外显子 ID 会
R 中的输出，避免写“[1]”

I use print从 R 中的函数输出例如 print blah blah blah 这输出 1 blah blah blah 到控制台我怎样才能避免 1 和引号 Use cat Your string type cat查看帮助页面
如何在R中的2行之间交换多个值

我有一个大小为 10x100 的矩阵如何交换前 30 列中第 1 行和第 2 行之间的值我们可以反转前两行的行索引以及通过采取序列创建的列索引rounded 30 总列数用于交换行中的值 colS lt seq round ncol m
RPostgreSQL 无法关闭连接

我有一个闪亮的应用程序使用它连接到数据库RPostgreSQL 在应用程序结束时连接关闭驱动程序应该被卸载但我收到错误警告我连接未关闭代码看起来像这样 in the app R file but not in the serve
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
如何使用 R 或 PowerShell 从文本文件中提取数据？

我有一个包含如下数据的文本文件 This is just text Username SOMETHI C Text Account DFAG Finish time 1 JAN 2011 00 31 58 91 Process ID 202
R 在读取文件时添加额外的数字

我一直在尝试读取一个包含日期字段和数字字段的文件我的数据在 Excel 工作表中如下所示 Date X 1 25 2008 0 0023456 12 23 2008 0 001987 当我在 R 中使用readxl read xlsx函
如何导入 .tsv 文件

我需要读取一个表 tsvR 中的文件 test lt read table file drug info tsv Error in scan file what nmax sep dec quote skip nlines na strin
使用 ggplot 未完全填充等值线图

我正在尝试使用以下方法绘制我的第一个填充等高线图ggplot 根据我的数据我期待类似的结果但我的结果是 a lt c 1 1 1 1 1 3 1 2 2 2 2 2 2 5 2 1 3 3 3 3 1 3 2 b lt c rep c
如何使用 ggplot2 绘制 NA 间隙

在 R 的基本绘图中如果数据系列 ggplot2 中存在 NA 则会绘制间隙举个例子看看 df data frame x c 1 10 y c 1 10 df 5 7 NA plot df type l 但是 ggplot2 删除了缺失
如何在 R 中绘制预测的子集？

我有一个简单的 R 脚本来根据文件创建预测自 2014 年以来就有数据记录但我在尝试实现以下两个目标时遇到了困难仅绘制预测信息的子集从 11 2017 开始以特定格式包含月份和年份即 6 月 17 日这是链接到dataset
Mac OS X 10.13 上的 RStudio 在尝试使用 fix() 时出现 X11 不可用错误

我已经使用自制程序在我的计算机上安装了 XQuartz 然后重新启动了我的计算机当我尝试在 RStudio 中使用 fix 命令时出现以下错误 gt College read csv College csv header T na st
从频率表生成 data.frame

我在 2 4 数组中有包含 500 个观察值的合成数据 datax array c 120 181 50 43 41 33 24 8 dim c 2 4 dimnames datax list gender c male female pu
如何在 R 树形图中省略标签？

我一直在使用R 树形图包 http cran r project org web packages treemap treemap pdf我有一个 2 层深的树形图我希望打印第二级标签但不打印第一级标签使用手册页中的示例 tmPlot

随机推荐

Numpy 方法从卷积核生成线性运算矩阵

2D 卷积核 K 形状 k1 k2 n channel n filter 适用于 2D 矢量 A 形状 m1 m2 n channel 并生成另一个 2D 向量 B 形状 m1 k1 1 m2 k2 1 n filter with vali
如何用Go语言的cgo编译Cuda源码？

我用 cuda c 编写了一个简单的程序它可以在 eclipse nsight 上运行这是源代码 include
Spring-boot：需要一个名为“entityManagerFactory”的 bean，但无法找到

我正在使用 JPA 开发 Spring Boot 应用程序并遇到此错误我不确定我是否使用了正确的注释或缺少依赖项任何帮助将不胜感激这是错误消息 1 05 28 AM Executing external task bootRun co
pandas 日期时间将星期日设置为一周的第一天

我有一个 pandas 数据框其中包含一系列日期所有星期日如下所示 Date Year Week 2011 01 02 2011 52 2011 01 23 2011 3 2011 01 23 2011 3 2011 01 30 20
查找矩阵每行中 1 的列索引

我在 Matlab 中有以下矩阵 M 0 0 1 1 0 0 0 1 0 1 0 0 0 0 1 每行恰好有一个 1 我如何不循环确定列向量以便如果第二列中有 1 第一个元素是 2 如果第三列中有 1 第二个元素是 3 等等上面的例
全屏播放 HTML5 视频时旋转屏幕

首先我想为我糟糕的英语水平以及我在这篇文章中可能犯的所有错误道歉我也是 Android 开发中的初级人员我是在空闲时间做这件事的我还不够优秀经验还不够如果我在理解你可能给我的答案时可能遇到一些困难那么抱歉那我在做什么我
防止用户将负数传递给接受 unsigned int 的函数

所以这是代码 int create mask unsigned b unsigned e unsigned int mask 1 if b
Delphi如何判断哪个程序调用了另一个程序？

我如何确定谁调用了 Showme 程序 procedure Showme str string begin ShowMessage str end procedure btnclick sender TObject begin Showme
既然 Storage Sense 可以随时清理 %TEMP% 文件夹，为什么还要使用它呢？

从 Windows 10 开始 Storage Sense 允许用户指定 TEMP 文件夹清理频率为每天一次从技术上讲如果将其设置为在磁盘空间不足时激活它可以更频繁地运行具体取决于用户的磁盘使用模式鉴于此这样做的意义何在 TEM
如何在解析条件下重定向到routeProvider中的另一个页面

如果 sessionStorage logged 设置为 true 我想将 mypage 重定向到主页下面是我的代码为什么我的下面的代码不起作用因为我是 angularjs 的新手所以我不知道该怎么做如果你帮助解决这个问题我会更加
在本地机器上加载张量流模型

我已经在 google colab 中训练了我的 TensorFlow 模型并将其导出为 h5 格式在 google colab 中我可以毫无问题地加载模型但在我的本地计算机上它会向我抛出错误和警告装载模型 import ten
是否可以使用泛型中的“this”类型作为约束本身？

考虑这个虚构的例子 public abstract class CollectionItem
如何在 Android 上停止 Kotlin 协程？

如果用户按下按钮我试图停止协程但是当我这样做时 GlobalScope launch Dispatchers Main code button setonclicklistener GlobalScope cancel 应用程序崩溃
是否可以使用 javascript 或 jQuery 进行 301 重定向？

我正在运行 Apache 2 0 我只是想知道是否可以使用 JavaScript 或 jQuery 进行 301 重定向我有一个 a a 标记为href到指定位置当我单击该链接时系统会要求我进行 301 重定向这是为了 SEO 我正
在 C# 中动态“解压缩”IEnumerable 或最佳替代方案

假设您有一个返回延迟枚举对象的函数 struct AnimalCount int Chickens int Goats IEnumerable
何时在 JSX 中使用匿名函数

有人可以解释一下两者之间的区别吗匿名函数
IE 8 中的 CSS iframe 问题

我有一个看起来很完美的页面http esolar ca calculator http esolar ca calculator 但是当我将它嵌入到 iframe 中时http esolar ca how to profit from mi
附加两个 IEnumerable 项

IEnumerable
尽管使用 es6-promise.d.ts 仍找不到名称“Promise”

我将 systemjs d ts 文件添加到 WebStorm IDE 中的项目中该文件包含 Promise 类的两次使用它们被 TSC 标记为错误这非常奇怪因为我已经将 es6 promise d ts 文件添加到我的项目中并且
快速/优雅地结合多对柱子

是否有一种优雅 fastR 的方式来组合 data frame 中的所有列对例如使用mapply and paste 我们可以转动这个data frame mydf lt data frame a 1 letters a 2 26 1

快速/优雅地结合多对柱子

快速/优雅地结合多对柱子 的相关文章

随机推荐

热门标签

快速/优雅地结合多对柱子的相关文章