tstr在一轮中拆分到不同的列

2024-02-25

我有一个如下表：

myDT <- fread(
  "id,other,strformat,content
 1, other1, A:B,    a1:b1
 2, other2, A:C,    a2:c2
 3, other3, B:A:C,  b3:a3:c3
 4, other4, A:B,    a4:b4
 5, other5, XX:whatever,    xx5:whatever5
")

我想分割content列基于strformat，得到这个：

   id  other   strformat       content    A    B    C   XX  whatever
1:  1 other1         A:B         a1:b1   a1   b1 <NA> <NA>      <NA>
2:  2 other2         A:C         a2:c2   a2 <NA>   c2 <NA>      <NA>
3:  3 other3       B:A:C      b3:a3:c3   a3   b3   c3 <NA>      <NA>
4:  4 other4         A:B         a4:b4   a4   b4 <NA> <NA>      <NA>
5:  5 other5 XX:whatever xx5:whatever5 <NA> <NA> <NA>  xx5 whatever5

我失败了tstrsplit() on by=:

myDT[, unlist(strsplit(strformat,':')):=tstrsplit(content,':'), by=strformat]
# Error in strsplit(strformat, ":") : object 'strformat' not found

所以现在我求助于使用循环：

for (this.format in unique(myDT$strformat)){
  myDT[strformat==this.format, unlist(strsplit(this.format,':')):=tstrsplit(content,':')]
}

它可以完成工作，但我仍然想知道什么是正确的方法by=

因此，我测试了 @akrun 善意建议的 3 个解决方案，并稍加修改。跳过最后一个，因为它对列名进行了硬编码。

# define functions to compare:

require(splitstackshape)
f_csplit <- function(inpDT, col_format='strformat', col_content='content', sep=':'){
  invisible(inpDT[dcast(
    cSplit(inpDT, c(col_format, col_content), sep, "long"), 
    as.formula(paste('id',col_format,sep='~')), 
    value.var=col_content
  ), , on = .(id)])
}

f_lapply_str <- function(inpDT, col_format='strformat', col_content='content', sep=':'){
  invisible(inpDT[dcast(
    inpDT[, unlist(lapply(.SD, strsplit, sep), recursive = FALSE), by = id, .SDcols = 2:3], 
    as.formula(paste('id',col_format,sep='~')),
    value.var=col_content
  ), on = .(id)])
}

require(tidyverse)
f_unnest <- function(inpDT, col_format='strformat', col_content='content', sep=':'){
  invisible(inpDT[dcast(
    unnest(inpDT[, lapply(.SD, tstrsplit, sep),by = id, .SDcols = 2:3]), 
    as.formula(paste('id',col_format,sep='~')), 
    value.var=col_content
  ), on = .(id)])
}

f_cycle <- function(inpDT, col_format='strformat', col_content='content', sep=':'){
  inpDT <- copy(inpDT); # in fact I don't even need to make a copy:
                        # := modifies the original table which is fine for me - 
                        # but for benchmarking let's make a copy  
  for (this.format in unique(inpDT[[col_format]])){
    inpDT[get(col_format)==this.format, unlist(strsplit(this.format,sep)):=tstrsplit(get(col_content),sep)]
  }
  invisible(inpDT)
}

看来解决方案＃2（lapply of strsplit，没有cSplit）和#3（unnest)当表中有任何其他列时，它无法正常工作，只有当我删除“其他”时，它才有效：

myDT[dcast(myDT[, unlist(lapply(.SD, strsplit, ":"), recursive = FALSE), by = id, .SDcols = 2:3], id ~ strformat), on = .(id)]
#      id  other   strformat       content    A    B    C   XX whatever
#   1:  1 other1         A:B         a1:b1    A    B <NA> <NA>     <NA>
#   2:  2 other2         A:C         a2:c2    A <NA>    C <NA>     <NA>
#   3:  3 other3       B:A:C      b3:a3:c3    A    B    C <NA>     <NA>
#   4:  4 other4         A:B         a4:b4    A    B <NA> <NA>     <NA>
#   5:  5 other5 XX:whatever xx5:whatever5 <NA> <NA> <NA>   XX whatever

myDT[dcast(unnest(myDT[, lapply(.SD, tstrsplit, ":"),by = id, .SDcols = 2:3]), id ~ strformat), on = .(id)]
# (same result as above)

myDT$other <- NULL
myDT[dcast(myDT[, unlist(lapply(.SD, strsplit, ":"), recursive = FALSE), by = id, .SDcols = 2:3], id ~ strformat), on = .(id)]
#      id   strformat       content    A    B    C   XX  whatever
#   1:  1         A:B         a1:b1   a1   b1 <NA> <NA>      <NA>
#   2:  2         A:C         a2:c2   a2 <NA>   c2 <NA>      <NA>
#   3:  3       B:A:C      b3:a3:c3   a3   b3   c3 <NA>      <NA>
#   4:  4         A:B         a4:b4   a4   b4 <NA> <NA>      <NA>
#   5:  5 XX:whatever xx5:whatever5 <NA> <NA> <NA>  xx5 whatever5

myDT[dcast(unnest(myDT[, lapply(.SD, tstrsplit, ":"),by = id, .SDcols = 2:3]), id ~ strformat), on = .(id)]
# (same correct result as above)

以下是删除“其他”列后的基准测试：

# make a bigger table based on a small one:
myDTbig <- myDT[sample(nrow(myDT),1e5, replace = T),]
myDTbig[, id:=seq_len(nrow(myDTbig))]
myDTbig$other <- NULL

require(microbenchmark)
print(microbenchmark(
  f_csplit(myDTbig), 
  f_lapply_str(myDTbig), 
  f_unnest(myDTbig), 
  f_cycle(myDTbig), 
  times=10L
), signif=2)

# Unit: milliseconds
#              expr      min   lq mean median   uq  max neval
# f_csplit(myDTbig)      420  430  470    440  450  670    10
# f_lapply_str(myDTbig) 4200 4300 4700   4700 5100 5400    10
# f_unnest(myDTbig)     3900 4400 4500   4500 4800 5100    10
# f_cycle(myDTbig)        88   96   98     98  100  100    10

并保留“其他”列：

# make a bigger table based on a small one:
myDTbig <- myDT[sample(nrow(myDT),1e5, replace = T),]
myDTbig[, id:=seq_len(nrow(myDTbig))]

require(microbenchmark)
print(microbenchmark(
  f_csplit(myDTbig), 
  f_cycle(myDTbig), 
  times=100L
), signif=2)

# Unit: milliseconds
#              expr min  lq mean median  uq  max neval
# f_csplit(myDTbig) 410 440  500    460 490 1300   100
# f_cycle(myDTbig)   84  93  110     96 100  270   100

下面是我的真实数据集。好吧，实际上，只有 1/10：在完整的情况下，我遇到了内存分配错误csplit解决方案（而带有循环的解决方案工作得很好）。

myDTbig <- dt.vcf[1:2e6,]
myDTbig[,id:=seq_len(nrow(myDTbig))]

print(microbenchmark(
  f_csplit(myDTbig, 'FORMAT', 'S_1'), 
  f_cycle(myDTbig, 'FORMAT', 'S_1'), 
  times=5L
), signif=2)
# Unit: seconds
#                              expr  min   lq mean median   uq  max neval
# f_csplit(myDTbig, "FORMAT", "S_1") 15.0 16.0   16   16.0 16.0 17.0     5
# f_cycle(myDTbig, "FORMAT", "S_1")   4.9  4.9    6    5.7  5.8  8.5     5

最后，我测试了是否有很多级别format列（即我们必须运行多少个周期）将增加循环求解的时间：

myDTbig <- myDT[sample(nrow(myDT),1e6, replace = T),]
myDTbig[, strformat:=paste0(strformat,sample(letters,1e6, replace = T)),]
length(unique(myDTbig$strformat)) # 104
myDTbig[, id:=seq_len(nrow(myDTbig))]

print(microbenchmark(
  f_csplit(myDTbig), 
  f_cycle(myDTbig), 
  times=10L
), signif=2)
# Unit: seconds
#             expr  min  lq mean median  uq max neval
# f_csplit(myDTbig) 7.3 7.4  7.7    7.6 7.9 8.4    10
#  f_cycle(myDTbig) 2.7 2.9  3.0    2.9 3.0 3.8    10

因此，作为结论 - 令人惊讶的是，对于这项任务，该循环的表现比其他任何循环都要好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

tstr在一轮中拆分到不同的列的相关文章

按不规则时间间隔对数据进行分组求和（R语言）

我正在看这里的 stackoverflow 帖子 R 计算一组内的观察次数 https stackoverflow com questions 65366412 r count number of observations within a
如何从 R 数据框中提取关键字

我是 R 中文本挖掘的新手我想从数据框的列中删除停用词即提取关键字并将这些关键字放入新列中我尝试制作一个语料库但它对我没有帮助 df C3是我目前拥有的我想添加栏目df C4 但我无法让它工作 df lt structure l
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
用表达式分割轴标签

我有一个带有包含表达式的长标签的图我想将其分成两行在表达式中添加 n 结果不符合预期 ylabel lt expression A very long label with text and n expression alpha bet
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
dplyr 返回每个组的全局平均值，而不是每个组的平均值

有人可以解释一下我在这里做错了什么 library dplyr temp lt data frame a c 1 2 3 1 2 3 1 2 3 b c 1 2 3 1 2 3 1 2 3 temp gt group by temp 1 g
将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch

随机推荐

将unicode插入sqlite？

我仍在学习 Python 作为一个小项目我编写了一个脚本它将获取文本文件中的值并将它们插入到 sqlite3 数据库中但有些名称有奇怪的字母我猜你会称它们为非 ASCII 并且当它们出现时会生成错误这是我的小脚本请告诉我是否有更
WPF 中 ListBoxItem 上的虚线边框

如何将 ListBoxItems 上的默认边框设置为虚线边框请参阅以下样式设置方法
您知道哪些避免条件分支的技术？

有时 CPU 花费大部分时间的循环经常会出现一些分支预测缺失错误预测概率接近 0 5 我见过一些关于非常孤立的线程的技术但从未见过一个列表我所知道的已经修复了条件可以转换为布尔值并且以某种方式使用 0 1 进行更改的情况还有其他可
Solr中如何对多个字段进行嵌套聚合？

我正在尝试以嵌套方式按多个字段执行搜索结果聚合计数和总和例如通过本文末尾显示的模式我希望能够获得按类别分组并按子类别进一步细分的大小的总和并得到如下所示的内容
Android Studio：“无法获取 org.gradle.api.Project 类型项目的未知属性‘VERSION_NAME’”

我是 Android Studio 的新手我正在尝试使用这个项目库 https github com 2dxgujun AndroidTagGroup https github com 2dxgujun AndroidTagGroup在我
如何在 IndexedDB 的一个事务中放置多个请求

我的代码如下 var f1 function trans var store trans objectStore ObjectStore store clear var f2 function trans var store trans o
我如何测试 cookie 是否使用 php 设置，如果未设置则不执行任何操作

我试过了 cookie COOKIE cookie 如果未设置 cookie 则会出现错误 PHP ERROR Undefined index cookie 我如何防止它给我一个空变量 gt Use isset http php net i
如何获取mongoDB集合的排名位置？

我有一个 mongoDB 集合如下所示 id 1 name John Doe company Acme email email protected cdn cgi l email protection matches 171844 169
适用于 Android 的 Google Chrome 远程调试 - “localhost:9222”不可用

我正在按照步骤启用远程调试 https developers google com chrome mobile docs debugging https developers google com chrome mobile docs de
为什么 .filter() 在 Internet Explorer 8 中不起作用？

这是行 songs songs filter function el return el album album 这是错误对象不支持此属性或方法这在 Chrome 中 100 正常工作这是怎么回事 Array filter 直到版本
Intellij IDEA 部署缓慢（已过时）

安装新版本的 IDEA 14 后 maven 项目的部署显着增加从 15 秒增加到 47 秒 REASON IDEA用途bundledMaven 版本解决方案设置 ctrl alt S gt Maven gt Maven home d
实施个人用户帐户和 Azure AD 身份验证

我想看看是否可以在单个应用程序中同时使用个人用户帐户身份验证和 Azure AD 身份验证框架或核心 ASP NET 到目前为止我一直在谷歌搜索但我没有找到任何明确说明可以做到这一点的内容其次除了个人广告或天蓝色广告的基础知识记
在 Jetpack Compose 中导航到没有先前支架的另一个屏幕

我的应用程序有一个带有脚手架和底部导航栏的主屏幕 override fun onCreate savedInstanceState Bundle super onCreate savedInstanceState setContent va
如何使用导航架构组件创建BottomSheetDialogFragment？

我在用BottomSheetDialogFragment用于显示一些自定义设置要求当我单击 BottomSheetDialogFragment 中的任何选项卡时我会替换该片段并将其添加到后台堆栈以便当用户单击 onBackPress
如何测试字符串包含列表中的元素并通过 Pandas 将目标元素分配给另一列

我有一个一栏列表展示了一些公司名称其中一些名称包含国家地区名称例如中国 A1 中的中国芬兰的 C1 中的芬兰我想根据公司名称和由国家地区名称组成的预定义列表提取其所属国家地区原始数据框df像这样显示 Company
从另一个文件执行 php

我有 1 个模板文件它包含在主文件中一些模板在主文件中我将文件读入 1 个变量并显示它当然 php 脚本不会在那里运行我怎样才能做到这一点我想要什么 Thanks 你可以使用include读取并处理文件如果您需要对结果进行后
如何“newtype”IntSet？

谢谢newtype和GeneralizedNewtypeDeriving扩展我们可以毫不费力地定义不同的轻量级类型 newtype PersonId PersonId Int deriving Eq Ord Show NFData new
JavaScript 中仍然不推荐“new”吗？

所以我看到很多 JavaScript 代码在创建构造函数时使用 new 在阅读了 JavaScript the Good Parts 的一部分之后似乎使用 new 并不是猫的睡衣那是4年前的事了还是不推荐吗目前的标准是什么从什么时
相当于 PHP multi_query 的 Codeigniter 是什么

使用 PHP 我编写了一个像这样的多重查询 MySQL string UPDATE table SET name joe WHERE ID 1 MySQL string UPDATE table SET name Jane WHERE ID
tstr在一轮中拆分到不同的列

我有一个如下表 myDT lt fread id other strformat content 1 other1 A B a1 b1 2 other2 A C a2 c2 3 other3 B A C b3 a3 c3 4 other4

tstr在一轮中拆分到不同的列

tstr在一轮中拆分到不同的列 的相关文章

随机推荐

热门标签

tstr在一轮中拆分到不同的列的相关文章