R plyr，data.table，应用data.frame的某些列

2024-04-05

我正在寻找加速我的代码的方法。我正在调查apply/ply方法以及data.table。不幸的是，我遇到了问题。

这里有一个small样本数据：

ids1   <- c(1, 1, 1, 1, 2, 2, 2, 2)
ids2   <- c(1, 2, 3, 4, 1, 2, 3, 4)
chars1 <- c("aa", " bb ", "__cc__", "dd  ", "__ee", NA,NA, "n/a")
chars2 <- c("vv", "_ ww_", "  xx  ", "yy__", "  zz", NA, "n/a", "n/a")
data   <- data.frame(col1 = ids1, col2 = ids2, 
                 col3 = chars1, col4 = chars2, 
          stringsAsFactors = FALSE)

这是使用循环的解决方案：

library("plyr")
cols_to_fix <- c("col3","col4")
for (i in 1:length(cols_to_fix)) {
  data[,cols_to_fix[i]] <- gsub("_", "", data[,cols_to_fix[i]])
  data[,cols_to_fix[i]] <- gsub(" ", "", data[,cols_to_fix[i]])
  data[,cols_to_fix[i]] <- ifelse(data[,cols_to_fix[i]]=="n/a", NA, data[,cols_to_fix[i]])
}

我最初看着ddply，但我想使用的某些方法仅采用向量。因此，我不知道该怎么做ddply仅一一跨越某些列。

另外，我一直在看laply，但我想退回原来的data.frame随着变化。谁能帮我？谢谢。

根据之前的建议，这是我尝试使用的plyr包裹。

选项1：

data[,cols_to_fix] <- aaply(data[,cols_to_fix],2, function(x){
   x <- gsub("_", "", x,perl=TRUE)
   x <- gsub(" ", "", x,perl=TRUE)
   x <- ifelse(x=="n/a", NA, x)
},.progress = "text",.drop = FALSE)

选项2：

data[,cols_to_fix] <- alply(data[,cols_to_fix],2, function(x){
   x <- gsub("_", "", x,perl=TRUE)
   x <- gsub(" ", "", x,perl=TRUE)
   x <- ifelse(x=="n/a", NA, x)
},.progress = "text")

选项 3：

data[,cols_to_fix] <- adply(data[,cols_to_fix],2, function(x){
   x <- gsub("_", "", x,perl=TRUE)
   x <- gsub(" ", "", x,perl=TRUE)
   x <- ifelse(x=="n/a", NA, x)
},.progress = "text")

这些都没有给我正确的答案。

apply效果很好，但我的数据非常大，进度条来自plyr包会非常好。再次感谢。

这是一个data.table解决方案使用set.

require(data.table)
DT <- data.table(data)
for (j in cols_to_fix) {
    set(DT, i=NULL, j=j, value=gsub("[ _]", "", DT[[j]], perl=TRUE))
    set(DT, i=which(DT[[j]] == "n/a"), j=j, value=NA_character_)
}

DT
#    col1 col2 col3 col4
# 1:    1    1   aa   vv
# 2:    1    2   bb   ww
# 3:    1    3   cc   xx
# 4:    1    4   dd   yy
# 5:    2    1   ee   zz
# 6:    2    2   NA   NA
# 7:    2    3   NA   NA
# 8:    2    4   NA   NA

第一行内容为：在 DT 中为所有 i(=NULL) 和 column=j 设置值 gsub(..)。
第二行内容为：在 DT 中设置，其中 i(=condn) 和列=j，值为 NA_character_。

注意：使用 PCRE (perl=TRUE）具有很好的加速效果，尤其是在较大的向量上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

plyr

apply

R plyr，data.table，应用data.frame的某些列的相关文章

条形图中的并排条形

这是基于这个帖子 https stackoverflow com questions 26913954 make barplot in ggplot2 with summary statistics noredirect 1 comment
R 中的县等值区域地图的阿拉斯加和夏威夷格式不正确

我正在尝试将美国的 Choropleth 地图格式化为特定颜色不幸的是当使用scale fill brewer改变颜色只有 48 个州这样做夏威夷和阿拉斯加没有是否可以知道我是否也可以将着色应用到夏威夷和阿拉斯加 library
如何在 Ubuntu 9.10 上安装 R 软件包 rgl？ [复制]

这个问题在这里已经有答案了可能的重复安装 rgl 时出现问题 https stackoverflow com questions 7473067 problem installing rgl 我正在尝试在 Ubuntu 9 10 上安装
因子不因式分解绘图的 x 轴标签

我有一个从 Excel 导入的数据框其中一列的格式为 dates Oct 17 Nov 17 Dec 17 Jan 18 Feb 18 Mar 18 Apr 18 May 18 Jun 18 Jul 18 Aug 18 所有其他列都只是数
通过使用 dplyr 对变量进行分组来将多列的响应制成表格

你好我是 plyr dplyr 系列的新手但很喜欢它我可以看到它对我自己的工作有巨大的实用性但我仍在努力解决它我有一个如下所示的数据框 1 如何为每个非分组变量生成一个表格以显示分组变量每个值内的响应分布 2 注意我确实有一些
根据上一行（data.table）中的值计算单元格中的值的快速方法

假设我有以下数据集dt和一个常数constant dt lt structure list var1 c 92186 7470607738 19163 5035325072 18178 8396858014 9844 67882723287
使用 cut 为时间变量创建 24 个类别

在这里我导入数据对其进行一些操作这可能不是问题修复所在前两行设置了我的剪切参数 lab var num lt 0 24 times var lt c 0 100 200 300 400 500 600 700 800 900 10
使用 pmap 迭代 tibble 的行

我有一个非常简单的 tibble 我想迭代它的行以应用函数pmap功能我想我可能误解了一些观点pmap函数但我大多很难选择参数所以我想知道我是否应该使用rowwise在这种情况下函数pmap或不不过我还没见过案例另一个问题是使用
如何编写循环来运行数据框的 t 检验？

我遇到了对数据框中存储的某些数据运行 t 检验的问题我知道如何一一做但效率很低请问如何写一个循环来实现呢例如我在testData中获取了数据 testData lt dput testData structure list Lab
带插入符的主成分分析

我正在使用 Caret 的 PCI 预处理 multinomFit lt train LoanStatus train method multinom std TRUE family binomial metric ROC thresh 0
提取字符串中最后一个句点后的文本[重复]

这个问题在这里已经有答案了我意识到这个问题对于大多数正则表达式大师来说可能看起来非常简单但是回顾类似的问题并没有得出解决方案我有一个电子邮件地址向量称为email并希望在每个最后一个句点之后提取文本举例来说 email lt c
使用 KnitR 在 R 中以编程方式创建 Markdown 表

我刚刚开始了解 KnitR 以及使用 Markdown 生成 R 文档和报告这对于我与工作有关的许多日常报告来说似乎是完美的然而我没有看到的一件事是使用 Markdown 格式打印数据框和表格的简单方法有点像xtable 但使用 M
使用ggmap在地图上绘制等高线

我有洛杉矶港地区的颗粒物浓度差异之后之前我正在尝试使用 ggmap 在地图上绘制浓度等值线但结果看起来很不同我使用的代码如下所示数据位于代码下方 Code 安装 packages ggmap library ggmap PM r
如何将零件逐一添加到闪亮的图表中

我正在尝试为我的统计课程制作一些演示除此之外我想展示所涉及的逐步过程对于我正在寻找的简化示例请考虑以下小玩具 R 函数 toyPlot lt function x lt 1 100 100 y lt x rnorm 100 0 0
在 R 中从一条线偏移绘制一条平行线

我有代表沿着一些街道行驶的线串但我实际上想代表骑自行车者的旅程它偏离线路即他们在路边附近行驶我正在努力思考如何去做我制作了一段可重现的 R 代码来进行说明 Let s say I have a route along some s
R如何删除字符串中非常特殊的字符？

我正在尝试删除字符串中的一些非常特殊的字符我读过其他帖子例如从 R 中的字符串中删除所有特殊字符 https stackoverflow com questions 10294284 remove all special charac
R Notebook 预览中的奇怪字符

当我预览 R Notebook 时 HTML 输出包含奇怪的字符该块代码和输出在 HTML 中呈现为我应该如何解决这个问题会话信息 R版本3 6 0 2019 04 26 平台 x86 64 w64 mingw32 x64 64位
R mapbox / 带有动画和 shapefile 的绘图

我正在制作一个动画显示地图上绘制的空间数据并带有基于日期的动画滑块除此之外我想绘制一个随时间变化的形状文件我的动画在没有 shapefile 的情况下也能正常工作绘制标记和形状文件不会显示形状文件似乎是两者之间的某种脱节add
如何在data.table中编写累积计算

顺序累积计算我需要进行时间序列计算其中每行计算的值取决于上一行计算的结果我希望能够利用data table 实际问题是水文模型累积水平衡计算在每个时间步长增加降雨量并减去径流和蒸发作为当前水量的函数该数据集包括不同的流域和场景
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000

随机推荐

如何在 Python 中将日期时间转换为 UTC 时间戳？

From http docs python org library time html http docs python org library time html 时间 mktime t 这是 localtime 的反函数它的论据是 s
使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件

我有一个从 WHO 网站下载的 CSV 文件 http apps who int gho data view main 52160 http apps who int gho data view main 52160 下载 CSV 格式的多
如何使用 R 编辑或修改或更改大型文本文件中的单行

我正在使用 R 将一些大型文本文件读入数据库但它们包含数据库软件的非法字段名称大型文本文件的列名仅在第一行中是否可以仅编辑第一行而不循环遍历文件中的每一行这似乎浪费资源这是我尝试对一些示例数据执行的操作的两个示例第一个将所有内容
如何在 Laravel 中使用 SQL Server 连接？

我有一个用 Laravel 3 制作的工作项目我必须切换到 MsSQL Server 虽然不是我的电话嗅探但我不明白这种数据库类型的 Laravel 配置我把里面默认的改了database php对此 default gt sqls
MPAndroidChart - 向条形图添加标签

我的应用程序有必要在条形图的每个条形上都有一个标签有没有办法用 MPAndroidChart 做到这一点我在项目 wiki javadocs 上找不到执行此操作的方法如果没有办法做到这一点是否有其他软件可以让我做到这一点更新答案
使用四舍五入毫秒从时间戳获取格式化日期 Bash Shell 脚本

我需要获取特定格式的日期但不知道该怎么做这是我目前获取日期的方法 date r timestamp Y m dT H M S s 然而问题是毫秒对于我需要的格式来说有太多数字我需要将毫秒限制为 3 位数字知道我该怎么做这样的事情吗
如何使图像表现得像文件输入？

单击默认照片时用户应该从计算机中选择一个文件而不是制作一个文件input type file 这使得用户首先单击浏览按钮而不是选择文件用户应直接单击默认照片然后会出现一个文件选择窗口
Objective-c：NSString 到枚举

所以我有这样的定义 typedef enum red 1 blue 2 white 3 car colors 然后我有一个 car colors 类型的变量 car colors myCar 问题是我在 NSString 中收到汽车的
错误类型错误：无法设置未定义的属性“分页器”

我正在使用表格角度材料创建表格作为参考我正在使用这个例子https material angular io components table examples https material angular io components t
如何在 Android 中通过 POST 请求查询 Web 服务？

我完全陌生网络要素服务 WFS http en wikipedia org wiki Web Feature Service但我想构建一个 Android 应用程序ksoap2 android http code google com p
Spark 应用程序如何使用 sbt run 启动。

我实际上想知道当我执行时这是如何发生的底层机制sbt runSpark 应用程序启动这与在独立模式下运行 Spark 然后使用 Spark Submit 部署应用程序有什么区别如果有人可以解释如何提交 jar 以及谁创建任务并在这两种情
C# XML 反序列化，其中根节点有时具有名称空间属性

我正在尝试从 XML 文档中读取 PackageReferences 我的 xml 文件如下所示
在client和serviceWorker之间传输数据

我想尝试在 serviceWorker 中运行 websockets 我编写了注册serviceWorker的代码 if serviceWorker in navigator navigator serviceWorker register
SendInput 不会将基本 Unicode 发送到某些窗口

我在 C 中遇到这个项目的问题当使用 WinAPI SendInput 函数时
Excel VBA：为什么没有添加任何后续系列？

我试图将大约 200 个系列绘制到一个图表上并尝试使用 for 循环为我绘制所有系列但是当我运行以下代码时只有第一个系列不在 for 循环中实际上进入了图表 for 循环生成的所有其他内容都没有显示我不知道为什么 Sub Ma
如何禁用/启用复选框激活中的 PayPal 按钮？

我的网站上有一个页面设置为定期付款但我想禁用 PayPal 结账按钮直到有人选中同意我的服务条款的框你能帮我弄清楚如何正确地做到这一点吗谢谢布拉德 p class hidden Please check the checkbox
httplib.InvalidURL：非数字端口：

我正在尝试编写一个脚本来检查是否存在许多网址 import httplib with open urls txt as urls for url in urls connection httplib HTTPConnection url c
我如何强制浮动 DIV 匹配另一个浮动 DIV 的高度？

我的 HTML 代码只是将页面分为两列分别为 65 35 div style width 65 height 1 background color FDD017 div div div div style width 35 height
@XmlPath 在 JAXB 编组期间没有影响

我正在尝试使用创建 XMLJaxB Marshalling方法我想跳过某些子项的父标签或者可能添加新的XML某个元素的父标签因此我尝试使用 XmlPath from import org eclipse persistence oxm
R plyr，data.table，应用data.frame的某些列

我正在寻找加速我的代码的方法我正在调查apply ply方法以及data table 不幸的是我遇到了问题这里有一个small样本数据 ids1 lt c 1 1 1 1 2 2 2 2 ids2 lt c 1 2 3 4 1 2 3

R plyr，data.table，应用data.frame的某些列

R plyr，data.table，应用data.frame的某些列 的相关文章

随机推荐

热门标签

R plyr，data.table，应用data.frame的某些列的相关文章