data.table 逐行求和、平均值、最小值、最大值，如 dplyr？

2024-05-03

还有其他关于数据表上的行式运算符的帖子。他们要么是太简单 https://stackoverflow.com/questions/7885147/efficient-row-wise-operations-on-a-data-table或解决一个具体场景 https://stackoverflow.com/questions/21275192/row-wise-operation-on-data-table

我的问题更笼统。有一个使用 dplyr 的解决方案。我已经尝试过，但未能找到使用 data.table 语法的等效解决方案。您能否建议一个优雅的 data.table 解决方案来重现与 dplyr 版本相同的结果？

EDIT 1：实际数据集（10MB，73000 行，24 个数字列的统计数据）上建议解决方案的基准摘要。基准测试结果是主观的。然而，经过的时间是一致可再现的。

| Solution By | Speed compared to dplyr     |
|-------------|-----------------------------|
| Metrics v1  |  4.3 times SLOWER (use .SD) |
| Metrics v2  |  5.6 times FASTER           |
| ExperimenteR| 15   times FASTER           |
| Arun v1     |  3   times FASTER (Map func)|
| Arun v2     |  3   times FASTER (foo func)|
| Ista        |  4.5 times FASTER           |

EDIT 2：一天后我添加了 NACount 列。这就是为什么在各个贡献者建议的解决方案中找不到此专栏的原因。

数据设置

library(data.table)
dt <- data.table(ProductName = c("Lettuce", "Beetroot", "Spinach", "Kale", "Carrot"),
    Country = c("CA", "FR", "FR", "CA", "CA"),
    Q1 = c(NA, 61, 40, 54, NA), Q2 = c(22,  8, NA,  5, NA),
    Q3 = c(51, NA, NA, 16, NA), Q4 = c(79, 10, 49, NA, NA))

#    ProductName Country Q1 Q2 Q3 Q4
# 1:     Lettuce      CA NA 22 51 79
# 2:    Beetroot      FR 61  8 NA 10
# 3:     Spinach      FR 40 NA NA 49
# 4:        Kale      CA 54  5 16 NA
# 5:      Carrot      CA NA NA NA NA

使用 dplyr + rowwise() 的解决方案

library(dplyr) ; library(magrittr)
dt %>% rowwise() %>% 
    transmute(ProductName, Country, Q1, Q2, Q3, Q4,
     AVG = mean(c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     MIN = min (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     MAX = max (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     SUM = sum (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
     NAcnt= sum(is.na(c(Q1, Q2, Q3, Q4))))

#   ProductName Country Q1 Q2 Q3 Q4      AVG MIN  MAX SUM NAcnt
# 1     Lettuce      CA NA 22 51 79 50.66667  22   79 152     1
# 2    Beetroot      FR 61  8 NA 10 26.33333   8   61  79     1
# 3     Spinach      FR 40 NA NA 49 44.50000  40   49  89     2
# 4        Kale      CA 54  5 16 NA 25.00000   5   54  75     1
# 5      Carrot      CA NA NA NA NA      NaN Inf -Inf   0     4

data.table 出现错误（计算整列而不是每行）

dt[, .(ProductName, Country, Q1, Q2, Q3, Q4,
    AVG = mean(c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    MIN = min (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    MAX = max (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    SUM = sum (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
    NAcnt= sum(is.na(c(Q1, Q2, Q3, Q4))))]

#    ProductName Country Q1 Q2 Q3 Q4      AVG MIN MAX SUM NAcnt
# 1:     Lettuce      CA NA 22 51 79 35.90909   5  79 395     9
# 2:    Beetroot      FR 61  8 NA 10 35.90909   5  79 395     9
# 3:     Spinach      FR 40 NA NA 49 35.90909   5  79 395     9
# 4:        Kale      CA 54  5 16 NA 35.90909   5  79 395     9
# 5:      Carrot      CA NA NA NA NA 35.90909   5  79 395     9

几乎是解决方案，但更复杂且缺少 Q1、Q2、Q3、Q4 输出列

dtmelt <- reshape2::melt(dt, id=c("ProductName", "Country"),
            variable.name="Quarter", value.name="Qty")

dtmelt[, .(AVG = mean(Qty, na.rm=TRUE),
    MIN = min (Qty, na.rm=TRUE),
    MAX = max (Qty, na.rm=TRUE),
    SUM = sum (Qty, na.rm=TRUE),
    NAcnt= sum(is.na(Qty))), by = list(ProductName, Country)]

#    ProductName Country      AVG MIN  MAX SUM NAcnt
# 1:     Lettuce      CA 50.66667  22   79 152     1
# 2:    Beetroot      FR 26.33333   8   61  79     1
# 3:     Spinach      FR 44.50000  40   49  89     2
# 4:        Kale      CA 25.00000   5   54  75     1
# 5:      Carrot      CA      NaN Inf -Inf   0     4

您可以使用高效的逐行函数matrixStats包裹。

library(matrixStats)
dt[, `:=`(MIN = rowMins(as.matrix(.SD), na.rm=T),
          MAX = rowMaxs(as.matrix(.SD), na.rm=T),
          AVG = rowMeans(.SD, na.rm=T),
          SUM = rowSums(.SD, na.rm=T)), .SDcols=c(Q1, Q2,Q3,Q4)]

dt
#    ProductName Country Q1 Q2 Q3 Q4 MIN  MAX      AVG SUM
# 1:     Lettuce      CA NA 22 51 79  22   79 50.66667 152
# 2:    Beetroot      FR 61  8 NA 10   8   61 26.33333  79
# 3:     Spinach      FR 40 NA 79 49  40   79 56.00000 168
# 4:        Kale      CA 54  5 16 NA   5   54 25.00000  75
# 5:      Carrot      CA NA NA NA NA Inf -Inf      NaN   0

对于具有 500000 行的数据集（使用data.table来自克兰）

dt <- rbindlist(lapply(1:100000, function(i)dt))
system.time(dt[, `:=`(MIN = rowMins(as.matrix(.SD), na.rm=T),
                      MAX = rowMaxs(as.matrix(.SD), na.rm=T),
                      AVG = rowMeans(.SD, na.rm=T),
                      SUM = rowSums(.SD, na.rm=T)), .SDcols=c("Q1", "Q2","Q3","Q4")])
#  user  system elapsed 
# 0.089   0.004   0.093

rowwise (or by=1:nrow(dt)) 是“委婉说法”for loop，例如

library(dplyr) ; library(magrittr)
system.time(dt %>% rowwise() %>% 
  transmute(ProductName, Country, Q1, Q2, Q3, Q4,
            MIN = min (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
            MAX = max (c(Q1, Q2, Q3, Q4), na.rm=TRUE),
            AVG = mean(c(Q1, Q2, Q3, Q4), na.rm=TRUE),
            SUM = sum (c(Q1, Q2, Q3, Q4), na.rm=TRUE)))
#   user  system elapsed 
# 80.832   0.111  80.974 

system.time(dt[, `:=`(AVG= mean(as.numeric(.SD),na.rm=TRUE),MIN = min(.SD, na.rm=TRUE),MAX = max(.SD, na.rm=TRUE),SUM = sum(.SD, na.rm=TRUE)),.SDcols=c("Q1", "Q2","Q3","Q4"),by=1:nrow(dt)] )
#    user  system elapsed 
# 141.492   0.196 141.757

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

data.table 逐行求和、平均值、最小值、最大值，如 dplyr？的相关文章

使用点阵个性化 R 上显示的 X 轴值

我收集了大量包含日期客户端及其 NFS 使用情况的数据我正在使用lattice R包进行绘图正如对超级用户的建议 https superuser com questions 523195 plot custom log data on
使用数据帧的 R 中的 EWMA 波动性

我正在尝试从一系列股票每日收益中获取 EWMA 波动性这些收益来自一个名为base retorno diario Data IBOV ABEV3 AEDU3 ALLL3 BBAS3 BBDC3 BBDC4 1 2000 01 04 0 0
如何将旋转的 NetCDF 转换回正常的纬度/经度网格？

我有一个带有旋转坐标的 NetCDF 文件我需要将其转换为正常的纬度经度坐标经度为 180到180 纬度为 90到90 library ncdf4 nc open dat nf 对于尺寸它显示 1 5 variables exclu
R：单纯形错误：在下标赋值中不允许使用 NA

对于以下具有目标函数和约束的最小化 boot simplex返回错误 Error in tab pr lt tab pr tab pr pc pv o tab pr NAs are not allowed in subscripted as
无法编译包“maps”

当我安装 maps 包时安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
无法将“gather”输出的列名称更改为默认名称以外的任何名称

我正在尝试使用gather in the tidyr包但我无法更改默认名称的输出列名称例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
R：改变堆积条形图的颜色

library ggplot2 df2 lt data frame supp rep c VC OJ each 3 dose rep c D0 5 D1 D2 2 len c 6 8 15 33 4 2 10 29 5 head df2 g
如何在R中分离两个图？

每当我运行这段代码时第一个图就会简单地覆盖前一个图 R中有没有办法分开得到两个图 plot pc title main abc xlab xx ylab yy plot pcs title main sdf xlab sdf ylab x
更改绘图区域背景颜色

我想使用我们公司的颜色在 R 中制作一个图表这意味着所有图表的背景应为浅蓝色但绘图区域应为白色我正在寻找答案发现绘制一个矩形就可以完成这项工作几乎然而绘图区域现在是白色的并且图形不再可见这可能吗 getSymbols SP
如何使用 dplyr 管道将额外参数传递给 purrr::map

我有以下数据框和功能 param df lt data frame x 1 3 0 1 y 3 1 0 2 param df gt x y gt 1 1 1 2 8 gt 2 2 1 1 8 gt 3 3 1 0 8 my function
如何根据多个条件创建列？

我有一个数据框我想根据多个条件创建一个列 v1 v2 v3 v4 v5 4 1 2 4 5 5 5 2 4 5 6 21 9 20 30 50 6 4 5 7 9 10 3 6 5 9 基本上使用以下可能的值创建 v6 Cat dog
devtools::test() 有效，但 devtools::check() 无效。为什么？

我正在测试this https github com beanumber etlR 包以下三件事就可以正常工作 devtools test devtools test file tests testthat R Travis CI 与 R
R：根据列名部分匹配计算行平均值

我有一个看起来像这样的表 er er 1 as as 1 as 2 rt op a 1 6 90 8 6 4 87 b 1 8 56 7 5 5 9 c 8 7 6 4 5 9 6 d 1 0 8 6 4 3 6 e 9 7 2 4 3 8
上传到 Shiny 服务器后在 R 中解压文件

我正在尝试在我们的本地服务器上使用 Shiny 来构建一个应用程序允许用户上传包含 ESRI shapefile 和关联文件的 zip 文件 Shiny 服务器的 fileInput 可以获取数据并且当它这样做时它会将其存储在临时目录
使用操作按钮在闪亮的 R 中添加包含现有数据框的新行

我正在构建一个闪亮的表单它将从 textInput 字段获取数据并将这些输入与文本文件将通过文件输入上传组合起来并在主面板中显示输出有一个操作按钮用于第一次更新数据从文本输入中获取数据并与处理后的文本文件合并我添加了另一个操
将文件名附加到 R 中的数据框

我想将文件名附加到我的表中但它似乎并没有真正起作用我正在做的是迭代文件名列表打开它们将所有数据附加到一个数据帧对于每个附加文件我想添加其文件名我希望将其附加到每一行以便稍后当我查看数据时我会知道给定行源自哪个文件但似乎并
使用行内 r 代码作为 R markdown 标头的一部分

我希望使用行 R 代码作为 r markdown 文件中标头的一部分然而当我编织文件时标题上使用的字体是不同的如何确保字体相同下面是一个简单的例子 r 1 1 Header 您可以将内容括在反引号中以表示内联 r 代码如下所示
用于安装 R 软件包的备用编译器：clang：错误：不支持的选项“-fopenmp”

我正在尝试在 OS X 10 11 6 上使用 R 版本 3 4 0 安装 rJava 包 install packages rJava type source 我收到以下错误 clang o libjri jnilib Rengine o
使用括号表示 y 轴上的负值 ggplot2

我想在括号中显示 y 轴负值而不是用负号例如我想显示 2 000 而不是 2 000 我在 R 中使用 ggplot2 我尝试在scale y continuous内部使用 negative parens TRUE 如下所示但没有成

随机推荐

在 Beyond Compare 中比较 Json 文件

如何在 Beyond Compare 中比较两个缩小的 json 文件是否有内置的 json 文件格式我正在寻找比较底层 json 对象的两个漂亮的打印表示 In 这个线程 https www scootersoftware com v
使用 pandas 进行操作SettingWithCopyWarning

我试着delete某些列并转换列中的某些值 df2 drop df2 columns 0 1 3 axis 1 inplace True df2 date df2 date map lambda x str x 1 df2 date df2
Git：设置仅获取远程？

当我跑步时git remote v在我配置了远程的 Git 存储库之一中我看到每个远程都具有获取和推送规范 git remote v
将 lambda 函数应用于 pandas 滚动窗口系列

我有一个函数它接受一个数组和一个值并返回一个值我想将其应用到我的系列中s在滚动的基础上所以数组始终是滚动窗口这是我尝试过不成功的一个最小示例使用np random choice代替我真正的功能我找到了很多查找滚动均值和其
从 bazaar 转换为 git 并同步它们的正确方法

我在 bazaar 中有一个开发存储库我想将其转换为 git 并保持同步我需要这个因为我将与不了解 bazaar 的人分享我的代码首先我需要将我的 bazaar 存储库转换为 git 我用谷歌搜索了一下发现this http as
jersey.api.client.WebResource - 如何调试/记录请求标头

我正在使用 jersey 生成 http 请求我希望能够看到request在发送之前用于调试目的例如 WebResource resource client resource url resource header aa bb res
如何使用MonkeyDevice.instrument？

嗨大家好我正在尝试从 MonkeyRunner 脚本运行我的测试仪器之一不幸的是我无法让它工作我尝试使用不同的参数变量调用 MonkeyDevice instrument 但没有成功我试过了设备 MonkeyRunner wai
与 EOF 比较时使用 int 作为字符类型

引自 Kernighan 和 Ritchie 的 C 编程语言第 16 页 include
使用 Selenium 自动化结帐流程时出现 403

我正在尝试使用 python 和 selenium 创建一个脚本来自动执行 bestbuy ca 的结帐过程我一直到达最后阶段您可以单击以查看最终订单但当我尝试单击到最后一步时收到以下 403 禁止消息如网络响应中所示是否有服务
当目录中同时添加很多文件时FileSystemWatcher无法正常工作

当许多文件同时添加到目录中时 FileSystemWatcher 无法正常工作观察者根本找不到目录中的所有文件仅当文件被一一放置在文件夹中时如果大量文件同时复制到文件夹中则不会线程的创建是问题的解决方案还是有其他方法来处理问题 Th
分割如何提高埃拉托斯特尼筛法的运行时间？

我遇到了埃拉托色尼筛的分段实现它的运行速度比传统版本快很多倍有人可以解释一下分段如何提高运行时间吗请注意我想在其中找到素数 1 b 它适用于这个想法用于查找 10 9 之前的质数我们首先生成 sqrt 10 9 以下的筛选素数
如何使用 iText 将 HTML 转换为 PDF [重复]

这个问题在这里已经有答案了 import java io File import java io FileOutputStream import java io OutputStream import com itextpdf text D
如何在两个或多个 Servlet 之间共享变量或对象？

我想知道是否有某种方法可以在两个或多个 Servlet 之间共享变量或对象我的意思是某种标准方法我认为这不是一个好的做法但却是构建原型的更简单的方法我不知道这是否取决于所使用的技术但我会使用 Tomcat 5 5 我想共享一个
使用单个共享后台线程进行 iOS 数据处理？

我有一个应用程序可以从网络下载大量资源并对每个资源进行一些处理我不希望这项工作发生在主线程上但它非常轻量级且优先级低因此所有这些都可以真正发生在同一个共享工作线程上这似乎是一件好事因为设置和拆除所有这些工作线程都需要工作没有
如何解决“程序主模块为空：运行时不会发生任何事情”

我在 F 解决方案中有两个项目 1 主要项目有 EntryPoint http msdn microsoft com en us library dd402151 aspx并设置为启动项目 2 support 第二个项目拥有一组支持模块
为什么 CLR 为匿名方法创建新类？

我在我的项目中也使用了匿名函数直到知道我在想 C 编译器仅使用用于匿名方法的代码生成一个方法在同一个班但是在 IL 中反编译这段代码后我看到 CLR 创建了一个新类 public class Comparer public dele
如何在使用 NHibernate 进行任何插入之前增加 ID

看起来NH只获取一次MAX ID 第一次插入然后在内部存储这个值这会在其他进程插入数据时给我带来一些问题然后我没有实际的 ID 并且抛出重复键异常假设我们有桌子Cats CREATE TABLE Cats ID int Name va
如何在Python程序中嵌入Google Speech to Text API？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个项目在其中创建了客户端和主机之间的聊天程序并且我必须在其中嵌入语音到文本有什么方法可以在
将毫秒时间戳解析为 R 中的时间

我以前曾问过这个问题但我找不到确切的答案如果我有一个代表自午夜以来的毫秒数的数字例如 34200577 我如何将其转换为 R 时间在午夜构造一个基线时间添加给定的毫秒一旦转换为秒并解释为时间 R gt as POSIXct as
data.table 逐行求和、平均值、最小值、最大值，如 dplyr？

还有其他关于数据表上的行式运算符的帖子他们要么是太简单 https stackoverflow com questions 7885147 efficient row wise operations on a data table或解决一

data.table 逐行求和、平均值、最小值、最大值，如 dplyr？

data.table 逐行求和、平均值、最小值、最大值，如 dplyr？ 的相关文章

随机推荐

热门标签

data.table 逐行求和、平均值、最小值、最大值，如 dplyr？的相关文章