如何对 data.table 中的 .SD 列进行行明智操作

2023-11-30

虽然我之前已经弄清楚了这一点，但我仍然发现自己在 stackoverflow 上搜索（并且无法找到）这个语法，所以......

我想对 data.table 列的子集进行行明智操作，使用.SD and .SDcols。我永远不记得手术是否需要sapply, lapply，或者如果属于括号内.SD.

举例来说，假设您有两个季度 10 名学生的数据。在两个季度，他们都有两次考试和一次期末考试。如何对以 q1 开头的列取直接平均值？

由于过于琐碎的示例很烦人，我还想计算以 q2 开头的列的加权平均值？（q2 的权重 = 25%、25% 和 50%）

library(data.table)

set.seed(10)
dt <- data.table(id = paste0("student_", sprintf("%02.f" , 1:10)),
                 q1_exam1 = round(rnorm(10, .78, .05), 2),
                 q1_exam2 = round(rnorm(10, .68, .02), 2),
                 q1_final = round(rnorm(10, .88, .08), 2),
                 q2_exam1 = round(rnorm(10, .78, .05), 2),
                 q2_exam2 = round(rnorm(10, .68, .10), 2),
                 q2_final = round(rnorm(10, .88, .04), 2))

dt
# > dt
#             id q1_exam1 q1_exam2 q1_final q2_exam1 q2_exam2 q2_final
#  1: student_01     0.78     0.70     0.83     0.69     0.79     0.86
#  2: student_02     0.77     0.70     0.71     0.78     0.60     0.87
#  3: student_03     0.71     0.68     0.83     0.83     0.60     0.93
#  4: student_04     0.75     0.70     0.71     0.79     0.76     0.97
#  5: student_05     0.79     0.69     0.78     0.71     0.58     0.90
#  6: student_06     0.80     0.68     0.85     0.71     0.68     0.91
#  7: student_07     0.72     0.66     0.82     0.80     0.70     0.84
#  8: student_08     0.76     0.68     0.81     0.69     0.65     0.90
#  9: student_09     0.70     0.70     0.87     0.76     0.61     0.85
# 10: student_10     0.77     0.69     0.86     0.75     0.75     0.89

以下是关于您的选择的一些想法，主要来自评论：

apply沿着行

OP的方法使用apply(.,1,.)对于按行操作，但不鼓励这样做，因为它不必要地将 data.table 强制转换为矩阵。lapply/sapply也不适合，因为它们被设计为分别在每个列上工作，而不是组合它们。

rowMeans类似名称的函数也强制转换为矩阵。

按行分割

正如@Jaap所说，你可以使用by=1:nrow(dt)对于任何行操作，但它可能会很慢。

高效创建新列

这个方法取自eddi如果您必须以宽格式保存数据，这可能是最有效的：

jwts = list( 
  q1_AVG  = c(q1_exam1 = 1  , q1_exam2 = 1  , q1_final =   1)/3, 
  q2_WAVG = c(q1_exam1 = 1/4, q2_exam2 = 1/4, q2_final = 1/2)
)


for (newj in names(jwts)){
  w = jwts[[newj]]
  dt[, (newj) := Reduce("+", lapply(names(w), function(x) dt[[x]] * w[x]))]
}

这避免了对矩阵的强制并允许不同的加权规则（与rowMeans).

Go long

正如 @alexis_laz 所建议的，您可能会通过不同的结构获得清晰度和效率，例如

# reshape
m = melt(dt, id.vars="id", value.name="score")[,
  c("quarter","exam") := tstrsplit(variable, "_")][, variable := NULL]

# input your weighting rules
w = unique(m[,c("quarter","exam")])
w[quarter=="q1"                , wt := 1/.N]
w[quarter=="q2" & exam=="final", wt := .5]
w[quarter=="q2" & exam!="final", wt := (1-.5)/.N]

# merge and compute
m[w, on=c("quarter","exam")][, sum(score*wt), by=.(id,quarter)]

这就是我要做的。

无论如何，如果您想扩大季度数，您应该将加权规则明确存储在某个地方，而不是即时输入。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

rowwise

如何对 data.table 中的 .SD 列进行行明智操作的相关文章

按值对 geom_bar ggplot2 中的条形重新排序

我正在尝试制作一个条形图其中的图是从miRNA与最高的value to the miRNA与最低的为什么我的代码不起作用 gt head corr m miRNA variable value 1 mmu miR 532 3p pos
导出绘图变量显示空白图像

我正在使用 JRI 进行 java 和 R 集成请找到下面的脚本 String path C Users hrpatel Desktop CSVs DataNVOCT csv rengine eval library tseries re
使用带有字边界的 mgsub 函数作为替换值

我试图用空格替换向量中字符串元素的子字符串以下是我们正在考虑的向量 test lt c PALMA DE MALLORCA THE RICH AND THE POOR A CAMEL IN THE DESERT SANTANDER SL
如何在 R 中压缩多个 CSV 文件？

我正在尝试在 R 中压缩多个 CSV 文件下面是供参考的代码 Create two dataframes using inbuilt datasets for reproducible code df1 lt head mtcars df
将时间值转换为数字，同时保留时间特征

我有一个数据集其中包含不同事件发生的间隔时间我想要做的是将数据转换为数字向量以便更容易操作和运行摘要制作图表等同时保持其时间特征这是我的数据片段 data lt c 03 31 12 17 16 29 09 52 04 01 0
x[floor(d)] + x[ceiling(d)] 中的错误：二元运算符的非数字参数

我试图绘制病毒载量和试验组的简单箱线图但不断收到此错误 x floor d x ceiling d 中的错误二元运算符的非数字参数 dataset PatientID trial arm viral load 1 club 19 2 c
r - ggplot2 - 突出显示选定的点和奇怪的行为

我想突出显示选定的点并遇到一些奇怪的行为首先是一些虚拟数据 a lt 1 50 b lt rnorm 50 mydata lt data frame a a b b ggplot mydata aes x a y b geom point
将数据帧单列中的值向上移动

使用这样的示例数据 example data frame x c 1 2 3 4 5 6 7 8 y c 1 2 3 4 5 6 7 8 z c 1 2 3 4 5 6 7 8 看起来像这样 x y z 1 1 1 1 2 2 2 2 3
模糊匹配两个字符串 ur r

我有两个向量每个向量都包含一系列字符串例如 V1 c pen document folder warn V2 c pens copy folder warning 我需要找出哪两个最匹配我直接使用编辑距离但这还不够好就我而言钢笔
如何找到连续数字的区间开始和结束的位置？

我有一个向量 vec lt c 2 3 5 6 7 8 16 19 22 23 24 连续的数字是 c 2 3 c 5 6 7 8 c 22 23 24 所以第一个向量从 2 开始到 3 结束第二个向量从 5 开始到 8 结束对于第
如何有条件地选择一列，并从 R 中另一个有条件选择的列中的行中减去这些行中的值？

我知道我的问题标题很冗长可能很难理解所以我会尽力在这里解释一下这是一些示例数据 transactions lt tibble id seq 1 7 day paste rep day each 7 seq 1 7 sep sent t
我可以在 data.table 连接中访问“j”中重复的列名称吗？ [复制]

这个问题在这里已经有答案了如果我尝试连接两个具有相同列名的 data tables 那么 1附加到其中一个名称但我似乎无法访问该名称j的一部分DT 表达 Example DT1 data table name letters value
使用Shiny和Shinydashboard时如何使图标大小一致？

我在闪亮的应用程序中添加可点击的图标以显示弹出信息框请参阅以下屏幕截图和代码示例我的策略是将我的文本和代码包装起来actionLink in the HTML功能这效果很好然而图标的大小是由关联的大小决定的我想知道是否可以使所有
为什么R中的转置函数将数字转换为字符？

我在 Excel 中构建了一个简单的矩阵其中包含一些字符值和一些数值 Excel 中设置的数据的屏幕截图 https i stack imgur com UpQ1I png 我使用 openxlsx 包将其读入 R 如下所示 librar
绘图中的 R 科学记数法

我有一个简单的情节 usr bin Rscript png plot png y lt c 102 258 2314 x lt c 482563 922167 4462665 plot x y dev off R 使用 500 1000 1
使用 tidymodel 运行多个回归模型

我最近一直在使用 tidymodels 来运行模型并选择最能满足某些目标函数的参数例如对 mtcars 数据使用假设回归使用此问题底部答案中的回归示例作为示例 https stackoverflow com questions 241
ggplot2极坐标图轴标签位置

This is just a extension for a old question ggplot2 polar plot arrows https stackoverflow com questions 10515703 ggplot2
dplyr 中每组的 cumsum

我开始享受dplyr但我陷入了一个用例我希望能够申请cumsum数据框中的每个组与包但我似乎无法正确处理对于演示数据框我生成了以下数据 set seed 123 len 10 dates as Date 2014 01 01 1 l
R 使用 dplyr 将列移动到最后

对于 data frame 来说n列我希望能够从任何列移动列1 n 1 位置成为第 n 列即非最后一列成为最后一列我也想使用dplyr 我想这样做而不是简单地键入所有列的名称例如 data lt data frame a 1 5
条件格式 DT 中的样式

我想根据 B 列中的值对 A 列中的行进行着色下面的代码基于小插图中的示例Link https rstudio github io DT 010 style html 但仅显示两列的条件 mobile number by mobile f

随机推荐

PostgreSQL - 获取每个 GROUP BY 组中列的最大值的行

我正在处理一个 Postgres 表称为 lives 其中包含包含 time stamp usr id transaction id 和 lives remaining 列的记录我需要一个查询该查询将为我提供每个 usr id 的最近
Facebook Graph API tagged_places 返回空数组

我正在尝试获取用户标记地点但数组总是返回空如果我通过图形浏览器并生成一个令牌那么我会得到预期的结果但使用应用程序中生成的访问令牌我会返回一个空数组我要求用户标记地点许可我知道由于此许可要求我的应用程序必须接受审查但我现在只是使
html5 canvas弹性碰撞方块

我重新问这个问题是因为我在上一个问题中没有明确说明我想要什么有谁知道如何使用矩形在 Canvas 中进行弹性碰撞或处理碰撞或者能给我指出正确的方向吗我创建了一个具有多个正方形的画布并希望每个正方形在接触时发生偏转这是我整理的一个快
写入 selenium 数据时 CSV 为空

我正在第一次体验 Selenium 并在一个著名的视频平台上做了一些教程大多数时候它工作得相当可靠但是我遇到了一些问题创建了 CSV 但未导出数据 CSV 被触及但它不会导出正常打印中显示的数据谁能帮我看看这个脚本的问题出在哪
AngularJS 文本区域按 Enter 键换行

我正在开发一个 AngularJS 应用程序就像我们在 stackoverflow 上发布答案和问题一样我们可以在文本区域下方实时预览答案或问题这是我的试用代码索引 html div div
FormData.get 函数未定义

FormData get 在 Chrome 中未定义 https developer mozilla org en US docs Web API FormData get 默认情况下 Chrome 不支持 get 方法以及delete
使用 PDFBox 从 PDF 中读取某些 unicode 字符时出现问题

我是 PDFBOX 新手我正在阅读印地语的 PDF 文件我在使用 PDFBox 从 PDF 中读取某些 unicode 字符时遇到问题我想将字符串复制到 java 对象中以便我可以处理它我尝试了一些方法来读取文件 1 我尝试使用P
如何在分组项目页面中每组之前插入图像列表？

我目前正在使用 XAML 和 C 开发 Windows 8 应用程序我开发了动态生成数据组的分组项目页面我有一个社交媒体图标列表我需要将其放在每个组标题旁边但在左侧对齐如屏幕截图所示当我在 XAML 代码中添加列表时它会在第一
Makefile c++11 支持

我最近开始了一个 C 的小项目我创建了一个简单的 Makefile CC g CFLAGS std c 0x I c VPATH src include vpath c src vpath h include TabooSearch ma
如何在 Visual Studio 中连接到 MySQL 数据源

我用MySQL 连接器网络通过引用程序集 MySql Data dll 并传入连接字符串来连接到我的数据库MySqlConnection 我喜欢这样因为我不需要安装任何东西有没有办法在 Visual Studio 2010 中选择数
为什么我会遇到找不到类异常

我在用DeferredTextImpl类和 eclipse 似乎没有抱怨它但是当我运行我的项目时我得到运行时异常 Class not found exception for DeferredTextImpl 当我搜索类文件时我发现它在
如何在 Objective C 中使用 AssetLibrary 检索视频的文件大小

我想知道如何使用 AssetLibrary 检索视频的文件大小有人能指出我正确的方向吗或者可能有一些代码片段这应该会让你走上正轨看资产库框架参考 void logVideoSizes void assetEnumerator ALA
为什么 xUnit Runner 找不到我的测试

我有一个 xUnit net 测试如下 static class MyTestClass Fact static void MyTestMethod VS 2012 的 xUnit 插件说没有发现可以运行的测试 TestDriven ne
ASP.NET MVC 中的 ELMAH 和异常管理

我正在考虑从企业库中的异常管理应用程序块转移到新的 ASP NET MVC 站点 Scott Hansleman 在 ELMAH 上的帖子引起了我的注意但我并不完全理解这种方法通常我会抑制一些异常可恢复的异常将它们记录在中央存储库
在python中读取TDMS文件如何使用tdms info命令？

我想知道Labview生成的tdms文件的内容是什么按照此site 我用Python写 import numpy as np from nptdms import TdmsFile from nptdms import tdms read
在外部网站上自动填写和提交表格

我想知道一个人如何自动填写多个表格使用bot local server 使用ajax或curl在外部站点 PHP 的多个页面上例如一个网站www abc com index php有一个表格
配置.vimrc时如何映射命令键？

我使用 mac 我想配置 vimrc 例如 map
模拟时间序列

在最近的宏观经济预测在线课程中有一个建模练习 y t 3 0 0 55 y t 1 e t where e t 定义为 et lt c 1 2138662 0 2854597 0 5902700 0 8285463 0 9954260 0
n 元函数的 Uncurry

我有一个类型级别的数字 data Z deriving Typeable data S n deriving Typeable 和 n 元函数来自固定向量包的代码 Type family for n ary functions type
如何对 data.table 中的 .SD 列进行行明智操作

虽然我之前已经弄清楚了这一点但我仍然发现自己在 stackoverflow 上搜索并且无法找到这个语法所以我想对 data table 列的子集进行行明智操作使用 SD and SDcols 我永远不记得手术是否需要sapply

如何对 data.table 中的 .SD 列进行行明智操作

如何对 data.table 中的 .SD 列进行行明智操作 的相关文章

随机推荐

热门标签

如何对 data.table 中的 .SD 列进行行明智操作的相关文章