如何在每个组内创建滞后变量？

2023-11-30

我有一个数据表：

require(data.table)

set.seed(1)
data <- data.table(time = c(1:3, 1:4),
                   groups = c(rep(c("b", "a"), c(3, 4))),
                   value = rnorm(7))

data
#    groups time      value
# 1:      b    1 -0.6264538
# 2:      b    2  0.1836433
# 3:      b    3 -0.8356286
# 4:      a    1  1.5952808
# 5:      a    2  0.3295078
# 6:      a    3 -0.8204684
# 7:      a    4  0.4874291

我想计算“值”列的滞后版本，within每个级别的“组”。

结果应该看起来像

#   groups time      value  lag.value
# 1      a    1  1.5952808         NA
# 2      a    2  0.3295078  1.5952808
# 3      a    3 -0.8204684  0.3295078
# 4      a    4  0.4874291 -0.8204684
# 5      b    1 -0.6264538         NA
# 6      b    2  0.1836433 -0.6264538
# 7      b    3 -0.8356286  0.1836433

我尝试过使用lag直接地：

data$lag.value <- lag(data$value)

...这显然行不通。

我也尝试过：

unlist(tapply(data$value, data$groups, lag))
 a1         a2         a3         a4         b1         b2         b3 
 NA -0.1162932  0.4420753  2.1505440         NA  0.5894583 -0.2890288

这几乎就是我想要的。然而，生成的向量的排序与 data.table 中的排序不同，这是有问题的。

在基本 R、plyr、dplyr 和 data.table 中执行此操作的最有效方法是什么？

你可以在data.table

 library(data.table)
 data[, lag.value:=c(NA, value[-.N]), by=groups]
  data
 #   time groups       value   lag.value
 #1:    1      a  0.02779005          NA
 #2:    2      a  0.88029938  0.02779005
 #3:    3      a -1.69514201  0.88029938
 #4:    1      b -1.27560288          NA
 #5:    2      b -0.65976434 -1.27560288
 #6:    3      b -1.37804943 -0.65976434
 #7:    4      b  0.12041778 -1.37804943

对于多列：

nm1 <- grep("^value", colnames(data), value=TRUE)
nm2 <- paste("lag", nm1, sep=".")
data[, (nm2):=lapply(.SD, function(x) c(NA, x[-.N])), by=groups, .SDcols=nm1]
 data
#    time groups      value     value1      value2  lag.value lag.value1
#1:    1      b -0.6264538  0.7383247  1.12493092         NA         NA
#2:    2      b  0.1836433  0.5757814 -0.04493361 -0.6264538  0.7383247
#3:    3      b -0.8356286 -0.3053884 -0.01619026  0.1836433  0.5757814
#4:    1      a  1.5952808  1.5117812  0.94383621         NA         NA
#5:    2      a  0.3295078  0.3898432  0.82122120  1.5952808  1.5117812
#6:    3      a -0.8204684 -0.6212406  0.59390132  0.3295078  0.3898432
#7:    4      a  0.4874291 -2.2146999  0.91897737 -0.8204684 -0.6212406
#    lag.value2
#1:          NA
#2:  1.12493092
#3: -0.04493361
#4:          NA
#5:  0.94383621
#6:  0.82122120
#7:  0.59390132

Update

From data.table版本 >=v1.9.5，我们可以用shift with type as lag or lead。默认情况下，类型是lag.

data[, (nm2) :=  shift(.SD), by=groups, .SDcols=nm1]
#   time groups      value     value1      value2  lag.value lag.value1
#1:    1      b -0.6264538  0.7383247  1.12493092         NA         NA
#2:    2      b  0.1836433  0.5757814 -0.04493361 -0.6264538  0.7383247
#3:    3      b -0.8356286 -0.3053884 -0.01619026  0.1836433  0.5757814
#4:    1      a  1.5952808  1.5117812  0.94383621         NA         NA
#5:    2      a  0.3295078  0.3898432  0.82122120  1.5952808  1.5117812
#6:    3      a -0.8204684 -0.6212406  0.59390132  0.3295078  0.3898432
#7:    4      a  0.4874291 -2.2146999  0.91897737 -0.8204684 -0.6212406
#    lag.value2
#1:          NA
#2:  1.12493092
#3: -0.04493361
#4:          NA
#5:  0.94383621
#6:  0.82122120
#7:  0.59390132

如果您需要相反，请使用type=lead

nm3 <- paste("lead", nm1, sep=".")

使用原始数据集

  data[, (nm3) := shift(.SD, type='lead'), by = groups, .SDcols=nm1]
  #  time groups      value     value1      value2 lead.value lead.value1
  #1:    1      b -0.6264538  0.7383247  1.12493092  0.1836433   0.5757814
  #2:    2      b  0.1836433  0.5757814 -0.04493361 -0.8356286  -0.3053884
  #3:    3      b -0.8356286 -0.3053884 -0.01619026         NA          NA
  #4:    1      a  1.5952808  1.5117812  0.94383621  0.3295078   0.3898432
  #5:    2      a  0.3295078  0.3898432  0.82122120 -0.8204684  -0.6212406
  #6:    3      a -0.8204684 -0.6212406  0.59390132  0.4874291  -2.2146999
  #7:    4      a  0.4874291 -2.2146999  0.91897737         NA          NA
 #   lead.value2
 #1: -0.04493361
 #2: -0.01619026
 #3:          NA
 #4:  0.82122120
 #5:  0.59390132
 #6:  0.91897737
 #7:          NA

data

 set.seed(1)
 data <- data.table(time =c(1:3,1:4),groups = c(rep(c("b","a"),c(3,4))),
             value = rnorm(7), value1=rnorm(7), value2=rnorm(7))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

plyr

dplyr

如何在每个组内创建滞后变量？的相关文章

R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
在 R 传单中添加不透明度滑块

如何在 R leaflet 应用程序中添加滑块来控制特定图层的不透明度对于这个应用程序我不想使用闪亮这里建议在 R 传单应用程序中添加滑块 https stackoverflow com questions 37682619 add
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
警告消息 - 来自 dummies 包的 dummy

我正在使用 dummies 包为分类变量生成虚拟变量其中一些变量具有两个以上类别 testdf lt data frame A as factor c 1 2 2 3 3 1 B c A B A B C C C c D D E D D E
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
如何在 R 中执行近似（模糊）名称匹配

我有一个专门用于生物学期刊的大型数据集该数据集是由不同的人长时间编写的因此数据不采用单一格式例如在作者栏中我可以找到John Smith Smith John Smith J等但它们是同一个人我连最简单的动作都做不了例如
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
R：按组，测试一个变量的每个值是否存在于另一个变量中

我有一个数据框架结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
从数据框中绘制多条平滑线

我对 R 比较陌生我正在尝试绘制从 csv 文件加载的数据框数据由 6 列组成如下所示 xval col1 col2 col3 col4 col5 第一列 xval 由一系列单调递增的正整数例如 10 40 60 等组成其他列
C# 数据表更新多行

我如何使用数据表进行多次更新我找到了这个更新 1 行 http support microsoft com kb 307587 my code public void ExportCSV string SQLSyntax string L
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供

随机推荐

如何在pyodbc中使用executemany运行多个SELECT查询

我使用 PYODBC 根据 pandas 数据帧列的值多次查询 SQL DB 如下所示为值列表因为我使用 ToList 函数将该列转换为列表 the connection string cnxn pyodbc connect driver
扫描随机数量的浮点数，直到 C 中出现新行

我正在尝试从包含以下文本的文件中读取 502 601 596 465 464597 599 600 598602 591 596 601588 565 548 260 62 61 595583 595 61 558 561237 241 4
分析 C# 中的方法以了解其运行时间

我需要获取计时报告以了解在类中运行 C 方法需要多长时间我考虑使用profiler要做到这一点输入是类中方法的名称输出是什么方法类调用这个方法运行该方法的时间量有哪些工具商业产品可用于 Visual Studio 2010
在 TypoScript 中获取 FlexForm 配置

我需要从 pi flexform 获取 typescript 中的 page headerData 如何实现我的要求 page PAGE page headerData 10 TEXT 10 value 我不太确定你真正需要什么我是gue
SlidingDrawer 动画速度

我是 Android 编程和堆栈溢出的新手我需要减慢应用程序中 SlidingDrawer 的动画速度我已经像这样子类化了 SlidingDrawer import android content Context import andr
最大化两个数组元素的乘积之和的算法

竞赛中有一个问题需要计算仅包含数学和生物科目的班级的表现所以没有数学学生 n 没有的生物学生每个学生都有一个单独的分数数学学生和生物学生的分数分别存储在数组 mathScore 和 bioScore 中全班成绩计算如下 mat
从存储过程填充 DataGridView

我使用 SQL Server 2008 创建了一个名为 MyStoreProc 的存储过程它在管理工具中运行良好在 VB Net 2008 中我创建了一个新的数据集和一个新的 TableAdaptor 在此表适配器中我创建了一个名为
如何从树状数组创建 ul - li 菜单？

我有一个数组title and children index title始终不为空 children是一个数组空或非空 Any children have title and children等等 myArray 0 gt title g
JTable右键复制/粘贴菜单一键复制单元格数据

我创建了我的JPopupMenu 它出现在我的JTable当我右键单击一个单元格时但是我无法复制单元格中的数据除非我首先双击然后突出显示数据然后右键单击当前单元格以外的任何位置以显示弹出菜单和复制选项我想复制单元格中的数据而不必
Perl - 子例程“Hash::Merge::merge”的深度递归

下列的this问题我在那里使用了答案也发布在这里现在我失败了我知道失败可能来自于 return bless self gt merge left right class left 但我不明白可能是什么问题 My code usr b
使用 Windows 服务和 SQL Server 在 OneWay WCF 消息中排队

我需要为 WCF 服务请求实现一个排队机制该服务将由客户端以单向方式调用这些请求消息应存储在 SQL Server 数据库中并且 Windows 服务对消息进行排队处理请求的时间是可配置的如果处理消息时发生错误则需要重试最多10
MySQL 5.7 错误（1093：您无法在 FROM 子句中指定目标表 ___ 进行更新） - 通常的解决方案不起作用

我有一个表员工我试图将一些属性例如薪水设置为与表中其他值相同的值我对这个错误的理解是可以通过以下解决方法来避免它使用临时表 UPDATE employees SET salary SELECT salary FROM SELE
当使用非虚拟析构函数“删除”基类时，Clang 和 GCC 会做什么？

已经有一个问题询问现实世界的行为delete指向缺少虚拟析构函数的基类的指针但问题仅限于非常有限的情况派生类没有具有非平凡析构函数的成员并且接受的答案只是说没有办法知道不检查每个编译器的行为但这实际上并不是很有帮助知道每个编译
authorize.net json返回额外字符

我有这个代码 ch curl init curl setopt ch CURLOPT URL url curl setopt ch CURLOPT RETURNTRANSFER 1 curl setopt ch CURLOPT HTTPHE
Laravel 5 如何在保存时验证每个活动下的唯一客户名称

我有三个模型活动模型客户模型和客户项目模型如何在商店功能中进行验证检查使每个活动中的客户名称应该是唯一的以下是每个迁移文件活动模型 public function up Schema create activities func
Angular Material 6 中用于自动完成的无限滚动

我正在尝试在 Angular Material 6 中实现自动完成的无限滚动我的场景很简单我有一个启用了自动完成功能的输入字段当用户键入时我将使用输入字段中的文本进行 HTTP 调用以将结果显示为建议但我只想显示 25 条建议
禁用优化后，演示代码未能显示出 4 倍快的 SIMD 速度

我试图了解使用 SIMD 矢量化的好处并编写了一个简单的演示代码以了解利用矢量化 SIMD 的算法相对于其他算法的速度增益这是2种算法 Alg A 无矢量支持 include
让 Java 通过 HTTPS 接受所有证书

我正在尝试让 Java 接受所有通过 HTTPS 的证书这是出于测试目的在我收到证书未找到错误之前但是在我的代码之前添加以下代码后我得到了HTTPS hostname wrong should be
X.509 数字签名/加密工作流程/库建议？

我的具体用例是我必须访问存储在客户端上的数字证书并使用它们在客户端和服务器端执行签名验证加密和解密的任务对于后一部分解决方案有很多很多症结在于访问客户端上存储的证书的能力请注意我说的是存储在客户端上的证书这是故意含糊其
如何在每个组内创建滞后变量？

我有一个数据表 require data table set seed 1 data lt data table time c 1 3 1 4 groups c rep c b a c 3 4 value rnorm 7 data grou

如何在每个组内创建滞后变量？

Update

data

如何在每个组内创建滞后变量？ 的相关文章

随机推荐

热门标签

如何在每个组内创建滞后变量？的相关文章