使用 dplyr 时使用 rle 按运行进行分组

2024-01-22

在 R 中，我想根据变量的运行对数据进行分组后对其进行汇总x（又名每组数据对应于数据的一个子集，其中连续x值是相同的）。例如，考虑以下数据框，我想在其中计算平均值y每次运行中的值x:

(dat <- data.frame(x=c(1, 1, 1, 2, 2, 1, 2), y=1:7))
#   x y
# 1 1 1
# 2 1 2
# 3 1 3
# 4 2 4
# 5 2 5
# 6 1 6
# 7 2 7

在此示例中，x变量的游程长度为 3，然后是 2，然后是 1，最后是 1，在这四次游程中取值 1、2、1 和 2。相应的手段y这些组中的数字为 2、4.5、6 和 7。

使用 R 基数可以很容易地执行分组操作tapply, 通过dat$y作为数据，使用rle计算运行数dat$x，并传递所需的汇总函数：

tapply(dat$y, with(rle(dat$x), rep(seq_along(lengths), lengths)), mean)
#   1   2   3   4 
# 2.0 4.5 6.0 7.0

我想我可以直接将这个逻辑传递给 dplyr，但到目前为止我的尝试都以错误告终：

library(dplyr)
# First attempt
dat %>%
  group_by(with(rle(x), rep(seq_along(lengths), lengths))) %>%
  summarize(mean(y))
# Error: cannot coerce type 'closure' to vector of type 'integer'

# Attempt 2 -- maybe "with" is the problem?
dat %>%
  group_by(rep(seq_along(rle(x)$lengths), rle(x)$lengths)) %>%
  summarize(mean(y))
# Error: invalid subscript type 'closure'

为了完整起见，我可以重新实现rle我自己运行 id 使用cumsum, head, and tail为了解决这个问题，但这使得分组代码更难以阅读，并且涉及到一些重新发明轮子的过程：

dat %>%
  group_by(run=cumsum(c(1, head(x, -1) != tail(x, -1)))) %>%
  summarize(mean(y))
#     run mean(y)
#   (dbl)   (dbl)
# 1     1     2.0
# 2     2     4.5
# 3     3     6.0
# 4     4     7.0

是什么原因导致我的rle基于失败的分组代码dplyr，有什么解决方案可以让我继续使用rle当按运行 ID 分组时？

Update：截至 2023 年，这似乎已由 dplyr 包修复，这样我的原始代码就可以正常工作，并且不需要任何解决方法。

一种选择似乎是使用{} as in:

dat %>%
    group_by(yy = {yy = rle(x); rep(seq_along(yy$lengths), yy$lengths)}) %>%
    summarize(mean(y))
#Source: local data frame [4 x 2]
#
#     yy mean(y)
#  (int)   (dbl)
#1     1     2.0
#2     2     4.5
#3     3     6.0
#4     4     7.0

如果未来的 dplyr 版本也有与 data.table 等效的功能，那就太好了rleid功能。

我注意到使用时会出现此问题data.frame or tbl_df输入但不输入，当使用tbl_dt or data.table input:

dat %>% 
    tbl_df %>% 
    group_by(yy = with(rle(x), rep(seq_along(lengths), lengths))) %>%
    summarize(mean(y))
Error: cannot coerce type 'closure' to vector of type 'integer'

dat %>% 
    tbl_dt %>% 
    group_by(yy = with(rle(x), rep(seq_along(lengths), lengths))) %>%
    summarize(mean(y))
Source: local data table [4 x 2]

     yy mean(y)
  (int)   (dbl)
1     1     2.0
2     2     4.5
3     3     6.0
4     4     7.0

我将此报告为issue https://github.com/hadley/dplyr/issues/1661在 dplyr 的 github 页面上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

runlengthencoding

使用 dplyr 时使用 rle 按运行进行分组的相关文章

在 R/ggplot2 中将字符串转换为函数参数的最佳方法？ [复制]

这个问题在这里已经有答案了我正在开发一个闪亮的应用程序用户可以选择可以使用 ggplot2 绘制哪些变量但是我完全不确定将字符串即要绘制的变量的名称转换为合适的函数参数的最佳方法考虑以下非常人为的有效的示例 df lt dat
使用 geom_bar 和 stat="identity" 绘制平均值的 hline

我有一个条形图其中确切的条形高度位于数据框中 df lt data frame x LETTERS 1 6 y c 1 6 1 6 1 g rep x c a b each 6 ggplot df aes x x y y fill g g
为 PDF 输出添加 natbib 选项

有没有办法指定natibib输出 PDF 时的选项bookdown 我希望 tex 输出具有命令 usepackage sort compress natbib 但似乎没有任何方法可以在 YAML 中指定它我无法将命令添加到我的序言中因
是否可以使用像“tz=NULL”这样的东西？...“as.POSIXct”默认为依赖于语言环境的时区（与“as.Date”不同），这会导致问题

我知道这是一个长期存在根深蒂固的问题但这是我经常遇到的问题而且我看到初学者R经常与此斗争我希望有一个令人满意的解决方案到目前为止我的谷歌和 SO 搜索都是空的但如果在其他地方重复请指出正确的方向 TL DR 有没有办法使用类
有没有办法将字母扩展到超过 26 个字符，例如 AA、AB、AC...？

我大部分时间都使用字母来表示我的因素但今天我尝试超过 26 个字符 LETTERS 1 32 期待有自动递归因式分解 AA AB AC 但很失望这只是字母的限制还是有办法使用其他函数来获取我正在寻找的内容 702够吗 LETTERS70
什么是 data.frame 可以做而 data.table 不能做的事情？

我刚刚开始使用 R 并遇到了 data table 我发现它很棒一个非常天真的问题我可以忽略 data frame 来使用 data table 以避免两个包之间的语法混淆吗来自数据表常见问题解答 http datatable r f
不同的分位数：箱线图与小提琴图

require ggplot2 require cowplot d iris ggplot2 ggplot d aes factor 0 Sepal Length geom violin fill black alpha 0 2 draw
在 RStudio 控制台中显示西里尔字母

我在 Rstudio 控制台中显示俄语字符时遇到问题我使用 readxl 包加载带有俄语的 Excel 文件西里尔字母在数据框中正确显示但是如果我运行一个输出包含变量名称的函数 RStudio 控制台将显示符号而不是正确的西里尔字符
使用 roxygen2 记录数据集

我正在尝试使用 roxygen2 记录 R 包中的一些数据集仅考虑其中之一 I have mypkg data CpG human GRCh37 RDa 其中包含一个名为的对象CpG human GRCh37 和一个名为 mypkg R
如何使用 ggplot 绘制矩阵图

我想可视化一个矩阵 MAT lt matrix c 100 7 0 0 49 0 0 0 49 nrow 3 ncol 3 gt MAT 1 2 3 1 100 7 0 2 0 49 0 3 0 0 49 然而标准方法不能正确地对小数字进
R Plotly 禁用图例单击和图例双击

我想使用 R Plotly 从服务器端禁用绘图图例选择我们看here https community plot ly t disable legend click functionality hiding traces 1345 2可以使
Rblpapi - 将 bdp 与 ISIN / Cusip 一起使用会出现错误

当我将 bdp 与 ISIN 或 CUSIP 一起使用时出现以下错误 bdp US25470XAB10 ISIN ULT PARENT TICKER EXCHANGE bdp 25470XAB1 CUSIP ULT PARENT TICK
Sweave 缓存包

我正在尝试编写一份报告我的问题是每次我编译 R 时都会加载我在报告中使用的包如 ggplot2 MASS cubature 这是非常耗时的有没有办法查包裹 I found 缓存编织但它不起作用这是我在 sweave 文件中添加的块
根据感兴趣的特定单词绘制高度相关的单词[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在尝试绘制一个单词的最高相关性例如我想绘制鲸鱼一词的最高十个相关性的图表有人可以帮我执行类似的命令吗如果有帮助的话我已经安装
对 R/Sweave 进行编程以获得正确的 \Sexpr 输出

我在为 Sweave 进行 R 编程时遇到了一些问题 rstats twitter 小组经常指出这里所以我想我应该把这个问题向大家提出我是一名分析师而不是程序员所以在我的第一篇文章中请放轻松问题是我正在使用 R 在 Sweave
如何在 R 中使用 msgbox [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如何在中显示消息框R 我正在寻找类似的东西msgbox在 VBA 中因此我可以向用户发出有关问题的警报此外我想允许一些用户交互例如
如何将带有几行代码的字符数组转换为 data.frame？

我有以下数组 my list lt c Jan 01 Dec 31 00 00 24 00 Jan 01 Jun 30 12 00 18 00 Jul 06 Dec 31 09 00 19 00 导致以下结果的最短代码是什么 x1 x2 x
如何解决 R 估计中的整数溢出错误

我正在尝试使用估计模型speedglm在 R 中数据集很大约 6988 万行和 38 列行数和列数相乘得到约 27 亿超出了整数限制我无法提供数据但以下示例重现了该问题 library speedglm large exampl
用于检查和批量线性模型的数据表选项

我想知道是否有data table用于从数据集中批量处理线性模型并首先进行检查的选项我需要对每个唯一标识符运行一堆线性模型但首先我需要进行检查对于每个唯一的 id 和年份我需要检查是否有至少 24 个月的先前每月数据但不超过 60
修改x轴刻度标签

我正在尝试更改由生成的箱线图的 x 轴刻度标签ggplot2 x 轴是一个分类变量 HabFac 我想要的是将其刻度更改为 6 个化学品 A E 下面是我的代码 raw data read table Read data p TT ggpl

随机推荐

从私有 Git 存储库推送/拉取的 Bash 脚本？

我正在尝试找到一种方法可以编写一个 bash 脚本该脚本将在每天午夜自动从我们的私人 Github 存储库中提取并更新我们的开发站点我们的仓库出于明显的原因是私有的我发现的任何接近的东西总是要求输入密码我们的服务器有自己的 Git
在组件中加载 Google Maps JS API [Angular]

如何加载外部js文件来自 Angular 组件中的 url 具体来说我正在尝试加载google maps api到我的角度项目目前我正在我的index html像这样注意我知道angular maps 那不是一个选择您可以随时
避免内存泄漏

C 中如何使用重载运算符来防止内存泄漏任何完整的例子 Regards PKV 如果您想避免内存泄漏请不要使用delete 这可能看起来很矛盾但事实是手动内存管理很容易出错最好使用自动或库技术在 C 中对于您创建的每个对象都
Haskell - 在“where”内定义带有守卫的函数

我刚刚开始自学 Haskell 这段代码应该进行质因数分解 divides Integer gt Integer gt Bool divides small big big mod small 0 lowestDivisor Integer
Git 未推送所有文件和文件夹

我正在尝试将整个目录推送到我的存储库中每次我尝试这样做时它只是推送自述文件没有其他任何内容正如您在第二张照片中看到的那里只有 README 第三张图片是我的主目录的样子第一张图是添加和推送的整个过程向您展示我已经完成了必要的步
如何在Java中使用AES加密数据

我希望在java中使用AES cbc 加密一段数据我想使用我自己的IV 我将其保存在字节数组中并将我自己的密钥保存在字节数组中我该怎么做呢我正在搜索它以查找有关此主题的教程 This http www javamex com tut
SyntaxError：以 '\x82' 开头的非 UTF-8 代码 [重复]

这个问题在这里已经有答案了在处理 Python 字节时我在 Eclipse 中收到此错误它说错误显示在两行中 source C My Documents C Code and zip command zip qr 0 1 forma
我可以使用 HtmlAgilityPack 在某个标签上拆分 HTML 文档吗？

例如我有一堆 tr 我想收集的标签我需要将每个标签拆分为单独的元素以便于我更轻松地进行解析这可能吗标记的示例 tr class first in year td class year 2011 td td class img a
更新时：自动更新日期/时间字段

SQL Server 的更新字段上是否有相当于 MySQL 的功能具有 DEFAULT CURRENT TIMESTAMP 和更新 CURRENT TIMESTAMP 子句该列具有当前其默认值的时间戳以及会自动更新我正在寻找的是
如何在android中以编程方式更改编辑文本的位置？

我正在使用RelativeLayout 以编程方式创建多个彼此相邻的编辑文本每个编辑文本的默认宽度是wrap content 但是当编辑文本到达屏幕边缘时它会在视觉上改变其大小那么当发生这种情况时我怎样才能让它移动到下一行呢 priv
R无法识别格式中的日期

folk R 无法识别下一个日期类型 Jun 3 1986 我多次尝试将该列转换为因子或字符 stackoverflow 中的下一个示例不起作用并返回 NA sdate2 日期我使用了小写字母 b 但它也不起作用我的版本不太好用 as
mysql 选择每个月的记录数

我需要在 mysql 中创建一个查询该查询将返回 12 行每个月一行用于选择月份名称以及给定月份的记录数我有两个表 months tbl 和 events tbl events tbl 中的每条记录都有一个 datetime 列和一
C#：异步NamedPipeServerStream管道正在关闭异常

我之前关于同一主题的问题 C 异步NamedPipeServerStream理解 https stackoverflow com questions 11435262 c asynchronous namedpipeserverstream
在 AddOpenIdConnect 中获取 ServiceProvider，无需 BuildServiceProvider()

有没有好的方法获得ServiceProvider in the AddOpenIdConnect or稍后配置 ClientSecret 我们已经完全设置了 DI 容器例如在Configure IApplicationBuilder ap
postgresql datababse 错误：服务器是否在本地运行并接受 Unix 域套接字“/var/run/postgresql/.s.PGSQL.5432”上的连接？

当我运行rake db migrate或运行rails s命令我得到同样的错误 Error could not connect to server No such file or directory Is the server runni
如何在 R 数据帧中将 UTC 时间戳转换为多个本地时区？

我有一个数据框 df 它有 2 列 utc 时间戳和时区我想创建一个显示本地时间基准本地时区的列我尝试了下面给出的一些方法 This is my dataframe df lt data frame utc time stamp c 2
如何通过 git-svn 使用嵌套分支

我们的 svn 服务器有一个名为 Dev 的主干和位于其中的分支 Branches Release 1 0 2 0 2 3 4 我用类似的东西克隆了它git svn clone T Dev b Branches 当我跑步时git branc
如何在一次更新中将通过 EWS 获取的所有电子邮件标记为已读？

我按照 MSDN 上的 EWS 托管 API 示例进行操作查找我的 Exchange 邮箱帐户中所有未读的电子邮件 https msdn microsoft com en us library office dn535506 28v exc
经常使用很少定义的术语：左值

什么是左值 An lvalue是一个可以分配给以下对象的值 lvalue rvalue 它是左值或左手值的缩写基本上就是left of the 符号即您分配的值作为一个例子什么是not左值即仅右值 printf Hello
使用 dplyr 时使用 rle 按运行进行分组

在 R 中我想根据变量的运行对数据进行分组后对其进行汇总x 又名每组数据对应于数据的一个子集其中连续x值是相同的例如考虑以下数据框我想在其中计算平均值y每次运行中的值x dat lt data frame x c 1 1 1 2

使用 dplyr 时使用 rle 按运行进行分组

使用 dplyr 时使用 rle 按运行进行分组 的相关文章

随机推荐

热门标签

使用 dplyr 时使用 rle 按运行进行分组的相关文章