在group_by操作之后，dplyr如何为每个组生成数据帧？

2024-01-01

dplyr 包在流式数据处理方面的流畅性让我感到非常震惊。最近我急于解决一个问题，为每个组ID生成一个新的数据帧，并将这些小数据帧组合成最终的更大的数据帧。一个玩具示例：

input.data.frame %>%
    group_by(gid) %>%
    {some operation to generate a new data frame for each group} ## FAILED!!!!

在 dplyr 中，函数mutate向每个组添加新列并summarise为每个组生成摘要，都不能满足我的要求。（我错过了什么？）

或者，使用ddplyplyr 包，之前的 dplyr 交互，我可以通过

ddply(input.data.frame, .(gid), function(x) {
     some operation to generate a new data frame for each group
}

但不足之处是，当我加载 plyr 包时，dplyr 中的一些功能将无法使用。

以下是 G. Grothendieck 对类似问题的回答之后的示例。在“dplyr”输出中添加行 https://stackoverflow.com/questions/23621332/adding-rows-in-dplyr-output

首先我们生成一个包含 x 和 g 的数据框。 x中有9个随机数，g中有3组a、b、c。我们想从每组中选择 2 个最大的数字。重要的是要记住 do 需要一个数据帧作为返回值。

library(dplyr)
set.seed(1)
dat <- data.frame(x=runif(9),g=rep(letters[1:3],each=3))

dat
      x g
1 0.1765568 a
2 0.6870228 a
3 0.3841037 a
4 0.7698414 b
5 0.4976992 b
6 0.7176185 b
7 0.9919061 c
8 0.3800352 c
9 0.7774452 c

## this works
dat %>% dplyr::group_by( g ) %>% do( data.frame(x=tail(sort(.$x),2)) )

## this works too
dat %>% dplyr::group_by( g ) %>% do( .[tail(order(.$x),2),] )

          x      g
      (dbl) (fctr)
1 0.3841037      a
2 0.6870228      a
3 0.7176185      b
4 0.7698414      b
5 0.7774452      c
6 0.9919061      c

## no error, but x is treated as a 1x1 data frame
dat %>% dplyr::group_by( g ) %>% do( x=tail(sort(.$x),2) )
       g        x
  (fctr)    (chr)
1      a <dbl[2]>
2      b <dbl[2]>
3      c <dbl[2]>

## you need a function to do more complicated stuff 
top2x <- function(df) { df[tail(order(df$x),2),] }
dat %>% dplyr::group_by( g ) %>% do( top2x(.) )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

在group_by操作之后，dplyr如何为每个组生成数据帧？的相关文章

如何将带有观察计数的标签添加到 stat_summary ggplot？

我有一个数据集例如 outcome lt c rnorm 500 45 10 rnorm 250 40 12 rnorm 150 38 7 rnorm 1000 35 10 rnorm 100 30 7 group lt c rep A
访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
stat_function 从函数生成平线

我有以下代码 library ggplot2 f lt function x if x gt 2 1 x 0 3 else 0 graph lt ggplot data frame x c 0 10 aes x graph lt graph
使用自定义渐变填充直方图箱

我想在 R 和 ggplot2 中创建一个直方图其中根据连续的 x 值填充箱大多数教程仅通过离散值或密度计数进行着色下列的这个例子 https stackoverflow com questions 40284227 how to
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
在 R 中使用逻辑 grep 抓取文本

下午好谢谢你帮我解答这个问题我有兴趣抓取一组超过 5000 个 URL 的列表我使用 lapply 和 readLines 使用下面的示例代码提取这些网页的文本 multipleURL lt c http dailymed nlm n
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
更改 pander 中的默认对齐方式 (pandoc.table)

我目前正在切换到pander对于我的大部分时间knitr markdown格式化因为它提供了如此出色的pandoc支持我不太满意的一件事是默认的居中对齐营销人员可能会喜欢它但对于技术报告来说这是一个可怕的事情使用的最佳选择Hmis
按不规则时间间隔对数据进行分组求和（R语言）

我正在看这里的 stackoverflow 帖子 R 计算一组内的观察次数 https stackoverflow com questions 65366412 r count number of observations within a
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
排序因素与水平

有人能解释一下 R 中 ordered 参数的用途吗 R says ordered逻辑标志来确定级别是否应被视为有序按给定的顺序所以如果我有一个名为名称的因素并设置ordered TRUE names lt factor c fred
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple

随机推荐

使用 matplotlib 组合两个独立图的最佳方法是什么？

我不断地问自己这个问题如何以模块化的方式将不同的绘图与 matplotlib 轻松组合比方说我编写了一个显示图形节点位置的函数同时我制作了另一个绘制一些多边形的函数现在组合输出的正确方法是什么使节点看起来位于多边形内部改变
Delphi 汇编器常量 'eof'

似乎有一个未记录的常量eof在 asm 块上下文中这是使用 Delphi 7 进行测试的 program TestEof APPTYPE CONSOLE var example Integer begin asm mov example
React.js 上 img 的正确路径

我的反应项目中的图像存在一些问题事实上我一直认为 src 属性的相对路径是建立在文件架构之上的这是我的文件架构 components file1 jsx file2 jsx file3 jsx container img js 但是我
用homebrew安装后无法启动mysql

我有一台 Mac Air 运行 OS X 10 6 8 10K540 和 homebrew 0 8 我已经安装了 MySqlbrew install mysql 我已按照 homebrew 给出的说明进行操作具体来说 unset TMPD
Python：当你只有方法的字符串名称时，如何调用方法？

这是用于 JSON API 的我不想拥有 if method str method 1 method 1 if method str method 2 method 2 由于显而易见的原因这不是最佳的我将如何以可重用的方式使用映射字符
根据多行的存在（序列号）从 SQL 中选择所有行

假设我有类似于以下内容的表数据 123456 John Doe 1 Green 2001 234567 Jane Doe 1 Yellow 2001 234567 Jane Doe 2 Red 2001 345678 Jim Doe 1 R
如果在数组中找不到匹配项，则返回第一个元素

我有以下文件 id 123 state AZ products product id 1 desc P1 product id 2 desc P2 我需要编写一个查询以从产品数组中返回单个元素其中状态为 AZ 且product id 为2
Metal SCNProgram - 无法渲染具有视频内容的 SpriteKit 场景

我拼命地尝试使用视频作为 SCNScene 中的纹理以及一些奇特的着色器修改器我想使用 SCNProgram 来完成该部分我刚刚拿了一个here https stackoverflow com a 37738386 2054629
获取每秒刻度数并转换为字符串值？

如何获取 DateTime UtcNow 每秒的刻度数并将其转换为字符串值糟糕的问题再试一次获取百万分之十秒 https stackoverflow com questions 3123894 get ten millionths of
如何使用 POST XMLHttpRequest 发送 javascript 对象

我想在 POST XMLHttpRequest 方法中发送以下数据待发送数据 var data xx 值用户密码 pass 用户名 xyz 使用的代码 var xmlhttp new XMLHttpRequest var data x
我们如何以 DRY 方式将 Rails 路线与 AngularJS 一起使用？

首先我要对我蹩脚的英语和损坏的代码表示抱歉这里的很多单词都来自谷歌翻译所以我担心我无法说清楚所以我粘贴所有代码在轨道上设置路线非常简单但是当我们想将其转换为 angurjs 时它会变得有点冗长对于此类工作是否有任何最
ECMAScript 6 与 ECMAScript 5 相比什么是块作用域函数 [重复]

这个问题在这里已经有答案了 ECMAScript 6 中的块作用域函数是什么谁能帮助我理解块作用域函数与 ECMAScript 5 相比的主要区别 The new let and constES2015 又名 ES6 与尊者相比有四个主要
在扩展类本身内部使用扩展方法

假设我有一个界面如下所示 public interface ILoggable void Log Func
从字符串中删除所有出现的 char

我可以用这个 String str TextX Xto modifyX str str replace X that does not work because there is no such character 有没有办法删除所有出现的
未为 DI/IoC 设置 StructureMap 和对象

我有一种情况我创建了一个工厂方法来创建一个对象但是该对象具有需要在创建对象之前执行的样板代码修复这部分设计超出了这个问题的范围此外当创建对象时屏幕上的状态显示也会更新这要求在创建此对象之前先实例化此状态显示并使其可见并且应
R自参考

在 R 中我发现自己经常做这样的事情 adataframe adataframe col something lt adataframe adataframe col something 1 这种方式有点漫长而且乏味有什么办法适合我吗引
在 tizen studio 中使用证书配置文件签署应用程序包

如何在 Tizen studio 中使用证书配置文件签署应用程序包 This https developer tizen org development tizen studio web tools managing projects ce
支持 ASP.NET MVC 2.0 的嵌套模型和类验证

我正在尝试使用 System ComponentModel DataAnnotations 属性来验证包含具有验证规则的其他对象的模型希望默认的 MVC 实现就足够了 var obj js Deserialize json objectI
“简单来说”SOA 是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
在group_by操作之后，dplyr如何为每个组生成数据帧？

dplyr 包在流式数据处理方面的流畅性让我感到非常震惊最近我急于解决一个问题为每个组ID生成一个新的数据帧并将这些小数据帧组合成最终的更大的数据帧一个玩具示例 input data frame gt group by gid gt

在group_by操作之后，dplyr如何为每个组生成数据帧？

在group_by操作之后，dplyr如何为每个组生成数据帧？ 的相关文章

随机推荐

热门标签

在group_by操作之后，dplyr如何为每个组生成数据帧？的相关文章