使用 dplyr 从分组 data.frame 中以组级汇总统计数据为条件进行行采样

2024-02-03

In 这篇文章关于对采样行数下限的比例进行采样 https://stackoverflow.com/questions/74176819/sample-a-percentage-of-entries-in-a-dataframe-but-with-a-lower-limit/74178225#74178225我编写了一个函数（见下文），它采用包含一些组标识符的 data.frame，将 data.frame 按组拆分为列表，然后对比例和最小行数中的较大者进行采样。

虽然这有效，但我想知道是否有一种有效的方法可以做到这一点summarise或者以其他方式不分割输出group_by()进入列表，然后迭代列表的元素map/lapply类函数。这个想法是将数据传递给group_by()然后到summarise()，我将计算每组中的行数，然后使用相应的比例或最小数量进行采样if_else方法。然而我发现这产生了各种范围问题或类型冲突。例如，cur_group or cur_data在同一个汇总调用中进行计数和子集似乎很有用，但我不确定如何正确使用它们。

任何人都知道如何在summarise()或以其他方式避免split()ing 之外的数据summarise()?

library(dplyr)

# Example data: 10 rows in group a, 100 in group b
df <- data.frame(x = 1:110,
                 y = rnorm(110),
                 group = c(rep("a", 10), rep("b", 100)))

# Proportion and minimum number of rows to sample
sample_prop <- 0.5
sample_min <- 8

# Group the data and split each group into a list of tibbles
df_list <- df %>% group_by(group) %>% group_split()

# Checks if the number of rows that would be sampled is below the minimum. If so, 
# sample the minimum number of rows, otherwise sample the proportion. This is 
# what I'm trying to do within a summarise call.
conditional_sample <- function(dat, sample_min, sample_prop) {
  if (nrow(dat) * sample_prop < sample_min) {
    slice_sample(dat, n = sample_min)
  } else{
    slice_sample(dat, prop = sample_prop)
  }
}

# Apply the function to our list -- ideally this would be unecessary
# within summarise
sampled <- df_list %>%
  lapply(., function(x) {
    conditional_sample(x, sample_min, sample_prop)
  })

bind_rows(sampled) # check out data

一个简单的方法是使用max() of sample_min and sample_prop * n()作为样本大小：

With slice():

library(dplyr)

sample_prop <- 0.5
sample_min <- 8


df %>%
  group_by(group) %>%
  slice(sample(n(), max(sample_min, floor(sample_prop * n())))) %>%
  ungroup()

# A tibble: 58 × 3
       x      y group
   <int>  <dbl> <chr>
 1     1  1.01  a    
 2     3 -0.389 a    
 3     4  0.559 a    
 4     5 -0.594 a    
 5     7 -0.415 a    
 6     8 -1.63  a    
 7     9 -2.27  a    
 8    10 -0.422 a    
 9    11  0.673 b    
10    12 -1.23  b    
# … with 48 more rows
# ℹ Use `print(n = ...)` to see more rows

或者等效于filter():

df %>%
  group_by(group) %>%
  filter(row_number() %in% sample(n(), max(sample_min, floor(sample_prop * n())))) %>%
  ungroup()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 dplyr 从分组 data.frame 中以组级汇总统计数据为条件进行行采样的相关文章

GitHub 操作 setup-r-dependency 失败，说明没有名为“digest”的包

我一直在尝试设置一些 GitHub 操作来自动检查我的 R 包并运行测试覆盖率我目前正在使用 setup r dependency v2 操作来安装依赖项但无法安装包 digest 返回以下错误 Error Error
‘!’ 对于 R 中的因子没有意义

我需要从数据框中排除变量 PABI 所以我按如下方式进行子集化 MyData4 lt subset MyData PROV PABI newdata lt MyData MyData4 但我得到了这个错误 Error in FUN lef
R闪亮：基于checkboxgroupinput的子集数据

我想根据复选框输入动态选择的列对数据进行子集有什么方法可以使我的输入文件在我的代码中全局可用以便可以方便地进行进一步的操作以下是我的代码 Server R library shiny shinyServer function inpu
如何修改反应链以便最后修改的对象控制其他链接的对象？

新注释 1 最终解决的代码发布在最底部反映了 ismirsehregal 于 2021 年 12 月 3 日的解决方案以及一些标记为 ADDED 和 MODIFIED 的小调整 ADD 是为了解决我在矩阵 2 添加值后从矩阵 1 中删除
闪亮的仪表板侧边栏中的可折叠菜单项

我的侧边栏中有两个菜单项目前如果我单击任何菜单项则会显示所有菜单项的选项卡项我想让它可折叠如果我单击多个名称菜单单个分析应该折叠如果我单击单个分析多个分析应该折叠目前的设计是相同的可重现代码是 library shiny
R：igraph、社区检测、edge. Betweenness 方法、统计/列出每个社区的成员？

我有一个相对较大的图表其中顶点 524 边 1125 是现实世界的交易边是有向的并且具有权重包含是可选的我正在尝试调查图中的各个社区并且本质上需要一种方法计算所有可能的社区计算最佳社区数量返回每个最佳社区的成员成员数量
省略 RColorBrewer 调色板上较亮的颜色以在 ggplot2 中使用

我想在 RColorBrewer 的 Oranges 调色板中使用较深的颜色以便在我的 ggplot 条形图中使用然而我却做不到帮助下面是示例代码 my palette brewer pal n 9 Oranges 4 9 Bar
使用 sprintf 打印换行符 - 有光泽

我试图在打印时进行换行这是我的代码 temp lt LETTERS 1 11 print sprintf Rank s s n 1 11 temp output 1 Rank 1 A n Rank 2 B n Rank 3 C n Ran
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
如何在 R 中创建“堆叠瀑布”图表？

I was able to find several packages to create a waterfall chart in R which look like this But I could not find a way to
计算数据集列的百分位数

最亲爱的 R 专家为您快速介绍一下我正在做一项作业在这个练习中我被要求从数据中获取基本统计数据infert数据集它是内置的特别是其中的一列 infert age 对于不熟悉数据集的人 gt table ages Which is
按值对 geom_bar ggplot2 中的条形重新排序

我正在尝试制作一个条形图其中的图是从miRNA与最高的value to the miRNA与最低的为什么我的代码不起作用 gt head corr m miRNA variable value 1 mmu miR 532 3p pos
根据 R 中的另一个变量过滤簇中的 id

我有 100 名患者的数据每个患者都有 7 天 1 到 7 的值如何仅在第一天根据另一个变量选择患者 df lt data frame id c 1 1 1 2 2 2 day c 1 2 3 1 2 3 RRT c 0 1 0 1 0
调用函数时切换“控制转移绕过初始化：”

当我尝试构建以下开关时出现控制转移绕过初始化错误 switch retrycancel case 4 The user pressed RETRY Enumerate all visible windows and store han
将“dplyr::across”与具有多个参数的函数一起使用

我想知道是否有办法使用dplyr across一个需要多个参数的函数如果没有如何执行以下操作dplyr tidyverse library dplyr create a dataframe df lt structure list x1
R 语言 NaN + NA 行为

我有一个关于 R 中算术行为的问题看下面这段代码 gt NaN NA 1 NaN gt gt gt NaN as integer NA gt NA 所以我很困惑这两个添加给出了不同的结果有谁知道这是否是真正想要的行为还是只是某种错误
R 彩色树状图建议？

我想制作彩色树状图但尚未找到足够的库 http addictedtor free fr graphiques RGraphGallery php graph 79 http addictedtor free fr graphiques R
R 中的整数或双精度列表

我有一个大约 1000 个整数的列表我需要能够进行一些数学计算但它们被困在列表或字符形式中我怎样才能切换它们以便它们可用样本数据 gt y 1 1 7 3 1 6 7 1 7 6 5 3 1 3 3 0 6 2 4 9 19 1 9
使用循环（或向量化）按向量中的多个元素对列表进行子集化

我有3个清单data frames my list lt list a data frame value c 1 5 class c letters 1 3 a b b data frame value c 6 1 class c lett
将数据帧单列中的值向上移动

使用这样的示例数据 example data frame x c 1 2 3 4 5 6 7 8 y c 1 2 3 4 5 6 7 8 z c 1 2 3 4 5 6 7 8 看起来像这样 x y z 1 1 1 1 2 2 2 2 3

随机推荐

Google Apps Script Utilities.parseCsv() 和替换字符 - �

我正在开发一个项目该项目涉及 Google Drive 中的 csv 文件该文件每分钟左右更新一次新数据我构建了一个电子表格仪表板以使 csv 中的数据更有意义我错误地认为我可以使用 Google 电子表格函数 importdat
mysql更新查询以使用另一个表的id设置字段

我的数据库中有3张表 1 视频 id name 1 one 2 two 3 three 2 会话有视频 session id video id 1 1 1 3 3 channel has session channel id sessi
如何解决我的 OpenGL 程序的“您的计算机中缺少glew32.dll”问题？

当我尝试构建并运行我的 OpenGL GLEW GLFW 程序时它构建得很好但无法运行给我这个错误 The program can t start because glew32 dll is missing from your com
在 Woocommerce 存档页面的产品标题下显示特定产品属性

在 woocommerce 中我想在商店页面的产品标题下显示一些产品属性该产品属性为年份型号和油品这就是我现在所拥有的 add action woocommerce shop loop item title wh insert
HttpContext.Current.Session 与 Context.Session

它们是一样的吗或者它们有什么不同我读过这个post https stackoverflow com questions 7954844 what is the difference between these two httpconte
Bluebird 的 util.toFastProperties 函数如何使对象的属性变得“快速”？

在蓝鸟的util js file https github com petkaantonov bluebird blob 7454401269cfa47e5b001354388c062509103de7 src util js L180 它
即使未实现抽象方法，实例化抽象类时也不会出现错误

我正在尝试下面的Python代码 from abc import ABCMeta abstractmethod class Bar metaclass ABCMeta abstractmethod def foo self pass cla
WPF：旋转 2D 矢量

我想旋转给定的 2D 矢量是否有 WPF 内置函数可以实现此目的目前我正在手动执行此操作 Vector v new Vector v X 10 v Y 10 Vector v2 new Vector v2 X v X Math Cos
类型的替代 id 生成器

In 我的一个项目 https github com skypjack entt 我有一个ID生成器 https github com skypjack entt blob master src entt core family hpp对于
Pluck id（整数）转换为字符串 Laravel

从数据库中提取数据时我得到id作为字符串 alphabets new Alphabet return alphabets gt pluck name id Output 1 Apple 2 Ball 3 Cat Expected 1 Ap
简单代码导致读取变量时出错：无法访问地址处的内存

我正在尝试使用支持 python 的 gdbMinGW 构建 http sourceforge net projects mingwbuilds 我遇到了一个错误这是一段相当简单的代码在 MSVC 下调试时效果很好 D CppProje
Pentaho Kettle中如何实现数据库连接参数验证

我有一个例子我得到 X 行数据库名称作为我需要连接的参数我已成功完成工作和转换为作为参数给出的每个数据库名称重复表输入步骤因此当这些数据库名恰好有效时这一切都会很好地工作但是如果这些名称之一无效给定名称的数据库不存在则表
MediaPlayer 在单独的线程中与通过 startForeground() 在服务中运行

所以我在一个单独的线程中流式传输音乐如果我离开应用程序 onPause onStop 被呼叫等音乐继续播放但最终在打开其他应用程序并在它们之间切换并返回主屏幕之后我的应用程序被终止没有崩溃只是一个WIN DEATH and
使用 javascript、HTML5 添加注释、文本到视频中的特定帧 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有任何库支持在视频帧上突出显示特定内容有点视频编辑我想在视频帧中放置任何矩形或圆形并提供一些文
python中的滚动函数忽略nans

https pandas pydata org pandas docs version 0 17 0 generated pandas rolling quantile html https pandas pydata org pandas
使用 React.cloneElement 和 render prop 将 ref 传递给类组件

我正在编写一个处理一些内部的组件state根据一个ref它的子级例如与该子级的引用相关的鼠标事件该组件正在使用render prop传递相关部分state给它的孩子并渲染孩子ref通过附加React cloneElement util
参考数据模式

与此线程类似但不完全一样如何以线程安全的方式缓存信息 https stackoverflow com questions 1048239 how to cache information in a dao in a threadsafe
对声明为友元的类进行单元测试（内部）

在我的一些测试助手代码中我有一个IDbSet Of T 实施称为FakeDbSet Of T 它在没有实际数据库的情况下模拟了许多 EF 行为我已经宣布了班级Friend因为我想强制所有代码像交互一样与它交互IDbSet Of T 内部
使用 css 打印模式下每页的页眉和页脚

我有一个网络应用程序它有一个可能超过一页的报告我想在每一页中打印页眉和页脚我找到并尝试这个在每页中重复报告标题 https www servoyforge net boards 2 topics 215 r 220 message
使用 dplyr 从分组 data.frame 中以组级汇总统计数据为条件进行行采样

In 这篇文章关于对采样行数下限的比例进行采样 https stackoverflow com questions 74176819 sample a percentage of entries in a dataframe but wit

使用 dplyr 从分组 data.frame 中以组级汇总统计数据为条件进行行采样

使用 dplyr 从分组 data.frame 中以组级汇总统计数据为条件进行行采样 的相关文章

随机推荐

热门标签

使用 dplyr 从分组 data.frame 中以组级汇总统计数据为条件进行行采样的相关文章