dplyr - 分组并选择 TOP x %

2024-05-07

使用 dplyr 包和函数sample_frac可以从每个组中抽取一定比例的样本。我需要的是首先对每个组中的元素进行排序，然后从每个组中选择前 x% ？

有一个功能top_n，但这里我只能确定行数，并且我需要一个相对值。

例如，以下数据按齿轮分组并按wt每组内：

library(dplyr)
mtcars %>%
  select(gear, wt) %>%
  group_by(gear) %>%
  arrange(gear, wt)

    gear    wt
1   3   2.465
2   3   3.215
3   3   3.435
4   3   3.440
5   3   3.460
6   3   3.520
7   3   3.570
8   3   3.730
9   3   3.780
10  3   3.840
11  3   3.845
12  3   4.070
13  3   5.250
14  3   5.345
15  3   5.424
16  4   1.615
17  4   1.835
18  4   1.935
19  4   2.200
20  4   2.320
21  4   2.620
22  4   2.780
23  4   2.875
24  4   3.150
25  4   3.190
26  4   3.440
27  4   3.440
28  5   1.513
29  5   2.140
30  5   2.770
31  5   3.170
32  5   3.570

现在我想在每个齿轮组中选择前 20%。

如果该解决方案可以与 dplyr 集成，那就太好了group_by功能。

或者使用 dplyr 的另一个选项：

mtcars %>% select(gear, wt) %>% 
  group_by(gear) %>% 
  arrange(gear, desc(wt)) %>% 
  filter(wt > quantile(wt, .8))

Source: local data frame [7 x 2]
Groups: gear [3]

   gear    wt
  (dbl) (dbl)
1     3 5.424
2     3 5.345
3     3 5.250
4     4 3.440
5     4 3.440
6     4 3.190
7     5 3.570

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

dplyr - 分组并选择 TOP x % 的相关文章

dplyr 返回每个组的全局平均值，而不是每个组的平均值

有人可以解释一下我在这里做错了什么 library dplyr temp lt data frame a c 1 2 3 1 2 3 1 2 3 b c 1 2 3 1 2 3 1 2 3 temp gt group by temp 1 g
如何在knitr和RStudio中为word和html设置不同的全局选项？

我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项例如想要将word的fig width和fig height设置为6 html的fig width和fig hei
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
为什么这个 R ggplot2 代码会显示一个空白的显示设备？

虽然 SO 通常不用于帮助解决错误但这个显示了特别简单且特别烦人的行为如果你是一个ggplot2用户您可以在 10 秒或更短的时间内重现它正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
当设置 coord_fixed 时，ggplot/shiny 中的鼠标悬停坐标是错误的

我正在使用问题中的答案当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o
ggplot：如何限制条形图中的输出，以便仅显示最频繁出现的情况？

我几个小时以来一直在寻找这个简单的东西但没有结果我有一个数据框其中一列为变量国家地区我想要两件事以下绘制最常见的国家地区最常见的位于顶部找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图

随机推荐

尝试在脚本标记上触发 onload 事件

我试图按顺序加载一组脚本但 onload 事件没有为我触发 var scripts cdnjs cloudflare com ajax libs less js 1 3 3 less min js cdnjs cloudflare com
如何解决 iPhone 应用程序中的无效转换说明符警告

我有 iphone 应用程序其中为标签分配值但是当我构建它时它显示以下警告无效转换说明符这是标签赋值的代码 label1 text NSString stringWithFormat d newvalue1 The 被解释为格式字符
Mac 操作系统的 windows.h 替代品

早上好我正在使用 Codeblock c 程序进行编程但是我需要使用窗口 h and conio h MacBook 上没有这个头文件拜托你能帮我吗不起作用的来源 void gotoxy int x int y COORD co
检查自定义键盘扩展的完全访问权限

我需要检查自定义键盘扩展的完全访问权限我找到了这个链接如何检查 iOS 8 中的允许完全访问是否已启用 https stackoverflow com questions 25472388 how to check the allo
从 STL 容器并行读取

从多个并行线程读取 STL 容器是安全的然而表现却很糟糕为什么我创建了一个小对象将一些数据存储在多重集中这使得构造函数相当昂贵在我的机器上大约为 5 usecs 我将数十万个小对象存储在一个大型多重集中处理这些对象是一项独立
如何使用 jQuery 和“长轮询”通过 Indy HTTP 服务器动态更新 HTML 页面？

我读过这篇文章使用 JavaScript 和 jQuery 的简单长轮询示例 http techoctave com c7 posts 60 simple long polling example with javascript and j
如何修改python中的本地命名空间

如何修改Python中函数的本地命名空间我知道 locals 在函数内部调用时返回函数的本地命名空间但我想做这样的事情我有一个原因为什么我想在 f 无法访问 g 的情况下执行此操作但给出更快一个简单的愚蠢的例子来说明问题 def
Indy FTP 传输类型

我正在使用 IdFTP Indy 10 组件从远程位置下载一些文件 zip 和 txt 在获取每个文件之前我将 TransferType 设置为二进制 IdFTP TransferType ftBinary IdFTP Get ASour
JDBC中为什么要关闭连接？如果我们不这样做，会发生什么

在java中与数据库通信我们经常遵循以下步骤加载驱动程序建立连接创建声明或PreparedStatement get the ResultSet 关闭连接我很困惑我们应该关闭连接都说创建连接很昂贵所以为什么我们不能这样做 st
如何在Python中打印颜色/颜色？

我对 Python 和 StackOverflow 都是新手需要一点帮助我想用 Python 打印颜色并在 Google 上搜索过但运气不佳每次我都很困惑但都没有成功这是我输入的代码 answer input Wanna go
哪个 C++ 草案？

我对当前的 C 标准感兴趣并且对以下链接有点困惑http www open std org jtc1 sc22 wg21 docs papers 2014 http www open std org jtc1 sc22 wg21 docs
Scala 中两个地图的交集和合并/连接

假设我有两张类似这样的地图 val m1 Map 1 gt One 2 gt Two 3 gt Three val m2 Map 2 gt 2 0 3 gt 3 0 4 gt 4 0 我想根据键获取交集并返回一个表示合并值的元组结果看起来
cout 可以以某种方式改变变量吗？

所以我有一个看起来像这样的函数 float function float x SomeValue return x SomeOtherValue 在某些时候这个函数会溢出并返回一个非常大的负值为了尝试准确追踪发生这种情况的位置我添加了
C++中exit和kill的区别

我已经编写了一个信号处理程序来处理SIG 如果我得到的进程太多我想终止该进程那么以下哪个代码更好或者我应该同时使用它们 exit 1 or some other exit code kill getpid SIGKILL 您可能不想
如何研究.NET 中的非托管内存泄漏？

我有一个通过 MSMQ 运行的 WCF 服务内存随着时间的推移逐渐增加表明存在某种内存泄漏我在本地运行该服务并使用 PerfMon 监视一些计数器 CLR 内存托管堆字节总数保持相对恒定而进程的私有字节随着时间的推移而增加这让我相
如何将现场 prestashop 站点移至本地主机？

我在将 PS 1 7 从服务器域传输到本地主机时遇到问题我已按照 Prestashop 文档中的文件传输的所有步骤进行操作我执行此步骤 1 将所有 prestashop 文件从服务器下载到我的 mac 并将其放入 mamp htdocs
iphone XMPP 应用程序运行后台

我使用 XMPP 框架创建了一个聊天应用程序当我退出应用程序进入后台模式时我想接收聊天消息并且还需要显示图标徽章我该怎么做您确实可以通过将基于 XMPP 框架的应用程序称为 VoIP 应用程序来在 iOS4 中的后台运行该应用
SBT - 运行任务来设置SettingKey

所以我的一般问题是我想根据任务的结果设置版本密钥但是版本密钥是在任务运行之前设置的据我了解一旦设置了键的值我就无法更改它因此我无法在我的任务中更改它我想要做的是将任务作为发布任务的依赖项运行并更改版本的值我觉得一定有办法做到这
从列表视图启动活动

您好我有一个列表视图我正在尝试通过以下方式从列表视图启动一项活动startActivity class java public class ll2 extends Activity public void onCreate Bundle
dplyr - 分组并选择 TOP x %

使用 dplyr 包和函数sample frac可以从每个组中抽取一定比例的样本我需要的是首先对每个组中的元素进行排序然后从每个组中选择前 x 有一个功能top n 但这里我只能确定行数并且我需要一个相对值例如以下数据按齿轮分组并

dplyr - 分组并选择 TOP x %

dplyr - 分组并选择 TOP x % 的相关文章

随机推荐

热门标签