使用 dplyr() 随机删除重复行

2023-12-27

作为此问题的后续问题：使用 dplyr 删除重复行 https://stackoverflow.com/questions/22959635/remove-duplicated-rows-using-dplyr，我有以下内容：

如何使用 dplyr() （以及其他）随机删除重复的行？

我现在的命令是：

data.uniques <- distinct(data, KEYVARIABLE, .keep_all = TRUE)

但它返回 KEYVARIABLE 的第一次出现。我希望这种行为是随机的：所以介于两者之间1 and n该 KEYVARIABLE 的出现次数。

例如：

KEYVARIABLE BMI
1 24.2
2 25.3
2 23.2
3 18.9
4 19
4 20.1
5 23.0

目前我的命令返回：

KEYVARIABLE BMI
1 24.2
2 25.3
3 18.9
4 19
5 23.0

我希望它随机返回其中之一n重复的行，例如：

KEYVARIABLE BMI
1 24.2
2 23.2
3 18.9
4 19
5 23.0

一种选择是按“KEYVARIABLE”分组，然后sample用于选择行并对数据集进行子集化的行序列

library(data.table)
setDT(df1)[, .SD[sample(.N)[1]], KEYVARIABLE]

或者使用dplyr

library(dplyr)
df1 %>% 
   group_by(KEYVARIABLE) %>%
   sample_n(1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

使用 dplyr() 随机删除重复行的相关文章

在 R 中读取 Stata 13 文件

有没有办法在 R 中读取 Stata 版本 13 数据集文件我尝试执行以下操作 gt library foreign gt data read dta TEAdataSTATA dta 但是我收到一个错误 read dta TEAdat
包检查时如何有效处理未压缩的保存？

在最近开发一个包的过程中我将数据集包含在data 我的包的文件夹在我的具体情况下我有 5 个数据集所有这些数据集都位于data table格式尽管我在下面描述的问题仍然存在如果我将它们保留为data frame 我已将每个人单独
正则表达式挑选括号之间的一些文本[重复]

这个问题在这里已经有答案了可能的重复提取 R 中所有括号内的信息正则表达式 https stackoverflow com questions 8613237 extract info inside all parenthesis i
将文本添加到 ggplot 中的轴标签

我从下表中绘制了一个图表 BoatPhs fit se lower upper 1 Before 3 685875 0 3287521 3 038621 4 333130 2 After0 20NTA 3 317189 0 6254079
r Shiny 中的 fileInput 函数没有响应

我是 R 和 R闪亮的新手一直致力于构建一个统计应用程序该应用程序将允许用户导入文件然后对数据运行不同的统计程序直到最近 fileData 函数一直对我来说运行良好现在每当我尝试上传文件时都不会打开任何内容我已尝试了所有我能想
解释 survreg 中的威布尔参数

我正在尝试使用从 R 中的 survreg 估计的参数生成逆威布尔分布我的意思是对于给定的概率这将是在 MS Excel 中实现的小型模拟模型中的随机数返回使用我的参数预计出现故障的时间我理解逆威布尔分布的一般形式是 X b l
按绝对值排序

有谁知道如何按绝对值对 R 中的向量进行排序所以 2 3 1 gt 1 2 3 etc 如果我在 python 中这样做我会创建一对每个值及其符号按绝对值对对列表进行排序然后重新应用符号但我对 R 很陌生所以不知道如何执行此操作
通过 RSelenium 单击按钮

我正在尝试使用 Rselarium 和 Rvest 来抓取 REI 的评论吊床我想点击底部的按钮 x 次这样我就可以抓取所有评论我有点失落这是我到目前为止所拥有的如果您也知道如何在取景器中预览您正在做的事情而不是屏幕打印那就
R 条形图中的 X 轴

我想问一个关于 barplot 轴的问题首先请看我的数据 SerNo DOY Rain 1 350 0 2 351 0 3 352 0 4 353 0 5 354 0 6 355 0 7 356 0 8 357 0 9 358 0 10
如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr
为什么我在 ddply 中看到“错误：length(rows) == 1 is not TRUE”？

我有一个数据框比如工资单例如 payroll lt read table text AgencyName Rate PayBasis Status NumRate HousingAuthority 26 843 00 Annual Fu
带有嵌套分组变量的多行轴标签，用于 - R 中的堆积条形图

我想使用 ggplot 制作一个包含多个类别的堆叠条形图并带有嵌套的标记 X 轴类似于我使用 Excel 制作的条形图如此处所示我尝试使用给出的例子here https stackoverflow com questions 181
我可以调整scale_color_brewer的下限吗？

我已经订购了我想使用 color Brewer 的分类数据但我很难看到非常低的值有没有办法去掉这些较低的值或设置范围的下限 ggplot data frame x 1 6 y 10 15 w letters 1 6 aes x y co
使用 R 中的 tidyverse 重新调整因子和重新排序因子

我想使用这些功能重新调平 and 重新排序在我的数据框中我了解重新调整级别的工作原理但我不明白为什么我在 data frame 中看不到级别的变化例如假设我有鸢尾花数据集 library tidyverse head iris g
如何在 R 中查找平衡面板数据（又名，如何查找面板中的哪些条目在给定窗口内完整）

我有来自 Compustat 的大量数据我向其中添加了一些手工收集的数据认真地从一堆旧书中手工收集但我不想手工收集整个面板只想随机选择一个子集为了找到更大的集合我从中随机选择我想从 Compustat 的平衡面板开始我看到p
for 循环与 cor.test 在许多类别上

我正在尝试在 R 中编写一个循环它将循环遍历 3 个不同的物种以计算两个连续变量 Redness 和 VarNormAbund 之间的相关性我的循环正在运行但 3 个物种中每一个的输出都是相同的这让我认为循环卡在第一个物种上 co
通过 RCpp 返回 NA

新手 RCpp 问题在这里 How can I make a NumericVector returnNA到R 例如假设我有一个 RCpp 代码它分配NA到向量的第一个元素 RCpp export NumericVector myFun
将 csv 文件上传到shinyApps.io

我的应用程序在本地运行良好并且我能够成功地将应用程序部署到shinyapps io 服务器但是当我尝试使用shinyapps URL 在浏览器中加载应用程序时收到以下错误消息错误对象数据不是成立我认为这是因为 data 变量从
绘制带有颜色渐变的geom_segment线？（或者还有另一种方法来强调开始与结束吗？）

我的数据框中有大量行 100 000 的两组纬度和经度变量我正在尝试绘制一个连接这两组坐标的图即从纬度1 经度1 to 纬度2 经度2 使用 geom segment 使用非常低的 alpha 使线条透明因为线条太多我想强调这些线
当在另一行中找到元素逗号分隔时合并行

您好我有一个数据框例如 species family Events groups 1 SP1 A 10 22 G1 2 SP1 B 7 G2 3 SP1 C D 4 5 6 1 3 G3 G4 G5 G6 4 SP2 A 22 10 G

随机推荐

使用 mysql_free_result($result) 是一个好习惯吗？

我知道所有关联的结果内存都会在脚本执行结束时自动释放但是如果我使用了很多如下类似的操作您会建议使用它吗 sql select from products result mysql query sql if result mysql n
为什么要在 python 中使用类方法？ [复制]

这个问题在这里已经有答案了我正在 python 的某个类中编写一个函数人们建议我向这个函数添加一个 classmethod装饰师 My code import random class Randomize RANDOM CHOICE a
如何将表单数据从角度传递到nodejs

我是 Angular5 的新手我需要将用户详细信息从 Angular 传递到 Nodejs 应用程序组件 ts import Component from angular core import FormBuilder FormGroup
删除 MultiIndex 中带有重复项的 NaN 行

使用重现我的确切问题的 DataFrame 进行更新我有一个问题NaN出现在我的索引中会导致非唯一的行因为NaN NaN 我需要将所有行删除到NaN出现在索引中我之前的问题有一个示例 DataFrame 其中包含一个NaN行但是原始
Backbone.js 与 Eco 模板：如何在模板中包含模板？

是否可以在模板中包含模板也许类似于 ERB 处理部分的方式与其尝试以 ERB 之类的方式渲染嵌套模型不如让 Backbone js 来处理这个问题注意我使用的是 Coffeescript 语法项目 IndexView templ
如何将 Variant 数组转换为 Range？

我有一个 2D 数组类型Variant 填充数组的大小和值是根据工作表中的数据生成的该数组需要进一步处理主要是几个值的插值我正在用这个插值函数 http www ozgrid com forum showthread php t 64
vue合成api如何解决命名冲突？

据说composition api解决了mixin带来的命名冲突这是我在网上找到的关于composition API的内容 export default setup const someVar1 someMethod1 useCompFu
Android - 使用 PackageInstaller 和 PackageInstaller.Session 静默安装 APK

调查Android AOSP 的来源 installPackage被标记为已弃用并检查 Android 的 PackageManager 应用程序它使用PackageInstaller类来创建一个PackageInstaller Sess
为什么GCC的VLA（可变长度数组）实现中有数字22？

int read val long read and process int n long vals n for int i 0 i lt n i vals i read val return vals n 1 x86 64 GCC 5 4
如何使用 patchwork 在 ggplot2 中添加第二个标题？

假设我想将以下六个图合并为一个图 library ggplot2 p1 lt ggplot mtcars geom point aes mpg disp p2 lt ggplot mtcars geom point aes mpg disp
使用 google-drive-api 创建子文件夹并使用 PHP 返回 id

我可以使用下面的代码创建子文件夹但我无法返回 id 我想获取文件夹的 ID 和或链接以便将它们添加到我的数据库中目前下面创建了文件夹但只返回作为 id 感谢您的帮助
将 tar.gz 打包成 shell 脚本

我想知道如何将 tar gz 文件打包到 shell 脚本中就像 idk bin 那样这样我就可以在一个 shell 文件中交付该程序而不是 tar gz 有一个Linux 期刊文章 http www linuxjournal com
解决 PyCharm python 错误 - dyld: Library not returned

我正在使用 PyCharm 2018 3 2 社区版在 macOS Sierra V 10 12 6 下今天我在Python Console中发现以下错误消息 dyld Library not loaded usr local Cell
以编程方式重定向 Chrome

我已经能够使用以下代码使用辅助功能服务读取 chrome 内容
将文本放入框中

在我的网站上我允许用户创建图片并在图片上绘制他们指定的文本行目前我使用 imagemagick 转换我指定 svg 模板并让转换完成其余的工作这是负责输出图片中文本的部分代码
将数字添加到文件中每一行的开头

如何将数字添加到文件中每一行的开头 E g This is the text from the file Becomes 000000001 This is 000000002 the text 000000003 from the fil
获取加载的 SVG 文件的内容

我已经制作了将从 url 加载到特定 div svg 文件的函数 function load vector divId vector url var div divId div load vector url console log div
DataGrid 列中的列/行索引

我希望以下内容能让我在单元格中获得列索引
使用 dplyr() 随机删除重复行

作为此问题的后续问题使用 dplyr 删除重复行 https stackoverflow com questions 22959635 remove duplicated rows using dplyr 我有以下内容如何使用 dply

使用 dplyr() 随机删除重复行

使用 dplyr() 随机删除重复行 的相关文章

随机推荐

热门标签

使用 dplyr() 随机删除重复行的相关文章