匹配/分组重复行（索引）

2024-04-18

如何有效地匹配/分组重复行的索引？

假设我有这个数据集：

set.seed(14)
dat <- data.frame(mtcars[sample(1:5, 14, TRUE), ])[sample.int(14), ]
rownames(dat) <- NULL
dat 

##     mpg cyl disp  hp drat    wt  qsec vs am gear carb
## 1  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 2  21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## 3  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 4  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 5  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 6  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 7  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 8  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 9  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 10 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 11 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 12 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## 13 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## 14 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4

我可以使用以下命令找到所有重复项的索引（包括第一个重复项）

which_duplicated <- function(dat){
    which(duplicated(dat) | duplicated(dat[nrow(dat):1, ])[nrow(dat):1])
}

which_duplicated(dat)

## [1]  1  2  3  4  5  6  7  8  9 10 11 13

但我希望能够将这些索引进行匹配，如下所示：

list(
    c(2, 13),
    c(1, 4, 5, 6, 9),
    c(3, 7, 8, 10, 11)
)

我怎样才能有效地做到这一点？

这是使用“data.table”的可能性：

library(data.table)
as.data.table(dat)[, c("GRP", "N") := .(.GRP, .N), by = names(dat)][
                   N > 1, list(list(.I)), by = GRP]
##    GRP             V1
## 1:   1      1,4,5,6,9
## 2:   2           2,13
## 3:   3  3, 7, 8,10,11

基本思想是创建一个列来“分组”其他列（使用.GRP）以及计算有多少重复行的列（使用.N），然后过滤任何具有多个重复项的内容，并将“GRP”列放入list.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

匹配/分组重复行（索引）的相关文章

如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
如何动态地将 sliderInput 添加到闪亮的应用程序中？

使用闪亮我上传一个 csv 文件并根据列名称我需要向 ui 添加滑块 sidebarPanel fileInput file1 Upload CSV File to Create a Model accept c text csv t
R：单纯形错误：在下标赋值中不允许使用 NA

对于以下具有目标函数和约束的最小化 boot simplex返回错误 Error in tab pr lt tab pr tab pr pc pv o tab pr NAs are not allowed in subscripted as
R - 基于列名称的子集

我的数据框有超过 120 列变量我想根据列名称创建子集例如我想创建一个子集其中列名称包含字符串心情这可能吗我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
在 R 上安装 TDA 包时出错：目标“diag.o”的配方失败

使用 Ubuntu 16 04 和 R 3 4 1 安装 R 包 TDA 时收到错误消息它似乎与制作 CGAL diag cpp 和或 diag o 最后的完整错误打印输出有关我仔细看了这个在 R 上安装 TDA 包时出错 htt
如何将参数从 Excel/VBA 传递到 Rstudio 中的脚本

我正在尝试使用 Rstudio 从 VBA 打开 R 脚本同时将参数传递给 R 脚本然后我可以使用 commandArgs 访问该脚本该问题与此处描述的问题非常相似 WScript Shell 用于运行路径中包含空格且来自 VBA 的
是否有weighted.median()函数？

我正在寻找类似形式的东西weighted mean 我通过搜索找到了一些解决方案这些解决方案写出了整个函数但希望有一些更用户友好的解决方案以下软件包都有计算加权中位数的函数 aroma light isotone limma cwhm
R：改变堆积条形图的颜色

library ggplot2 df2 lt data frame supp rep c VC OJ each 3 dose rep c D0 5 D1 D2 2 len c 6 8 15 33 4 2 10 29 5 head df2 g
将 Excel 文件读入 R 并锁定单元格

我有一个 Excel 电子表格要读入 R 它受密码保护并锁定了单元格我可以使用 excel link 导入受密码保护的文件但我不知道如何解锁取消保护单元格 excel link 给了我这个错误 gt
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d
R 颜色 - 许多独特的颜色仍然很漂亮

我很好奇你是否有一些关于 R 中颜色酿造的技巧对于许多独特的颜色在某种程度上图形仍然好看我需要相当数量的独特颜色至少 24 种可能需要更多 50 种用于堆叠区域图所以不是热图渐变颜色不起作用我发现了 viridis 它的调
ggplot 的每个方面都有不同的 `geom_hline()`

这个问题在这里已经有答案了 library tidyverse ggplot mpg aes cty hwy geom point facet grid year fl geom hline yintercept mean mpg hwy
tidyverse - 将命名向量转换为 data.frame/tibble 的首选方法

使用tidyverse我经常面临将命名向量转换为向量的挑战data frame tibble列是向量的名称执行此操作的首选 tidyverse 方式是什么编辑这与 this https github com hadley dplyr
在 R 中显示变量的精确值

gt x lt 1 00042589212565 gt x 1 1 000426 如果我想打印的确切值x 我该怎么办呢抱歉如果这是一个愚蠢的问题我尝试在谷歌上搜索 R 和精确或圆形但我得到的只是有关如何舍入的文章先感谢您所
ggplot geom_bar - 条形太宽

对于这个非信息性的标题我感到很抱歉 gt y read csv textConnection scan sep n what raw org art type length 191 gk Finish short 4 147 ik Att
用于安装 R 软件包的备用编译器：clang：错误：不支持的选项“-fopenmp”

我正在尝试在 OS X 10 11 6 上使用 R 版本 3 4 0 安装 rJava 包 install packages rJava type source 我收到以下错误 clang o libjri jnilib Rengine o
使用 dplyr 对连续变量进行分类[重复]

这个问题在这里已经有答案了我想基于连续数据创建一个具有 3 个任意类别的新变量 set seed 123 df lt data frame a rnorm 100 使用基地我会 df category df a lt 0 5 lt low
函数速度测试的奇怪结果

我编写了一个使用递归来查找最大公因数分母的函数 gt gcd function a b if length a length b gt 1 warning Only scalars allowed using first element
使用括号表示 y 轴上的负值 ggplot2

我想在括号中显示 y 轴负值而不是用负号例如我想显示 2 000 而不是 2 000 我在 R 中使用 ggplot2 我尝试在scale y continuous内部使用 negative parens TRUE 如下所示但没有成

随机推荐

在 Java 15 模块化设置中使用 Eclipse 中的 SWT

我只是想获得基本的 Hello World 项目Trial0 应用程序运行使用 Eclipse 版本 2020 12 4 18 0 使用 SWT 4 18 Linux GTK Java 编译器设置为 15 遵循有点古老关于 JDK 1
为什么我们需要将可选值显式转换为 Any？

根据苹果文档 Any 类型表示任何类型的值包括可选类型如果您使用可选值其中值预期类型为 Any 如果您确实需要使用可选的 value 作为 Any 值您可以使用 as 运算符显式转换可选为Any 如下所示 var things
如何在没有开发工具的情况下在运行时列出 html 元素的事件侦听器？

有这样一个答案我可以通过编程方式检查和修改 html 元素上的 Javascript 事件处理程序吗 https stackoverflow com questions 1436823 can i programmatically exa
如何单击 ListView 中索引为 10 的位置的按钮 - Robotium 自动化？

假设我有一个 ListView 其中包含 20 个 ListItem 每个项目都有一个按钮现在我想单击位于ListView中第10个位置的按钮我如何通过robotium实现自动化尝试这样做不确定是否有效 get the list
为列表中的每个项目制作 tkinter 按钮？

我想制作一些按钮其中包含从数据库返回的项目列表所有按钮都调用传入列表项目的函数类似这段代码但有效这段代码的问题是所有按钮都调用该函数 item3 usr bin env python from Tkinter import root
自动在资源顶部插入 ETag（资产指纹）作为注释

如何要求 Play 在不使用第三方插件的情况下自动将文件的 ETag 作为注释插入到文件顶部附近例如对于 HTML 资源插入在顶部 tag 关于如何使用 Play 框架的内置公共资产路由指纹支持来做到这一点的答案也很棒相关问题用
numpy 数组映射并取平均值

我有三个数组 import numpy as np value np array 1 3 3 5 5 7 3 index np array 1 1 3 3 6 6 6 data np array 1 2 3 4 5 6 数组索引和值
为什么asp.net 5.0预览版没有身份验证-web api模板-

我在新的 Visual Studio 2015 中创建了一个 Web 项目我可以选择 asp net 4 6 或 5 0 预览 Web api 模板老4 6有身份验证但我想使用新的 5 0 预览版 Web api 但是这个模板缺少认
excel中=if(isnumber(search)))公式可以做多个选项吗？

此公式在单元格 I3 内查找字符串 BFA 如果找到则返回 BFA 如果不是则返回否 IF ISNUMBER SEARCH BFA I3 BFA No 如何修改它以同时适用于多个字符串例如如果找到 BFA MFA BA MA 中的
如何将 Request->all() 与 Eloquent 模型一起使用

我有一个 lumen 应用程序需要在其中存储传入的 JSON 请求如果我写这样的代码 public function store Request request if request gt isJson data request gt
Python 中从右到左的语言

我想用 Python 编写希伯来语字符串然后将其显示在屏幕上问题是我得到了我所写内容的镜像如何将字符串设置为使用 RTL 而不是从左到右你尝试过这个吗 http pypi python org pypi python bidi ht
如果多个ID从一张表指向另一张表，如何连接三个表或三个以上的表？

我对加入感到困惑假设我这里有三个表学生表课程表教师表学生表 Std Id Std Name Course Id Teacher Id 1 Amit 2 1 2 Yogesh 1 1 3 Pravin 3 2 4 Nilay 1 3
尝试使用 R fitdistr{MASS} 拟合伽玛分布时出错

我在 R 中遇到 fitdistr MASS 函数的问题我有这个向量 a lt c 26 73 84 115 123 132 159 207 240 241 254 268 272 282 300 302 329 346 359 367
有人可以帮助我使用 Android RemoteControlClient 吗？

我正在尝试获取RemoteControlClient设置以便我的应用程序的音乐可以通过锁定屏幕上弹出的小部件进行控制例如 SoundCloud Google Play 音乐和其他音乐视频应用程序我不确定我的代码有什么问题以及为什么它没
具有多处理功能的超时装饰器类会出现酸洗错误

所以在 Windows 上signal和thread一般来说这种方法是坏主意不适用于函数超时我制作了以下超时代码它会抛出timeout exception from multiprocessing当代码花费很长时间时这正是我想要的
php 和 html 文件扩展名有什么区别？

我有一个 php文件包含以下代码当我将文件的扩展名更改为 html那么它也以同样的方式表现任何人都可以解释以下内容为什么文件的行为方式与两个文件的行为方式相同扩展两者有什么区别 php and html文件扩展名 php file
检测鼠标悬停在用户控件和所有子控件上 - C# WinForms

我设计了一个用户控件里面有几个控件我将用户控件拖放到表单上然后为其设置鼠标悬停事件以在某处显示评论但有一个问题用户应该将鼠标悬停在 UserControl 容器上才能看到该注释如果他将鼠标悬停在 UserControl 内的其中
如何调用模板基类中的模板成员函数？

当在基类中调用非模板化成员函数时可以使用以下命令导入其名称using到派生类中然后使用它这对于基类中的模板成员函数也可能吗只是与using它不起作用使用 g snapshot 20110219 std c 0x template
是否有必要创建与现有 ASP.NET 2.0 ASPState DB 不同的 ASP.NET 4.0 SQL 会话状态数据库？

Is the ASP NET 4 0SQL 会话状态机制向后兼容 ASP NET 2 0 会话状态架构或者我们应该必须为 ASP NET 4 0 应用程序创建一个单独且不同的会话状态数据库无论如何我倾向于后者但是2 0数据库seem
匹配/分组重复行（索引）

如何有效地匹配分组重复行的索引假设我有这个数据集 set seed 14 dat lt data frame mtcars sample 1 5 14 TRUE sample int 14 rownames dat lt NULL da

匹配/分组重复行（索引）

匹配/分组重复行（索引） 的相关文章

随机推荐

热门标签

匹配/分组重复行（索引）的相关文章