在分组数据框中选择具有公共 ID 的行

2023-12-09

我正在寻找以下问题的更简单的解决方案。这是我的设置：

test <- tibble::tribble(
  ~group_name, ~id_name, ~varA, ~varB,
     "groupA",   "id_1",     1,   "a",
     "groupA",   "id_2",     4,   "f",
     "groupA",   "id_3",     5,   "g",
     "groupA",   "id_4",     6,   "x",
     "groupA",   "id_4",     6,   "h",
     "groupB",   "id_1",     2,   "s",
     "groupB",   "id_2",    13,   "y",
     "groupB",   "id_4",    14,   "t",
     "groupC",   "id_1",     3,   "d",
     "groupC",   "id_2",     7,   "j",
     "groupC",   "id_3",     8,   "k",
     "groupC",   "id_4",     9,   "l",
     "groupC",   "id_5",     0,   "o",
     "groupC",   "id_6",    12,   "u"
  )

我只想选择其中的那些元素id_name是所有群体共有的group_name- 即删除所有组中不存在的 id 行。我的实际数据很大（200k 行），有 4-20 组（我事先不知道组数，因此解决方案必须适用于任意数量的组）。这id_name每个组中并不唯一。期望的结果是：

test_result <- tibble::tribble(
  ~group_name, ~id_name, ~varA, ~varB,
     "groupA",   "id_1",     1,   "a",
     "groupA",   "id_2",     4,   "f",
     "groupA",   "id_4",     6,   "x",
     "groupA",   "id_4",     6,   "h",
     "groupB",   "id_1",     2,   "s",
     "groupB",   "id_2",    13,   "y",
     "groupB",   "id_4",    14,   "t",
     "groupC",   "id_1",     3,   "d",
     "groupC",   "id_2",     7,   "j",
     "groupC",   "id_4",     9,   "l",
  )

（至少一组中缺少 id 的行将被删除）。理想情况下，我不希望我的输出在末尾加入列。我想“简单地”删除任何一组中缺少的行，但保持数据框的形状。

我知道我可以从每个组中提取所有 id，然后将它们全部相交以获得所有组中存在的唯一 id 列表，然后过滤主数据帧以仅查找这些 id。但这听起来工作量很大;-)

任何提示将非常感激。

在基数 R 中，我们可以split id_name by group_name找到共同点id's进而subset

subset(test, id_name %in% Reduce(intersect, split(id_name, group_name)))

#   group_name id_name  varA varB 
#   <chr>      <chr>   <dbl> <chr>
# 1 groupA     id_1        1 a    
# 2 groupA     id_2        4 f    
# 3 groupA     id_4        6 x    
# 4 groupA     id_4        6 h    
# 5 groupB     id_1        2 s    
# 6 groupB     id_2       13 y    
# 7 groupB     id_4       14 t    
# 8 groupC     id_1        3 d    
# 9 groupC     id_2        7 j    
#10 groupC     id_4        9 l

使用类似的概念tidyverse，这将是

library(tidyverse)
test %>%
  filter(id_name %in% (test %>%
                         group_split(group_name)  %>%
                         map(~pull(., id_name)) %>%
                         reduce(intersect)))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

tidyverse

在分组数据框中选择具有公共 ID 的行的相关文章

循环遍历列并将字符串长度添加为新列

我有一个包含多列的数据框并且希望为每个列输出一个单独的列其中包含每行的长度我试图迭代列名称并为每列输出一个附加有 length 的相应列例如 col1 col2 将转到 col1 列2 col1 长度列2 长度我正在使用的代码
在 R/ggplot2 中将字符串转换为函数参数的最佳方法？ [复制]

这个问题在这里已经有答案了我正在开发一个闪亮的应用程序用户可以选择可以使用 ggplot2 绘制哪些变量但是我完全不确定将字符串即要绘制的变量的名称转换为合适的函数参数的最佳方法考虑以下非常人为的有效的示例 df lt dat
是否可以使用像“tz=NULL”这样的东西？...“as.POSIXct”默认为依赖于语言环境的时区（与“as.Date”不同），这会导致问题

我知道这是一个长期存在根深蒂固的问题但这是我经常遇到的问题而且我看到初学者R经常与此斗争我希望有一个令人满意的解决方案到目前为止我的谷歌和 SO 搜索都是空的但如果在其他地方重复请指出正确的方向 TL DR 有没有办法使用类
什么是 data.frame 可以做而 data.table 不能做的事情？

我刚刚开始使用 R 并遇到了 data table 我发现它很棒一个非常天真的问题我可以忽略 data frame 来使用 data table 以避免两个包之间的语法混淆吗来自数据表常见问题解答 http datatable r f
使用梯度下降（最速下降）估计线性回归

示例数据 X lt matrix c rep 1 97 runif 97 nrow 97 ncol 2 y lt matrix runif 97 nrow 97 ncol 1 我已经成功创建了成本函数 COST lt function th
添加不同的标签以在 ggplot R 中的堆积条形图中显示总计？

我的问题有点类似如何添加文本标签以显示ggplot中堆叠比例条的每个条中的总数n https stackoverflow com questions 65201095 how to add text label to show total
在 RStudio 控制台中显示西里尔字母

我在 Rstudio 控制台中显示俄语字符时遇到问题我使用 readxl 包加载带有俄语的 Excel 文件西里尔字母在数据框中正确显示但是如果我运行一个输出包含变量名称的函数 RStudio 控制台将显示符号而不是正确的西里尔字符
如何编写一个也接受字符输入的 NES 函数？

我正在开发一个将字符串作为函数参数的 R 包现在我想使用非标准评估来允许非字符串输入另外为了保持向后兼容性我想保留函数接受字符串的可能性哈德利给出了example https cran r project org web pack
corr.test 与 cor.test p 值

我正在尝试使用 psych 包 psych 1 6 9 中的 corr test 但在使用 method spearman 时它似乎给出了与 cor test 不同的 p 值相关系数相同但 p 值不同我整理了一些示例代码和输出如下
R 中的 For 循环分配给数据框

运行 for 循环后我在分配给数据帧时遇到问题当我使用 print 时它给出了我的价值有什么解释吗 salesdate lt rep seq from as Date 2013 12 19 to as Date 2013 12 23
为什么 quosures 在 group_by() 中起作用，但在 filter() 中不起作用？

我正在构建一个函数我将根据字符串操作数据框在该函数中我将根据字符串构建一个列名称并使用它来操作数据框如下所示 library dplyr orig df lt data frame id 1 3 amt c 100 200 300
R 包“raster”在搜索“terra”最新版本时无法上传

我正在 Windows 10 中使用 RStudio 2021 09 2 中的 R 4 1 2 工作我正在处理空间数据包括矢量和栅格但三天前命令库栅格开始向我发出此警告错误 loadNamespace i c lib loc l
是否可以在 R 中创建自定义 pch 形状？

R 中的许多绘图函数都使用图形参数pch指定数据点的形状根据R 文档 https www rdocumentation org packages graphics versions 3 6 2 topics points 有 26 个矢量
当 header=TRUE 时 read.fwf 出错

我的模拟数据如下所示 LastName Date email CreditCardNum AgeZip Amount Paul 21 02 14 email protected cdn cgi l email protection 4241
根据第二个数据帧中的匹配创建新列

如果有两个数据框 top3df http dpaste com 1709875 and qw qw lt structure list id structure 1 25 Label c w01 w02 w03 w04 w05 w06 w0
将一个大的 xlsx 文件导入到 R 中？

我想知道是否有人知道从大 xlsx 文件 20Mb 导入数据的方法我尝试使用 xlsx 和 XLConnect 库不幸的是两者都使用 rJava 我总是收到相同的错误 gt library XLConnect gt wb lt lo
将英寸高度的字符向量转换为厘米？

我得到一个字符向量 tibble H c 6 2 5 10 5 5 5 1 5 5 5 4 我想将其转换为厘米请告知我该怎么做有几种方法可以使用 1 阅读与fread粘贴到单个字符串后 library data table fread
ggplot2：图例中的斜体

我正在尝试编辑图例中的标签以便第一个标签 WT 为纯文本而后续 7 个标签为斜体我一直在使用element text face c plain rep italic 7 但这导致没有任何标签被转换为斜体我有点困惑为什么它不起作用因
在R中提取其他两个字符串之间的字符串

我试图找到一种简单的方法来提取出现在两个已知子字符串之间的未知子字符串可以是任何内容例如我有一个字符串 a lt anything goes here STR1 GET ME STR2 anything goes here 我需要提取
R 中的频率加权，与 Stata 的结果比较

我正在尝试分析明尼苏达大学 IPUMS 数据集中的数据1990 年美国人口普查 http usa ipums org usa sampdesc shtml us1990a in R 我正在使用survey http faculty wash

随机推荐

将列表向量转换为向量向量

我的 txt 文件中有以下数据 1 John Smith 123 Here Street 456 4567 2 Sue Jones 43 Rose Court Street 345 7867 3 Fan Yuhong 165 Happy L
创建转弯导航 iPhone 应用程序

我正在尝试构建一个像 TomTom 或 Mapquest 这样的路线导航应用程序并且我正在寻找一些入门帮助以获取可用选项和许可如果有从技术上讲我认为通过 Core Location 在地图上绘制当前位置或地址相当容易但我有一些更
null 在此代码中如何工作？ [复制]

这个问题在这里已经有答案了 null 在此代码中如何工作为什么它不打印对象 class Test1 public void doStuff Object o System out println In Object public void
使用 MongoDB / Meteor 更新数组中的特定元素

users voted user id AQG8ECLdBRJ4jwPMG score down 想知道我将如何更新users votedfield 是一个数组对象我需要更新一个特定的对象我知道index该对象所在的位置我只需要弄清楚
如何正确关闭 ODP.net 连接：dispose() 或 close()？

这是我的powershell代码 void System Reflection Assembly LoadFile C DLL Oracle ManagedDataAccess dll OracleConnexion New Object
nginx 未知指令“auth_jwt”

我想在我的 nginx 上设置 jwt auth 但出现此错误 nginx emerg unknown directive auth jwt in usr local etc nginx nginx conf 我的 nginx 版本 ngi
以编程方式确定 UNC 路径中的可用空间

是否有用于从 UNC 路径确定 NAS 存储上的可用空间的编程 API 我查看了 WMI 文档并不清楚这是否可行如果有代码示例和相关 API 调用的参考我们将不胜感激在 Windows API 中获取FreeDiskSpaceEx
饼图透明度，多个饼图

我想将两个饼图堆叠在一起这里的想法是将其中一个变小这样您就只能看到后面饼图的外环我尝试使用 chartCalProgres BackColor Color Transparent chartCalProgres ChartAreas
android.net.wifi.WifiManager 中缺少方法

在网站上androidjavadoc com 一个方法startScanActive被列在类中WifiManager这使得执行主动 Wi Fi 扫描成为可能它一直在这里讨论最近也是然而当我尝试在 Eclipse 中使用该方法时找不到
为什么 TFontDialog 提供的字体比 Screen.Fonts 少？

我想知道为什么 TFontDialog 提供的字体比 Screen Fonts 少例如 Arial 字体 Comic 字体等不会在 TFontDialog 中显示 TFontDialog 给出的字体列表似乎与 WordPad 相同而 S
掌握 Node JS 多线程的替代方案

如果我理解正确的话 Node JS 是非阻塞的所以它不会等待数据库或其他进程的响应而是转移到其他东西并稍后检查而且它是单线程的那么这一切是否意味着给定的 Node JS 进程可以充分有效地利用单个 CPU 核心但它不会使用机器上的
如何在运行时以最小的开销共享全局常量？

我正在使用 C 11 我不允许使用像 boost 等外部库我必须只使用 STL 我有许多事件必须将其标识为字符串常量我不允许使用枚举或整数或任何其他数据类型例如事件名称1 事件名称2 some other event name3
从 EmitterProcessor 移动到 Sinks.many()

已经使用有一段时间了create an EmitterProcessor内置sink如下 EmitterProcessor
非常非常简单的 C++ 程序中的“未定义引用”错误

我有一个简单的程序我完全从示例中复制了它http www learncpp com cpp tutorial 19 header files 因为我正在学习如何使用多个文件制作 C 程序程序可以编译但构建时出现以下错误 tmp ccm
kCFStreamErrorDomainSSL，在 iOS 9 中通过 HTTPS 通过 IP 地址连接到服务器时为 -9802

我们有一个通过 HTTPS 连接到我们的服务器的 iOS 应用程序当使用新的 iOS 9 SDK 构建应用程序并在 iOS 9 下运行时会出现以下错误 NSURLSession NSURLConnection HTTP load fai
Scala 中是否有类型变量 'm forSome { type m[O] <: UpperBound[O] }` 的简写？

Problem trait UpperBound O trait High F O lt UpperBound O def canEqual that Any that isInstanceOf High def high h High 无
如何选择在哪个 GPU 上运行作业？

在多 GPU 计算机中如何指定 CUDA 作业应在哪个 GPU 上运行例如在安装 CUDA 时我选择安装NVIDIA CUDA lt gt Samples然后运行了几个实例nbody模拟但它们都运行在一个 GPU 0 上 GPU
将多个ggplot打印到一个pdf中，每页多个图

我有一个清单 p 其中每个元素p是 ggplot2 绘图对象的列表我想输出一个包含所有绘图的pdfp这样的情节p 1 在第 1 页上图中的图p 2 位于第 2 页等我该怎么做这里有一些示例代码为您提供我正在使用的数据结构对无聊的
如何从外部字符串文件创建数组

如何在语音识别程序中添加数组请参阅下面的代码我尝试使用streamReader读取一个字符串并创建一个数组并放在后面commands Add new String 查看下面的代码但无法实现 using System using Syst
在分组数据框中选择具有公共 ID 的行

我正在寻找以下问题的更简单的解决方案这是我的设置 test lt tibble tribble group name id name varA varB groupA id 1 1 a groupA id 2 4 f groupA id

在分组数据框中选择具有公共 ID 的行

在分组数据框中选择具有公共 ID 的行 的相关文章

随机推荐

热门标签

在分组数据框中选择具有公共 ID 的行的相关文章