使用 dplyr 将一个 data.frame 的输出通过管道传输到另一个 data.frame

2024-03-22

我有两个 data.frames——一个查找表，它告诉我一组中包含的一组产品。每组有at least类型 1 和类型 2 的一种产品。

第二个 data.frame 告诉我有关交易的详细信息。每笔交易可以有以下产品之一：

a) 唯一的产品s来自其中一组的 1 型

b) 唯一产品s来自其中一组的 2 型

c) 类型1和类型2的产品来自同一组

对于我的分析，我有兴趣找出上面的 c)，即有多少交易拥有类型 1 的产品and类型 2（来自同一组）卖。如果来自不同组的类型 1 产品和类型 2 产品在同一交易中出售，我们将完全忽略该交易。

因此，类型 1 或类型 2 的每个产品必须属于同一组。

这是我的查找表：

> P_Lookup
   Group ProductID1 ProductID2
  Group1          A          1
  Group1          B          2
  Group1          B          3
  Group2          C          4
  Group2          C          5
  Group2          C          6
  Group3          D          7
  Group3          C          8
  Group3          C          9
  Group4          E         10
  Group4          F         11
  Group4          G         12
  Group5          H         13
  Group5          H         14
  Group5          H         15

例如，我不会在一笔交易中拥有产品 G 和产品 15，因为它们属于不同的组。

以下是交易情况：

  TransactionID ProductID ProductType
             a1         A           1
             a1         B           1
             a1         1           2
             a2         C           1
             a2         4           2
             a2         5           2
             a3         D           1
             a3         C           1
             a3         7           2
             a3         8           2
             a4         H           1
             a5         1           2
             a5         2           2
             a5         3           2
             a5         3           2
             a5         1           2
             a6         H           1
             a6        15           2

My Code:

现在，我可以使用编写代码dplyr用于从一组中筛选交易。但是，我不确定如何矢量化我的代码all groups.

这是我的代码：

P_Groups<-unique(P_Lookup$Group)
Chosen_Group<-P_Groups[5]

P_Group_Ind <- P_Trans %>%
group_by(TransactionID)%>%
dplyr::filter((ProductID %in% unique(P_Lookup[P_Lookup$Group==Chosen_Group,]$ProductID1)) | 
(ProductID %in% unique(P_Lookup[P_Lookup$Group==Chosen_Group,]$ProductID2)) ) %>%
mutate(No_of_PIDs = n_distinct(ProductType)) %>%
mutate(Group_Name = Chosen_Group)

P_Group_Ind<-P_Group_Ind[P_Group_Ind$No_of_PIDs>1,]

只要我手动选择每个组（即通过设置），这就可以很好地工作Chosen_Group。但是，我不确定如何自动化此操作。我想的一种方法是使用for循环，但我知道R的美妙之处在于向量化，所以我想远离使用for循环。

我真诚地感谢任何帮助。我在这上面花了将近两天的时间。我在看在r中的for循环中使用dplyr https://stackoverflow.com/questions/33611657/using-dplyr-in-for-loop-in-r，但该线程似乎正在讨论不同的问题。

DATA: Here's dput for P_Trans:

structure(list(TransactionID = c("a1", "a1", "a1", "a2", "a2", 
"a2", "a3", "a3", "a3", "a3", "a4", "a5", "a5", "a5", "a5", "a5", 
"a6", "a6"), ProductID = c("A", "B", "1", "C", "4", "5", "D", 
"C", "7", "8", "H", "1", "2", "3", "3", "1", "H", "15"), ProductType = c(1, 
1, 2, 1, 2, 2, 1, 1, 2, 2, 1, 2, 2, 2, 2, 2, 1, 2)), .Names = c("TransactionID", 
"ProductID", "ProductType"), row.names = c(NA, 18L), class = "data.frame")

Here's dput for P_Lookup:

structure(list(Group = c("Group1", "Group1", "Group1", "Group2", 
"Group2", "Group2", "Group3", "Group3", "Group3", "Group4", "Group4", 
"Group4", "Group5", "Group5", "Group5"), ProductID1 = c("A", 
"B", "B", "C", "C", "C", "D", "C", "C", "E", "F", "G", "H", "H", 
"H"), ProductID2 = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 
14, 15)), .Names = c("Group", "ProductID1", "ProductID2"), row.names = c(NA, 
15L), class = "data.frame")

这是dput()将查找表中不存在的产品添加到 P_Trans 后：

structure(list(TransactionID = c("a1", "a1", "a1", "a2", "a2", 
"a2", "a3", "a3", "a3", "a3", "a4", "a5", "a5", "a5", "a5", "a5", 
"a6", "a6", "a7"), ProductID = c("A", "B", "1", "C", "4", "5", 
"D", "C", "7", "8", "H", "1", "2", "3", "3", "1", "H", "15", 
"22"), ProductType = c(1, 1, 2, 1, 2, 2, 1, 1, 2, 2, 1, 2, 2, 
2, 2, 2, 1, 2, 3)), .Names = c("TransactionID", "ProductID", 
"ProductType"), row.names = c(NA, 19L), class = "data.frame")

下面是一个 tidyverse（dplyr、tidyr 和 purrr）解决方案，希望对您有所帮助。

请注意，使用map_df最后一行将所有结果作为数据框返回。如果您希望它成为每个组的列表对象，则只需使用map.

library(dplyr)
library(tidyr)
library(purrr)

# Save unique groups for later use
P_Groups <- unique(P_Lookup$Group)

# Convert lookup table to product IDs and Groups
P_Lookup <- P_Lookup %>% 
              gather(ProductIDn, ProductID, ProductID1, ProductID2) %>% 
              select(ProductID, Group) %>% 
              distinct() %>% 
              nest(-ProductID, .key = Group)

# Bind Group information to transactions
# and group for next analysis
P_Trans <- P_Trans %>%
             left_join(P_Lookup) %>%
             filter(!map_lgl(Group, is.null)) %>%  
             unnest(Group) %>% 
             group_by(TransactionID)

# Iterate through Groups to produce results
map(P_Groups, ~ filter(P_Trans, Group == .)) %>% 
  map(~ mutate(., No_of_PIDs = n_distinct(ProductType))) %>% 
  map_df(~ filter(., No_of_PIDs > 1))
#> Source: local data frame [12 x 5]
#> Groups: TransactionID [4]
#> 
#>    TransactionID ProductID ProductType  Group No_of_PIDs
#>            <chr>     <chr>       <dbl>  <chr>      <int>
#> 1             a1         A           1 Group1          2
#> 2             a1         B           1 Group1          2
#> 3             a1         1           2 Group1          2
#> 4             a2         C           1 Group2          2
#> 5             a2         4           2 Group2          2
#> 6             a2         5           2 Group2          2
#> 7             a3         D           1 Group3          2
#> 8             a3         C           1 Group3          2
#> 9             a3         7           2 Group3          2
#> 10            a3         8           2 Group3          2
#> 11            a6         H           1 Group5          2
#> 12            a6        15           2 Group5          2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 dplyr 将一个 data.frame 的输出通过管道传输到另一个 data.frame 的相关文章

R 中的聚类分析：确定最佳聚类数

如何选择最佳的聚类数量来进行 k 均值分析绘制以下数据的子集后多少个簇比较合适如何进行聚类树突分析 n 1000 kk 10 x1 runif kk y1 runif kk z1 runif kk x4 sample x1 lengt
为什么 as.character() 返回日期列表中的整数？

我惊讶地发现 R 中出现以下行为 as character c Sys Date gt 1 2018 02 05 as character list Sys Date gt 1 17567 为什么会出现这种情况也就是说显然 17567
使用 ape 包在 R 中进行标签和色叶树状图（系统发育）

继上一篇文章之后 r 中的标签和彩色叶树状图 https stackoverflow com questions 18802519 label and color leaf dendrogram in r 我有一个后续问题我的问题与提到的
如何导入 .tsv 文件

我需要读取一个表 tsvR 中的文件 test lt read table file drug info tsv Error in scan file what nmax sep dec quote skip nlines na strin
R 和 Python 中 LU 分解结果不一致

我有以下矩阵A in R 1 2 3 4 1 1 1527778 0 4444444 0 375 0 3333333 2 0 5555556 1 4888889 0 600 0 3333333 3 0 6250000 0 4000000 1
通过删除连续的重复项来减少字符串长度

我有一个包含 2 个字段的 R 数据框 ID WORD 1 AAAAABBBBB 2 ABCAAABBBDDD 3 我想通过仅保留字母而不是重复中的重复项来简化具有重复字母的单词 e g AAAAABBBBB应该给我AB and ABCAA
如何在environment.yml中安装CRAN包

我正在使用 miniconda 来管理数据科学包的安装这是我现在已经建立的工作流程所以我希望它也能在这种情况下工作我也认为它可以工作因为它应该在这样的情况下有所帮助比纯 python 需要更多的依赖项我想安装pythonCDT工
获取行名以 ABC111 开头的所有行

我们有以下数据框 col1 col2 col3 ABC111001 12 12 13 ABC111002 3 4 5 ABC000111 7 6 1 ABC000112 9 23 1 如何获取行名以开头的所有行ABC111 如下 ABC1
R.scale() 和 sklearn.preprocessing.scale() 之间的区别

我目前正在将数据分析从 R 转移到 Python 当在 R 中缩放数据集时我将使用 R scale 根据我的理解它将执行以下操作 x mean x sd x 为了替换该函数我尝试使用 sklearn preprocessing sca
替换向量中非 %in% 向量的值

简短的问题我可以像这样替换某些变量值 values lt c a b a b c a b df lt data frame values 将 df values 的所有值替换为 x 其中值是neither a 或 b 输出应该是 c a
如何使用 RODBC 将数据帧保存到数据库生成的主键表

我想使用 R 脚本将数据框输入到数据库中的现有表中并且希望数据库中的表具有顺序主键我的问题是 RODBC 似乎不允许主键约束这是创建我想要的表的 SQL CREATE TABLE dbo results ID INT IDENTITY
ggplot2 中的小时刻度

我正在处理就寝时间和醒来时间因此我想创建一个具有 24 小时 x 轴的图表从第一天中午 12 点开始到第二天中午 12 点结束这意味着晚上 11 59 之后它应该再次从 0 开始同样的问题仅涉及数字我想创建一个从 10 到
r caret 包中的 train 函数的模型输出尺寸巨大

我正在使用 bagFDA 模型进行训练train r caret 包中的函数并将模型输出保存为 Rdata 文件输入文件大约有 300k 条记录有 26 个变量但输出 Rdata 大小为 3G 我只是运行以下命令 modelout
如何安装和管理多个版本的 R 包

我正在开发一个使用 R 进行可重现计算的框架我正在努力解决的一个问题是某些 R 代码可能在包的 X Y Z 版本中完美运行但是为什么你在 3 年后尝试重现它这些包已经更新了一些功能发生了变化代码不再运行此问题还会影响使用包的
使用 igraph 将边缘属性显示为标签

我在 R 中使用 igraph 进行网络分析我想在图中的每条线上显示边缘属性下面是一个例子 df lt data frame a c 0 1 2 3 4 b c 3 4 5 6 7 nod lt data frame node c 0
选择一个单元格内的最小值或最大值（分隔字符串）

我有一个数据框其中每个样本的列可以有多个值例如 Gene Pvalue1 Pvalue2 Pvalue3 Beta Ace 0 0381 0 00357 0 01755 0 001385 0 0037 NA 0 039 0 03 1 1
根据另一个向量替换向量中的值

我想替换向量中的值 x 与另一个向量 y 陷阱 22 方法需要是动态的以适应向量中不同数量的级别 x 例如考虑向量x x lt sample c 1 2 3 4 5 100 replace TRUE gt x 1 2 4 1 1 3
Rstudio 命令历史记录

这些天我经常使用 Rstudio 但最近注意到我的命令不再存储在历史记录中我不知道这是从什么时候开始的但可能是在安装最新版本时发生的关于问题可能是什么的任何想法吗 Thanks 这是我们在 v0 93 73 中引入并在 v0 93 7
了解用于处理色边距的scale_fill_continuous_divergingx参数输入

这个问题是我上一个问题的延续here https stackoverflow com questions 58718527 setting midpoint for continuous diverging color scale on a
按列分组的数据帧上 R 中的行之间的差异

我希望通过 app name 获得不同版本的计数差异我的数据集如下所示 app name version id count difference 这是数据集 data structure list app name structure c

随机推荐

我需要在外部脚本和样式表中使用 rel="nofollow" 吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我已经阅读了很多有关 SEO 和网络性能的文章但现在我有一个愚蠢的问题我试图回答自己但我不能好用吗rel nofollow 在许多
如何在 Access 2007 中使用 VBA 保存 SQL COUNT 查询的结果？

我正在尝试计算表中满足特定条件的记录数我更喜欢使用 SQL 而不是 Dcount 因为我想更好地使用 SQL 下面是我当前的代码 Dim countString As String Dim count countString SELECT
编辑距离算法解释

根据维基百科计算两个字符串 a 和 b 之间的编辑距离的递归公式的定义如下我不明白为什么我们不考虑删除的情况a j 或者我们插入b i 另外如果我错了请纠正我插入的情况和删除的情况不一样吗我的意思是我们可以在第二个字符串中插入
如何在 python 中获取域名的 DNS 记录？

如何在 python 中获取区域的 DNS 记录我正在寻找类似于输出的数据dig 一个简单的例子来自https c0deman wordpress com 2014 06 17 find nameservers of domain nam
一次删除多个类

我有以下html div class row div class one someclass div div class two someclass div div class three someclass div div div cla
即使安装后也出现“导入错误：没有名为 httplib2 的模块”

我很难理解为什么我会这样ImportError No module named httplib2确定httplib2后is安装见下文 which a python usr bin python usr local bin python p
iOS 8 - 如何注册要包含在系统共享菜单中的应用程序？

The dialog below comes up if you share an image from the Photos app on iOS 8 devices How to get an app into the red circ
如何删除 django 用户模型中的名字和姓氏列？

我创建了一个自定义用户模型就像docs https docs djangoproject com en 3 1 topics auth customizing using a custom user model when starting
如何在 SwiftUI 中更改 DatePicker 文本颜色？

我看到了这个问题但它在 SwiftUI 中不起作用更改日期选择器的文本颜色 https stackoverflow com questions 29220535 changing text color of datepicker I t
应用内结算优惠券

我们即将在 Android Market 上发布一款应用程序其中包含用于订阅的应用内计费功能可在订阅期内解锁某些功能我的老板现在希望我实施不同数量的 free订阅的含义是幸运用户像其他客户一样从 Android 市场下载并安装该
如何使用 Spring 和 Hibernate 5 注册实体事件监听器

现在我想将我的应用程序从 Spring Hibernate 3 升级到 5 在 hibernate 3 下我创建一个 POST COMMIT INSERT UPDATE DELETE 事件监听器如下所示
JavaScript 中的 init() 用法有什么用？

的含义和用法是什么init JavaScript 中的函数 JavaScript 没有内置的init 函数也就是说它不是语言的一部分但个体程序员创建自己的语言并不罕见在很多语言中 init 用于初始化的函数一个特定的init 函数
防止 angularjs 动画在加载时最初隐藏的元素上运行[重复]

这个问题在这里已经有答案了 http codepen io cflynn07 pen hbgxf http codepen io cflynn07 pen hbgxf 示例我有一个 angularjs 动画我不希望它在页面加载时运行应该
Dart：类型“Null”不是 Mockito 中类型“Future”的子类型

下面的代码曾经在 null 安全之前工作但现在我得到类型 Null 不是类型 Future 的子类型我完全不知道为什么以及该怎么做请帮忙这应该非常容易除了我因为您只需复制代码并将其作为测试运行即可获得异常 import pac
正则表达式.test

var regExpression a zA Z0 9 line 2 var regExpression a zA Z0 9 line 3 alert regExpression test 11aa 上面的代码工作正常但是如果我们用第 3
我们可以使用具有相同字段名的 group by 和 where 条件吗

我有一个要求比如必须提取用户选择的日期范围内的所有记录选择从 2011 年 1 月 15 日到 2011 年 8 月 20 日开始的所有员工并按日期分组我应该如何为此编写 SQL 查询 SELECT FROM employees WH
Matlab：从命令窗口重命名工作区元素？

Matlab 的 GUI 允许我通过右键单击元素并选择重命名选项来重命名工作区中的任何元素是否也可以从命令窗口执行此操作这些是您可以轻松亲自测试的事情并且您应该这样做这是学习发现的最佳方式无论如何答案是否定的您不能从命令
为什么具有非常高索引号的 JavaScript 数组会导致崩溃/减慢/麻烦？

基本上破坏我的 Node js Express 服务器的代码是这样的 resultArr resultArr test resultArr test 2015073012 someObject 当我将其更改为此时它运行没有问题 resul
大量 XML 编辑

我需要将一个中等大小的 XML 文件加载到内存中对该文件进行多次随机访问修改可能是数十万次然后将结果写入 STDIO 大多数这些修改将是节点插入删除以及文本节点内的字符插入删除这些 XML 文件足够小可以放入内存但也足够大
使用 dplyr 将一个 data.frame 的输出通过管道传输到另一个 data.frame

我有两个 data frames 一个查找表它告诉我一组中包含的一组产品每组有at least类型 1 和类型 2 的一种产品第二个 data frame 告诉我有关交易的详细信息每笔交易可以有以下产品之一 a 唯一的产品s来自其中

使用 dplyr 将一个 data.frame 的输出通过管道传输到另一个 data.frame

使用 dplyr 将一个 data.frame 的输出通过管道传输到另一个 data.frame 的相关文章

随机推荐

热门标签