合并两个数据框的所有组合

2023-11-26

我遇到了一个复杂的问题: 我有两个数据框,其中有一种编号和规格(颜色、零件)的组合,每个数据框适用于 4 台不同的机器。每台机器总共有 5 个规格(实际上甚至更多的机器和规格)。 以下是两个示例数据框:

df1 <- data.frame( 
  nr=c("000", "000", "000", "001", "002",
       "002", "003", "004", "004", "004", "005"), 
  Color=c("Red", "Cyan", "Brown", "Blue", "Red",
          "Green", "DeepBlue", "Orange", "Cyan", "Grey", "Magenta"), 
  mach1=c(1, NA, NA, 1, NA, 1, 1, NA, 1, NA, 1),  
  mach2=c(1, NA, NA, 1, NA, 1, 1, 1, NA, NA, 1),  
  mach3=c(NA, 1, NA, 1, 1, NA, 1, NA, NA, 1, 1),  
  mach4=c(NA, NA, 1, 1, NA, 1, 1, NA, NA, 1, 1))

df2 <- data.frame( 
  nr=c("000", "000", "001", "002", "002",
       "003", "003", "004", "005", "005"), 
  Part=c("Car", "Tree", "Flag", "Tree", "Road",
         "Road", "House", "Plane", "House", "Car"), 
  mach1=c(NA, 1, 1, NA, 1, NA, 1, 1, NA, 1),  
  mach2=c(1, NA, 1, NA, 1, NA, 1, 1, 1, NA),  
  mach3=c(NA, 1, 1, 1, NA, 1, NA, 1, 1, NA),  
  mach4=c(NA, 1, 1, 1, NA, 1, NA, 1, 1, NA))

所以我有这些输出:

> df1
    nr    Color mach1 mach2 mach3 mach4
1  000      Red     1     1    NA    NA
2  000     Cyan    NA    NA     1    NA
3  000    Brown    NA    NA    NA     1
4  001     Blue     1     1     1     1
5  002      Red    NA    NA     1    NA
6  002    Green     1     1    NA     1
7  003 DeepBlue     1     1     1     1
8  004   Orange    NA     1    NA    NA
9  004     Cyan     1    NA    NA    NA
10 004     Grey    NA    NA     1     1
11 005  Magenta     1     1     1     1
> df2
    nr  Part mach1 mach2 mach3 mach4
1  000   Car    NA     1    NA    NA
2  000  Tree     1    NA     1     1
3  001  Flag     1     1     1     1
4  002  Tree    NA    NA     1     1
5  002  Road     1     1    NA    NA
6  003  Road    NA    NA     1     1
7  003 House     1     1    NA    NA
8  004 Plane     1     1     1     1
9  005 House    NA     1     1     1
10 005   Car     1    NA    NA    NA

现在我想将这两个数据框组合成一个新的数据框 df3,该数据框显示特定机器的颜色和零件的所有组合,如下所示:

> df3
    nr    Color  Part mach1 mach2 mach3 mach4
1  000      Red  Tree     1    NA    NA    NA
2  000      Red   Car    NA     1    NA    NA
3  000     Cyan  Tree    NA    NA     1    NA
4  000    Brown  Tree    NA    NA    NA     1
5  001     Blue  Flag     1     1     1     1
6  002    Green  Road     1     1    NA    NA
7  002      Red  Tree    NA    NA     1    NA
8  002    Green  Tree    NA    NA    NA     1
9  003 Deepblue House     1     1    NA    NA
10 003 Deepblue  Road    NA    NA     1     1
11 004     Cyan Plane     1    NA    NA    NA
12 004   Orange Plane    NA     1    NA    NA
13 004     Grey Plane    NA    NA     1     1
14 005  Magenta   Car     1    NA    NA    NA
15 005  Magenta House    NA     1     1     1
> 

有什么建议么?


您可以首先重塑两个数据框的形状(使用melt from reshape2),然后合并它们(使用full_join from dplyr)并将其重塑回原始格式:

library(dplyr)
library(reshape2)

df1.b <- melt(df1)
df2.b <- melt(df2)

df3 <- full_join(df1.b, df2.b)

df3 <- na.omit(df3)

df3.b <- dcast(df3, nr + Color + Part ~ variable)

    nr    Color  Part mach1 mach2 mach3 mach4
1  000    Brown  Tree    NA    NA    NA     1
2  000     Cyan  Tree    NA    NA     1    NA
3  000      Red   Car    NA     1    NA    NA
4  000      Red  Tree     1    NA    NA    NA
5  001     Blue  Flag     1     1     1     1
6  002    Green  Road     1     1    NA    NA
7  002    Green  Tree    NA    NA    NA     1
8  002      Red  Tree    NA    NA     1    NA
9  003 DeepBlue House     1     1    NA    NA
10 003 DeepBlue  Road    NA    NA     1     1
11 004     Cyan Plane     1    NA    NA    NA
12 004     Grey Plane    NA    NA     1     1
13 004   Orange Plane    NA     1    NA    NA
14 005  Magenta   Car     1    NA    NA    NA
15 005  Magenta House    NA     1     1     1
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

合并两个数据框的所有组合 的相关文章

随机推荐

  • 获取内存上的可用空间

    是否可以通过 Android SDK 获取 Android 设备 而不是 SD 卡 上的可用内存量 如果是这样 怎么办 this帖子可能很适合您的问题 还检查这个线程 这里有很多关于SO的信息 谷歌搜索了一下 这是解决方案 位于安卓 git
  • 隐藏超出 DIV 元素的文本

    我有一个固定宽度的 DIV 元素 其中有一些文本 其中没有任何空格供 HTML 解析器自动分成多行 文本超出了 DIV 的限制并弄乱了 pgae 有没有办法让超出边界的文本不可见 是否可以将其分成多行 或者更好地分成多行 并在每条折行的末尾
  • 多线程比单线程快吗?

    我想检查多线程是否比单线程快 然后我在这里做了一个演示 public class ThreadSpeedTest param args public static void main String args System out print
  • 将“C50 型号”转换为“rpart”型号

    有没有办法使用rpart plot用于绘制不属于的对象的库rpart 用于制作决策树 例如 这是经典的rpart and rpart plot正在运行的库 load libraries library rpart library rpart
  • mysql中什么是复合外键?

    在我正在使用的框架的文档中看到这个术语 复合外键 yii 什么是复合外键 在 mySql 数据库中 我的猜测是 考虑到两个表之间的关系 一个表有一列的名称与另一个表的 id 完全相同 免责声明 我做了尽职调查 并在谷歌上搜索了大约两分钟 但
  • VS 2010 Web 服务项目模板丢失?

    这可能是一个愚蠢的问题 但当我尝试创建新项目时 我找不到 Web 服务应用程序模板 您可能需要一个 WCF 服务项目 新建项目 gt Visual C 或 Visual Basic gt WCF 服务应用程序
  • 如何在 JSON 中显示带有尾随零的 BigDecimal 数字(而不是字符串)?

    在我的表示响应中 我有一个 BigDecimal 类型的字段 它的值为 2 30 但 json 响应将其显示为 2 3 有没有办法同时显示尾随零 而不将其显示为字符串 顺便说一句 我正在使用杰克逊库 version 2 3 needs to
  • 还有一个“无法加载文件或程序集......或其依赖项之一。系统找不到指定的文件”

    我有一个带有 NUnit 测试的 dll 运行良好 我将其从 Any CPU 转换为 x86 项目 因为我需要跨不同平台可靠地使用 SQLite 因此我需要包含 32 位 System Data SQLite dll 并让所有内容都引用它
  • 像 iPhone 上的地址簿排序一样对 NSString 的 NSArray 进行排序

    我有一个字符串数组 名称 我想像 iPhone 上的地址簿对它们进行排序一样对它们进行排序 例如 li gt E 下 例如 li gt A 下 例如 4li gt 在 下 有什么建议么 您需要对字符串执行不区分变音符号的比较 NSStrin
  • 对卷积神经网络中 1D、2D 和 3D 卷积的直观理解[关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 谁能通过示例清楚地解释卷积神经网络 深度学习中 中 1D 2D 和 3D 卷积之间的区别 我想用图片来解释C3D 简而言之 卷积方向 输出形状很重要 一维卷积 基础 just 1 计
  • getView() 返回 null

    我基本上有一个AsyncTask 从主运行Activity 填充一个ViewPager在一个片段内 我正在膨胀 xml 布局文件来填充ViewPager 问题是我无法获取指向布局内视图 imageview textview 的指针 以便我可
  • Android Deeplink pathPrefix 属性被忽略

    我在清单文件中为我的 Android 应用程序定义了一个深层链接
  • 如何在MVC中使用bootstrap modal编辑表格数据?

    我在 MVC 视图中有一个表 显示员工详细信息 我想添加编辑功能 但我不想在新页面中打开它 而是想使用引导模式来显示它 http twitter github com bootstrap javascript html modals 我认为
  • 在 Swing 应用程序中显示 HTML 表单并与之交互

    一个应用程序生成一些HTML 页面应该显示在应用程序本身中 These HTML 页面含有一些forms用户将使用它来输入一些值 到目前为止我已经用过文本窗格这使得HTML完美 但我不知道如何与表单交互以检索用户输入的值 是否可以使用 JT
  • 为什么 File.ReadAllBytes 结果与使用 File.ReadAllText 时不同?

    我有一个内容为 test 的文本文件 UTF 8 编码 我尝试从该文件中获取字节数组并将其转换为字符串 但它包含一个奇怪的字符 我使用以下代码 var path C Users Tester Desktop test test txt UT
  • Java javax.swing.Timer 在新线程上运行吗?

    我正在使用 javax swing Timer 来安排和运行事件 但它似乎冻结了 GUI 只是想知道这些事件是否在单独的线程上运行 或者我是否必须自己执行 Thanks 尽管所有 Timer 使用单个共享线程 由第一个执行的 Timer 对
  • Py4JJavaError:调用 o1670.collectToPython 时发生错误

    我正在尝试将 Spark RDD 转换为 Pandas DataFrame 我使用 csv 文件作为示例 该文件有 10 以下是前 3 行 可堆叠储物架的 Eldon 底座 铂金 Muhammed MacIntyre 3 213 25 38
  • 为什么 .NET 正则表达式和 Visual Studio 的正则表达式之间存在差异?

    我终于找到了对 Visual Studio 的引用查找和替换的正则表达式 and NET的正则表达式包 现在出于病态的好奇心 我想知道 为什么有区别 我确信有技术 历史或可用性方面的原因 但这让bajeepers感到困惑 sp 一开始就对我
  • 如何包含另一个php文件?

    我有一个 php 文件 我想包含另一个具有 css 链接标签和 javascript 源标签的 php 文件 但是当我尝试包含它们时 它不会添加到页面中 我的 php 页面 通用 php 有谁知道出了什么问题吗 谢谢 PHP s inclu
  • 合并两个数据框的所有组合

    我遇到了一个复杂的问题 我有两个数据框 其中有一种编号和规格 颜色 零件 的组合 每个数据框适用于 4 台不同的机器 每台机器总共有 5 个规格 实际上甚至更多的机器和规格 以下是两个示例数据框 df1 lt data frame nr c