使用相同的列填充另一个数据框中的缺失值

2023-12-31

我搜索了各种连接问题，但似乎没有一个能完全回答这个问题。我有两个数据框，每个数据框都有一个 ID 列和几个信息列。

df1 <- data.frame(id = c(1:100), color = c(rep("blue", 25), rep("red", 25), 
                  rep(NA, 25)), phase = c(rep("liquid", 50), rep("gas", 50)),
                  rand.col = rnorm(100))

df2 <- data.frame(id = c(51:100), color = rep("green", 50), phase = rep("gas", 50))

正如您所看到的，df1 缺少 df2 中存在的一些信息，而 df2 只是所有 id 的子集，但它们都有一些相似的列。有没有办法根据 DF2 中的匹配 ID 来填充 df1 中的缺失值？

我找到了一个类似的问题 https://stackoverflow.com/questions/34697032/fill-in-missing-values-nas-with-values-from-another-dataframe-in-r建议使用合并，但是当我尝试它时，它删除了两个数据帧中不存在的所有 id。另外，它需要手动删除重复的列，并且在我的真实数据集中，会有大量重复的列，这使得这样做很麻烦。即使忽略这一点，

推荐的解决方案：

df1 <- setNames(merge(df1, df2)[-2], names(df1))

and

df1[is.na(df1$color), "color"] <- df2[match(df1$id, df2$id), "color"][which(is.na(df1$color))]

不适合我，抛出各种错误。

我想到的另一种解决方案是使用rbind然后丢弃不完整的案例。问题是，在我的真实数据集中，虽然有共享列，但也有非共享列，因此我必须创建共享列的中间对象，rbind，然后丢弃不完整的情况，然后join与原始对象一起重新获得删除的列。这似乎是不必要的迂回。

在这个例子中它看起来像

df2 = rbind(df1[,colnames(df2)], df2)
df2 = df2[complete.cases(df2),]
df2 = merge(df1[,c("id", "rand.col")], df2, by = "id")

并且，如果两个数据帧之间存在任何完全重复的行，我需要添加

df2 = unique(df2)

这个解决方案可以工作，但是很麻烦，并且随着匹配的列数的增加，情况会变得更糟。有更好的解决方案吗？

-编辑-修复了 Sathish 指出的示例数据中的问题

-edit2- 扩展示例数据

df1 = data.frame(id = c(1:100),  wq2 = rnorm(50), wq3 = rnorm(50), wq4 = rnorm(50), 
wq5 = rnorm(50))

df2 = data.frame(id = c(51:100), wq2 = rnorm(50), wq3 = rnorm(50), wq4 = rnorm(50), 
wq5 = rnorm(50))

这些数据帧表示有许多列包含不完整数据，而第二个数据帧包含所有缺失数据的情况。理想情况下，我们不需要单独列出每个列wq1 := i.wq1 etc.

如果您只想通过以下方式加入id列，您可以删除phase in the on下面的代码子句。

此外，您在问题中的数据存在差异，这些差异已在本答案中发布的数据中得到纠正。

library('data.table')
setDT(df1)  # make data table by reference
setDT(df2)  # make data table by reference
df1[ i = df2, color := i.color, on = .(id, phase)] # join df1 with df2 by id and phase values, and replace color values of df2 with color values of df1

tail(df1)
#     id color phase   rand.col
# 1:  95 green   gas  1.5868335
# 2:  96 green   gas  0.5584864
# 3:  97 green   gas -1.2765922
# 4:  98 green   gas -0.5732654
# 5:  99 green   gas -1.2246126
# 6: 100 green   gas -0.4734006

单行：

setDT(df1)[df2, color := i.color, on = .(id, phase)]

Data:

set.seed(1L)
df1 <- data.frame(id = c(1:100), color = c(rep("blue", 25), rep("red", 25), 
                                           rep(NA, 50)), phase = c(rep("liquid", 50), rep("gas", 50)),
                  rand.col = rnorm(100))

df2 <- data.frame(id = c(51:100), color = rep("green", 50), phase = rep("gas", 50))

编辑：根据问题中发布的新数据

Data:

set.seed(1L)
df1 = data.frame(id = c(1:100),  wq2 = rnorm(50), wq3 = rnorm(50), wq4 = rnorm(50), 
                 wq5 = rnorm(50))
set.seed(2423L)
df2 = data.frame(id = c(51:100), wq2 = rnorm(50), wq3 = rnorm(50), wq4 = rnorm(50), 
                 wq5 = rnorm(50))

Code:

library('data.table')
setDT(df1)[ id == 52, ]
#    id       wq2        wq3        wq4         wq5
# 1: 52 0.1836433 -0.6120264 0.04211587 -0.01855983

setDT(df2)[ id == 52, ]
#    id       wq2       wq3        wq4       wq5
# 1: 52 0.3917297 -1.007601 -0.6820783 0.3153687

df1[df2, `:=` ( wq2 = i.wq2,
                wq3 = i.wq3,
                wq4 = i.wq4,
                wq5 = i.wq5), on = .(id)]

setDT(df1)[ id == 52, ]
#    id       wq2       wq3        wq4       wq5
# 1: 52 0.3917297 -1.007601 -0.6820783 0.3153687

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

使用相同的列填充另一个数据框中的缺失值的相关文章

Rscript 正在绘制 PDF

我有一个简单的R http en wikipedia org wiki R 28programming language 29脚本当它通过 Rscript exe 运行时默认情况下它会绘制为 PDF 文件我希望脚本打开一个绘图窗口我
绘图不适合 R 窗口

我正在使用metaR 中的包对比例进行荟萃分析我的分析中有大约一百项研究当我打字时forest result 创建我的森林图它可以工作但图形在顶部和底部被切掉无论我做什么它都不适合绘图窗口我对如何解决这个问题感到困惑有任何想
为什么 ggplot2 图例不结合手动填充和缩放值？

预期行为如果我用 ggplot2 创建一个绘图并使用单独的形状和填充比例来描绘数据我希望图例会在白色填充点看起来是空心的和黑色填充点看起来不空洞的在下面的示例代码中 Windows 的图例项应为白色空心点 Linux 的
不同大小组的高效递归随机抽样

这个问题是我之前关于递归随机抽样问题的后续问题高效的递归随机采样 https stackoverflow com questions 69824065 efficient recursive random sampling 当组大小相同或每
ggplot2 的组合图（不在单个图中），使用 par() 或 layout() 函数？ [复制]

这个问题在这里已经有答案了我一直在考虑使用 par 或 layout 函数来组合 ggplots 可以使用这些功能吗假设我想绘制 ggplot 散点图和 ggplot 直方图我想将这两个地块合并起来而不是在一个地块中是否适用我在
将替换为 NA

我有一个包含条目的数据框看来这些值没有被视为 NA 因为 is na 返回 FALSE 我想将这些值转换为 NA 但找不到方法 Use dfr dfr
是否可以使用像“tz=NULL”这样的东西？...“as.POSIXct”默认为依赖于语言环境的时区（与“as.Date”不同），这会导致问题

我知道这是一个长期存在根深蒂固的问题但这是我经常遇到的问题而且我看到初学者R经常与此斗争我希望有一个令人满意的解决方案到目前为止我的谷歌和 SO 搜索都是空的但如果在其他地方重复请指出正确的方向 TL DR 有没有办法使用类
R 在 Ubuntu 中通过代理连接

我在 Ubuntu 12 04 上安装了 RStudio 0 97 168 当我尝试安装 gstat 库时出现以下错误 install packages gstat dependencies TRUE Warning in install
使用 roxygen2 记录数据集

我正在尝试使用 roxygen2 记录 R 包中的一些数据集仅考虑其中之一 I have mypkg data CpG human GRCh37 RDa 其中包含一个名为的对象CpG human GRCh37 和一个名为 mypkg R
如何在闪亮的应用程序中显示矩阵，并用条件指定颜色？

我有一个具有正值和负值的矩阵 M 我正在尝试使用 DT 包在闪亮的应用程序中显示为表格我想用不同的颜色显示矩阵红色的正数和负数例如到目前为止我只能以一对一的方式添加颜色但我想以这种方式添加颜色如果matrix values g
使用 dplyr 按组计算加权平均值（并复制其他方法）

我对语法感到困惑dplyr当尝试计算加权平均值时我听从大卫的建议here https stackoverflow com a 27609266 1457380 语法非常透明因此很有吸引力但它似乎没有按我的预期工作低于加权平均值是针对
Sweave 缓存包

我正在尝试编写一份报告我的问题是每次我编译 R 时都会加载我在报告中使用的包如 ggplot2 MASS cubature 这是非常耗时的有没有办法查包裹 I found 缓存编织但它不起作用这是我在 sweave 文件中添加的块
当 header=TRUE 时 read.fwf 出错

我的模拟数据如下所示 LastName Date email CreditCardNum AgeZip Amount Paul 21 02 14 email protected cdn cgi l email protection 4241
如何在 ggplot2 中向 x 轴添加特定值？

我正在尝试在 ggplot2 中绘制图表我希望 x 轴显示 2 84 以及下面键入的序列除了在 Breaks 中输入所有精确值之外还有其他方法吗我尝试了谷歌但它没有解决我的问题 scale x continuous limits
将英寸高度的字符向量转换为厘米？

我得到一个字符向量 tibble H c 6 2 5 10 5 5 5 1 5 5 5 4 我想将其转换为厘米请告知我该怎么做有几种方法可以使用 1 阅读与fread粘贴到单个字符串后 library data table fread
ggplot2：图例中的斜体

我正在尝试编辑图例中的标签以便第一个标签 WT 为纯文本而后续 7 个标签为斜体我一直在使用element text face c plain rep italic 7 但这导致没有任何标签被转换为斜体我有点困惑为什么它不起作用因
在 R 中使用 ggplot2 叠加两个图

有两个数据框 df1 df2我需要使用 ggplot2 创建线图并显示在同一个图表上 df1 x y 2 30 4 25 6 20 8 15 df2 x y 2 12 4 16 6 20 8 24 用于绘制第一个 df p1 lt ggpl
通过排列进行多组测试

我有一个 df 其中包含与两个实验相关的两组值 value 1 和 value 2 一个实验包含两组 0 和 1 另一个实验包含三组 0 1 2 test group Value 1 Value 2 AA 0 15 1 11 2 AA 0
如何将带有几行代码的字符数组转换为 data.frame？

我有以下数组 my list lt c Jan 01 Dec 31 00 00 24 00 Jan 01 Jun 30 12 00 18 00 Jul 06 Dec 31 09 00 19 00 导致以下结果的最短代码是什么 x1 x2 x
使用 ggplot2 在一张画布上绘制多个图形[重复]

这个问题在这里已经有答案了我正在尝试根据此表将两个 ggplot2 图合并为一个图 Type RatingA RatingB 1 One 3 36 2 Two 5 53 3 One 5 57 4 One 7 74 5 Three 4 38

随机推荐

如何更改HttpWebRequest中的请求IP？

我正在开发一个将连接到信用卡处理网关网络服务的网站出于安全目的此 Web 服务仅接受来自先前告知的 IP 地址的请求由于我是在本地开发所以我的IP几乎每天都在变化有没有办法更改 HttpWebRequest 的 IP 地址以便我
Oracle 数据泵 impdp 到远程服务器

我们有一个转储文件想要导入到 Amazon rds 服务器这就是我所做的创建公共数据库链接并验证其是否有效 create public database link rdsdblink connect to dbuser identif
使用 wsdl2java 生成具有适当异步支持的存根

假设我有一项只有一种方法的服务 int generateRandomNumbers 是否可以使用 wsdl2java 生成具有适当异步支持的存根例如生成的类应具有以下方法消息 int generateRandomNumbers int
Elasticsearch 组和聚合嵌套值

我想获取一个请求数据来构建如下内容 Categories laptops 5 accessories 50 monitors 10 above part is easy Attributest for actual category ex
Android：webview 上的 NullPointerException

有人有这个问题吗我不太明白如何解决它不确定是我的代码导致了此异常还是网络视图上的错误 java lang NullPointerException 位于 android webkit WebViewClassic WebViewInpu
windows.h 中的 WINVER 和 _WIN32_WINNT 守卫发生了什么？

In 使用 Windows 标头 http msdn microsoft com en us library aa383745 v vs 85 aspx 微软声称 WIN32 WINNT和NTDDI VERSION可用于防止为较新版本的Wi
Tomcat 7 - Servlet 3.0：常量池中无效的字节标记

雄猫7 0 16 Java 1 6 0 22 CentOS 5 6 我刚刚将 web xml 切换到 servlet 3 0 从以前运行 2 4 的应用程序现在我看到以下错误打开 org apache tomcat util 的精细日志
D3js：何时使用 .datum() 和 .data()？

我经常看到 datum当使用面积图时例如 svg d3 select viz append svg datum data 何时有任何经验法则 datum需要吗 var area d3 svg area x function d retur
如何在 Dockerized GraphQL + Postgres 设置中运行 Prisma 迁移？

我刚开始使用 Prisma 以及 Docker 化我的设置我想使用 Prisma 指定我的数据模型将 Postgres 作为我的数据库并在 GraphQL API 中使用它我当前的 API 使用apollo server expres
灰色世界假设的自动白平衡

我一直在尝试实现以下提供的白平衡算法 https pippin gimp org image processing chapter automatic adjustmentments html https pippin gimp org i
SwiftUI 视图未更新为 EnvironmentObject 更改

我正在创建一个 SwiftUI 应用程序其中包含 Firebase 来启用帐户登录非常简单只是一个带有密码和电子邮件字段的 ui 表单然后是一个提交按钮用户登录后我将 firebase 用户对象存储在 EnvironmentOb
将自定义标头添加到 videojs 播放器源

我有一个后端 API 使用 Express 来处理流媒体视频 m3u8 文件 http localhost 3000 api stream m3u8 该端点仅适用于适当的用户token router router get api strea
带 10.11 和系统完整性保护的调试系统首选项窗格

我的项目之一是系统首选项窗格在 10 11 中 Xcode 的调试器无法调试它因为我收到由于系统完整性保护而无法附加到系统首选项如何在 10 11 下调试 prefpane 就像我在 10 3 之前的每个操作系统中所做的那样我最终
在 `didFinishPickingMediaWithInfo` 之后推送到另一个控制器时崩溃

在用户从选择器中选择照片后我试图让应用程序转到不同的视图控制器 func imagePickerController picker UIImagePickerController didFinishPickingMediaWithInfo
访问数据库功能

我在 Access 2010 上创建了一个数据库并使用以下查询left right and mid 功能然后我将数据库复制到家里的电脑上但现在这些功能不想在这个数据库上工作我家里的电脑也有 Access 2010 每次我尝试运行查询
“cma 文件不是字节码目标文件” => 这是什么意思？

我正在尝试安装 ocaml sqlite3 绑定以从 o caml 程序访问 sqlite 数据库配置和make都很顺利但是安装失败因为文件 sqlite3 cma 不是字节码目标文件见下文 Software ocaml sqli
如何在 C# 中减去 2 个可为空的日期时间？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想减去 2 个日期时间值并以天数显示答案 TimeSpan 或 ToDays 方法不适用于可为空的日期时间我还有什么办法可以做到吗
Android - 当activity.setContentView完成渲染时是否触发任何事件？

我正在尝试从中获取价值myImageView getImageMatrix 我的活动准备好后的方法我尝试使用onCreate onStart onResume 方法但我得到的矩阵是默认的如果我打电话myImageView getIma
Android 中 3G 相邻小区的 cellID 和 LAC / PSC

我正在尝试使用 Android 识别 3G 中的相邻小区位置这是通过 getNeighboringCellInfo 获得的当手机工作在 GSM 模式时我可以使用 getCid 和 getLac 来获取 CellID 和 LAC 但是对
使用相同的列填充另一个数据框中的缺失值

我搜索了各种连接问题但似乎没有一个能完全回答这个问题我有两个数据框每个数据框都有一个 ID 列和几个信息列 df1 lt data frame id c 1 100 color c rep blue 25 rep red 25 rep

使用相同的列填充另一个数据框中的缺失值

使用相同的列填充另一个数据框中的缺失值 的相关文章

随机推荐

热门标签

使用相同的列填充另一个数据框中的缺失值的相关文章