根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

2024-05-06

使用 R，我想根据另一个数据框中包含的条件将数据框中的数值替换为 NA：

# An example data frame with numeric values I want to  
# change to `NA` based on values given in another data frame.
df1 <- tibble::tribble(
  ~col_1, ~col_2, ~col_3, ~group, ~subgroup,
  1,      3,      5,     'A',    'p',
  6,      8,      5,     'A',    'q',
  5,      3,      3,     'B',    'p',
  1,      7,      7,     'B',    'q'
)

# A second data frame containing conditions  
# to be used for subsetting the first data frame.
df2 <- tibble::tribble(
  ~group, ~subgroup, ~cols,
  'A',    'q',       'col_1',
  'A',    'q',       'col_3',
  'B',    'p',       'col_2', 
  'B',    'p',       'col_3'
)

# My problematic approach to subsetting df1 and replacing 
# values with `NA` based on the conditions given in df2.
df1[df1$group %in% unique(df2$group) & 
    df1$subgroup %in% unique(df2$subgroup), 
    unique(df2$cols)] <- NA

# The incorrect result of my approach.
print(df1)
# A tibble: 4 × 5
  col_1 col_2 col_3 group subgroup
  <dbl> <dbl> <dbl> <chr> <chr>   
1    NA    NA    NA A     p       
2    NA    NA    NA A     q       
3    NA    NA    NA B     p       
4    NA    NA    NA B     q

^{Created on 2021-09-20 by the reprex package https://reprex.tidyverse.org (v2.0.1)}

我的策略是使用 TRUE 索引对 df1 进行子集化，其中 df1 观测值与 df2 匹配并使用]<-NA用 NA 替换这些观察结果。然而，我的方法选择了所有观察结果，而不是仅替换 df2 中指示的观察结果的期望结果。

如何在不手动替换的情况下以功能/编程方式执行此操作？此示例数据集足够小，可以使用]<-我想要替换的每个值的方法，但我想在更大、更复杂的数据集上功能性地执行此操作。

解决方案和注意事项：@Ronak 和 @akrun 提供的两种解决方案都适用于本问题中的示例数据集。然而，在我的真实数据集中发现重复的子组和组值的罕见情况后，我发现只有 @akrun 的解决方案有效。下面我添加了另一个示例，该示例重新创建了我在真实数据中观察到的罕见情况，并添加了 @Ronak 对解决方案的修改，使其适用于这些重复。

# Unique numeric observations were added
# in rows 1 and 2 with group and subgroup
# values that are duplicated with existing
# group and subgroup values.
df1 <- tibble::tribble(
  ~col_1, ~col_2, ~col_3, ~group, ~subgroup,
  7, 4, 9, "A", "p",
  1, 3, 5, "A", "p",
  6, 8, 5, "A", "q",
  5, 3, 3, "B", "p",
  1, 7, 7, "B", "q"
)

# Conditions were added in rows 1 and 2
# to indicate which values to replace
# in df1 with NA.
df2 <- tibble::tribble(
  ~group, ~subgroup, ~cols,
  "A",    "p",       "col_1",
  "A",    "p",       "col_2",
  "A",    "q",       "col_1",
  "A",    "q",       "col_3",
  "B",    "p",       "col_2",
  "B",    "p",       "col_3"
)

# Modifications of @Ronak's solution
df1 <- as.data.frame(df1)
df2 <- as.data.frame(df2)

key1 <- lapply(
  setNames(names(df1)[grep("col_\\d", x = names(df1))], 1:3),
  function(x) {
    paste(x, df1$group, df1$subgroup)
  }
)

key2 <- with(df2, paste(cols, group, subgroup))

indices <- lapply(
  key1,
  function(x) {
    which(x %in% key2)
  }
)

indices <- indices[sapply(indices, function(x) length(x) > 0)]

selection <- lapply(
  1:length(indices),
  function(x) {
    cbind(indices[[x]], as.numeric(names(indices)[x]))
  }
)

selection <- do.call(rbind, selection)
df1[selection] <- NA
df1
#   col_1 col_2 col_3 group subgroup
# 1    NA    NA     9     A        p
# 2    NA    NA     5     A        p
# 3    NA     8    NA     A        q
# 4     5    NA    NA     B        p
# 5     1     7     7     B        q

这是一种分配方法，即循环across列starts_with第一个数据集（“df1”）中的“col”，通过以下方式创建单个字符串向量pasteing“组”、“子组”和相应的列名称（cur_column())，检查该元素是否是%in% the pasted 行“df2”来创建逻辑向量。使用它replace将这些元素替换为NA

library(dplyr)
library(stringr)
library(purrr)
df1 <- df1 %>% 
   mutate(across(starts_with('col'), 
   ~ replace(., str_c(group, subgroup, cur_column()) %in%  
        invoke(str_c, c(df2, sep = '')), NA) ))

-output

df1
# A tibble: 4 x 5
  col_1 col_2 col_3 group subgroup
  <dbl> <dbl> <dbl> <chr> <chr>   
1     1     3     5 A     p       
2    NA     8    NA A     q       
3     5    NA    NA B     p       
4     1     7     7 B     q

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tidyverse

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值的相关文章

如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
R 中的龙卷风图

我正在尝试在 R 中绘制龙卷风图又名敏感性图目标是可视化某些变量增加 10 和减少 10 的效果到目前为止我已经得到这个结果这是我正在使用的代码 Tornado plot data lt matrix c 0 02 0 02 0 0
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
读取R中打开的Excel文件

有没有办法将打开的Excel文件读入R 当Excel中打开一个excel文件时 Excel会对文件加锁比如R中的read方法无法访问该文件你能绕过这个锁吗 Thanks 编辑这发生在带有原始 Excel 的 Windows 下发生错
从 df 中提取具有两列的重叠行对

我想找出这两个表之间哪些对重叠 gt dput data1 structure list Name x c MDH1 MDH1 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 SCOALB SCOALB CSY4 CS
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
R 将多个值与向量进行比较并返回向量[重复]

这个问题在这里已经有答案了我有一个向量 A 对于 A 的每个元素我想检查它是否等于第二个向量 Targets 中的任何元素我想要一个逻辑值向量其长度为 A 作为返回也提到了同样的问题here http r 789695 n4 na
如何在knitr和RStudio中为word和html设置不同的全局选项？

我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项例如想要将word的fig width和fig height设置为6 html的fig width和fig hei
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
如何在 Caret 中绘制随机森林（护林员）树

我生成了如下所示的随机森林树并尝试绘制它但出现错误我在哪里犯了错误我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI

随机推荐

尝试使用 x86 程序集 GNU GAS 在数组索引处赋值时出现错误

我在用x86GNU 与 GCC 的程序集并尝试实现相当于以下内容的程序集c c int x 10 x 0 5 但是当我尝试运行使用命令 a out 我的汇编代码如下第一次编译后gcc filename s 错误Segmentatio
javascript while循环在节点和浏览器中给出不同的结果

我正在执行以下看似简单的代码 var number 0 while number lt 12 console log number number number 2 我在浏览器和 Node 中得到不同的结果当我在 Firefox v 32
无法在 R 中安装插入符号包（在我的 Linux 机器中）

我在尝试在 R 中安装插入符号包时遇到以下错误 g error tmp Rtmp2Tos7n R INSTALL2e6e30153a74 nloptr nlopt 2 4 2 lib libnlopt cxx a No such file
动态改变ListView中TextView字体颜色

我正在将 XML 文档绑定到自定义适配器列表中的所有项目最初的字体颜色均为白色 XML 文档中的一个节点有一个我正在检查的属性如果设置了该属性我想将 ListView 中该项目的字体颜色更改为较深的颜色我的代码似乎最初可以工作但是
Gnuplot：具有置信区间的线点

我有以下数据我想绘制一个图表显示所有 x 与线线点连接的平均值并显示所有置信区间 ci lower ci upper 我设法使用 2 个图来做到这一点 set xrange 0 1100000 set yrange 0 5000
如何用 Java 或 C# 等语言实现统一算法？

我正在读我拿到的人工智能教科书我已经解决了我的部分的最后一个作业问题以您选择的任何语言实施第 69 页概述的统一算法在第 69 页您有以下统一算法的伪代码 function unify E1 E2 begin case both E
Codeigniter - 错误 - 没有要更新的数据

我本来要更新数据库但收到错误没有要更新的数据这是我的脚本我创建了一个简单的切换来更新数据库切换使用户处于活动状态 is active 1 或非活动状态 is active 0 我遇到的问题是虽然对象从 1 更改为 0 或 0 更
如何在 Node.js 中等待

这是一个关于我认为 Node js 中的简单模式的问题这是我在 CoffeeScript 中的示例 db is open false db open gt db is open true wait gt wait until db is
如何使ggplot2图形与R中的黑白打印（复印友好）兼容？

有没有办法转换ggplot2绘制成黑白版本而不重写大部分代码以便黑白版本保持可读性例如要替换scale fill gradient with scale fill grey 或者自动进行适合复印的转换如网站http colorbre
使用带有代码分割的汇总时，有什么方法可以保留包的目录结构吗？

Context 给定这样的项目结构 src a module js b module js util js 两者都在哪里module js文件导入util js 使用以下配置 export default experimentalCodeS
自 1.4.0 版本以来，sphinx_rtd_theme 不再是硬依赖项

C Users Administrator Desktop item code serv documents api gt 制作 html 运行 Sphinx v1 6 2 加载腌制环境失败无法获取属性 WarningStream
Spring MVC 415 不支持的媒体类型

我正在使用 Spring 3 2 并尝试使用 ajax post 请求来提交 json 对象数组如果这是相关的我转义了所有特殊字符我收到的 HTTP 状态为 415 我的控制器是 RequestMapping value save p
类型特征的 _t 别名和 _v 变量模板的目的是什么？

有a lot of v and t后缀例如std is same v std invoke result t result of t以及数百万个其他此类功能 Why它们到底存在吗在任何情况下公开实施细节例如std result of
利用 SSE 和其他 CPU 扩展

在我的代码库中有几个地方对于大型数据集相同的操作会重复很多次在某些情况下处理这些需要花费相当长的时间我相信使用SSE来实现这些循环应该可以显着提高它们的性能特别是在对同一组数据执行许多操作的情况下因此一旦数据最初被读入缓存就
当键是复合键时，metaData.getPrimaryKeys() 返回单行

我在使用 SQLite 驱动程序的 JDBC 中遇到复合主键问题 The getPrimaryKeys 方法从DatabaseMetaData当我验证该键实际上是由两列组成的复合键时对象返回单行有人对如何检索主键的真实列表有任何建议替
文件路径在棒棒糖android中始终返回null

这是我从内部存储画廊获取图像时的代码在棒棒糖文件路径中返回始终为空 if requestCode PICK IMAGE if resultCode RESULT OK image successfully picked launchi
*y++ 和 ++*y 之间的区别？

我对这段代码将如何执行感到困惑假设我们有 int x 30 y z y x y 和 y 和有什么不一样该程序的输出是什么 include
重新索引存储库循环 - 不是 Maven

我的 Eclipse 继续崩溃运行一个循环显示重新索引存储库 myusername 我认为这是因为 github 但我没有检查 Maven 和 GitHub 下的 eclipse 首选项中可能导致问题的所有内容有人可以帮忙吗我的电脑一
MS Access 不支持连接表达式吗？

谁能向我解释我的查询有什么问题吗 SELECT T2 TIPOPRODUTO T2 PRODUTO T1 ESPESSURA AS LARGURA AS COMPRIMENTO AS ACABAM REVEST AS ESPECIF QUA
根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

使用 R 我想根据另一个数据框中包含的条件将数据框中的数值替换为 NA An example data frame with numeric values I want to change to NA based on values giv

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值 的相关文章

随机推荐

热门标签

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值的相关文章