填充组中其他行的缺失值（包括重复项）

2024-02-11

我有一个数据集，其中有一些缺失值，我想用同一组的其他成员来填充这些值。但是，在某些情况下，每组有多个值，在这些情况下，我希望复制每组中的所有行，以形成包含每个值的一行。

样本数据：

   ID group value
1   1     A  blue
2   2     A  <NA>
3   3     A  <NA>
4   4     B green
5   4     B   red
6   5     B  <NA>
7   6     B  <NA>
8   7     C  blue
9   8     C green
10  9     C    NA

我想要的最终结果是：

  ID group value
1  1     A  blue
2  2     A  blue
3  3     A  blue
4  4     B green
5  4     B   red
6  5     B green
7  5     B   red
8  6     B green
9  6     B   red
10 7     C  blue
11 7     C green
12 8     C  blue
13 8     C green
14 9     C  blue
15 9     C green

在某些情况下，组中包含一个 ID，该 ID 有两个值（如组 B），而在其他情况下，组中存在多个 ID，每个 ID 都有不同的值（如 C）。无论如何，我想要一个表，其中组的每个成员都具有该组中存在的每个值。我找到了一些处理简单情况（例如 A 组）的答案，但没有一个答案每组具有多个值。

====编辑====

我的实际数据集要大得多，这导致了一些额外的问题。更新后的示例表如下：

ID group value specific_value dataversion
1     A  blue       sky_blue    version1
2     A  <NA>           <NA>    version2
3     A  <NA>           <NA>    version1
4     B green   forest_green    version1
4     B   red        scarlet    version1
5     B  <NA>           <NA>    version2
6     B  <NA>           <NA>        <NA>
7     C  blue     royal_blue    version2
8     C green     lime_green    version1
9     C  <NA>           <NA>    version1

对于每个组，我希望为该组的每个成员保留一行，其中包含该组的每组值+特定值（但我不希望包含例如蓝色和石灰绿的行）。我希望其他列（ID、组和数据版本）的所有值保持原样（包括数据版本为 NA 的情况）。

预期输出：

ID group value specific_value dataversion
1     A  blue       sky_blue    version1
2     A  blue       sky_blue    version2
3     A  blue       sky_blue    version1
4     B green   forest_green    version1
4     B   red        scarlet    version1
5     B green   forest_green    version2
5     B   red        scarlet    version2
6     B green   forest_green        <NA>
6     B   red        scarlet        <NA>
7     C  blue     royal_blue    version2
7     C green     lime_green    version2
8     C  blue     royal_blue    version1
8     C green     lime_green    version1
9     C  blue     royal_blue    version1
9     C green     lime_green    version1

IE。表中 ID、组和数据版本的每个组合与原始表相同，但现在每个组的值和特定值的每个组合都有一行。请注意，在我的实际表中，我有 ~50 列数据（1 个分组列，~6 相当于此处的值/特定值，其余的被视为 ID/数据版本），所以我不想键入每一列姓名。

我们可能需要complete这里。按“组”分组后，使用complete得到的组合unique每个“组”和“ID”的非 NA“值”

library(dplyr)
library(tidyr)
library(stringr)
df1 %>% 
   group_by(group) %>%
   complete(ID, value = unique(value[!is.na(value)])) %>%
   na.omit %>%
   select(names(df1))
# A tibble: 15 x 3
# Groups:   group [3]
#      ID group value
#   <int> <chr> <chr>
# 1     1 A     blue 
# 2     2 A     blue 
# 3     3 A     blue 
# 4     4 B     green
# 5     4 B     red  
# 6     5 B     green
# 7     5 B     red  
# 8     6 B     green
# 9     6 B     red  
#10     7 C     blue 
#11     7 C     green
#12     8 C     blue 
#13     8 C     green
#14     9 C     blue 
#15     9 C     green

Update

使用新数据集，我们可以做

df2 %>%
   group_by(group) %>%
   mutate(valnew = str_c(value, specific_value, sep=":")) %>% 
   select(-value, -specific_value, -dataversion) %>%
   complete(ID, valnew = unique(valnew[!is.na(valnew)])) %>% 
   filter(!is.na(valnew)) %>% 
   separate(valnew, into = c('value', 'specific_value'), sep=":") %>% 
   mutate(rn = row_number()) %>%
   left_join(df2 %>% 
               select(ID, dataversion)) %>%
   filter(!duplicated(rn)) %>%
   select(names(df2))
# A tibble: 15 x 5
# Groups:   group [3]
#      ID group value specific_value dataversion
#   <int> <chr> <chr> <chr>          <chr>      
# 1     1 A     blue  sky_blue       version1   
# 2     2 A     blue  sky_blue       version2   
# 3     3 A     blue  sky_blue       version1   
# 4     4 B     green forest_green   version1   
# 5     4 B     red   scarlet        version1   
# 6     5 B     green forest_green   version2   
# 7     5 B     red   scarlet        version2   
# 8     6 B     green forest_green   <NA>       
# 9     6 B     red   scarlet        <NA>       
#10     7 C     blue  royal_blue     version2   
#11     7 C     green lime_green     version2   
#12     8 C     blue  royal_blue     version1   
#13     8 C     green lime_green     version1   
#14     9 C     blue  royal_blue     version1   
#15     9 C     green lime_green     version1

data

df1 <- structure(list(ID = c(1L, 2L, 3L, 4L, 4L, 5L, 6L, 7L, 8L, 9L), 
    group = c("A", "A", "A", "B", "B", "B", "B", "C", "C", "C"
    ), value = c("blue", NA, NA, "green", "red", NA, NA, "blue", 
    "green", NA)), row.names = c("1", "2", "3", "4", "5", "6", 
"7", "8", "9", "10"), class = "data.frame")


df2 <- structure(list(ID = c(1L, 2L, 3L, 4L, 4L, 5L, 6L, 7L, 8L, 9L), 
    group = c("A", "A", "A", "B", "B", "B", "B", "C", "C", "C"
    ), value = c("blue", NA, NA, "green", "red", NA, NA, "blue", 
    "green", NA), specific_value = c("sky_blue", NA, NA, "forest_green", 
    "scarlet", NA, NA, "royal_blue", "lime_green", NA), dataversion = c("version1", 
    "version2", "version1", "version1", "version1", "version2", 
    NA, "version2", "version1", "version1")), class = "data.frame",
    row.names = c(NA, 
-10L))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r