我希望根据以下两个条件从数据集中删除行:
- 如果有 3 个连续单元格,则删除行
NA
or
- 如果有四个或更多单元格
NA
我的样本数据:
data <- rbind(c(1,1,2,3,4,2,3,2),
c(NA,1, NA, 4,1,1,NA,2),
c(1,4,6,7,3,1,2,2),
c(NA,3, NA, 1,NA,2,NA,NA),
c(1,4, NA, NA,NA,4,3,2))
我对现有问题进行了研究,发现na.omit
or complete.cases
可以删除行NA
但由于我有条件,做进一步的研究,我在现有问题中发现了以下代码:
data[! rowSums(is.na(data)) >4 , ]
data[! rowSums(is.na(data)) ==3 , ]
第一行完全满足我的第二个条件。第二行确实删除了具有三个的行NA
但不寻找连续的行并删除总共 3 行NA
的。例如:
> data
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 1 1 2 3 4 2 3 2
[2,] NA 1 NA 4 1 1 NA 2
[3,] 1 4 6 7 3 1 2 2
[4,] NA 3 NA 1 NA 2 NA NA
[5,] 1 4 NA NA NA 4 3 2
> data[! rowSums(is.na(data)) ==3 , ]
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 1 1 2 3 4 2 3 2
[2,] 1 4 6 7 3 1 2 2
[3,] NA 3 NA 1 NA 2 NA NA
我真正想要的是仅删除第 5 行,因为它具有连续的三个NA
的而不是第二行。
有人可以建议我如何克服这个问题吗?