如何根据因子变量水平的观察次数进行子集化?我有一个包含 1,000,000 行和近 3000 个级别的数据集,我想用少于 200 个观察值对级别进行子集化。
data <- read.csv("~/Dropbox/Shared/data.csv", sep=";")
summary(as.factor(data$factor)
10001 10002 10003 10004 10005 10006 10007 10009 10010 10011 10012 10013 10014 10016 10017 10018 10019 10020
414 741 2202 205 159 591 194 678 581 774 778 738 1133 997 381 157 522 6
10021 10022 10023 10024 10025 10026 10027 10028 10029 10030 10031 10032 10033 10034 10035 10036 10037 10038
398 416 1236 797 943 386 446 542 508 309 452 482 425 272 261 291 145 598
10039 10040 10041 10043 10044 10065 10069 10075 10080 10104 10105 10106 10110 10112 10115 10117 10119 10121
119 263 9 9 179 390 70 465 19 3 7 5 4 1 1 1 2 6
10123 10128 10150 10152 10154 10155 10168 10170 10173 10174 10176 10199 10210 10220 10240 10265 10270 10271
2 611 8 1 1 2 10 1 6 5 5 2 5 2 1 3 5 2
正如你从上面的总结中看到的,有些因素只有几个 obs,我想删除那些少于 100 的因素。
我尝试了以下方法,但没有成功:
for (n in unique((data$factor))) {
m<-subset(data, factor==n)
o<-length(m[,1])
data<-ifelse( o<100, subset(data, factor!=n), data)
}
table
、子集,并根据该子集的名称进行匹配。可能会想要droplevels
此后。
EIDT
一些示例数据:
set.seed(1234)
data <- data.frame(factor = factor(sample(10000:12999, 1000000,
TRUE, prob=rexp(3000))))
有一些类别,案例很少
> min(table(data$factor))
[1] 1
从案例中删除少于 100 条具有相同值的记录factor
.
tbl <- table(data$factor)
data <- droplevels(data[data$factor %in% names(tbl)[tbl >= 100],,drop=FALSE])
Check:
> min(table(data$factor))
[1] 100
注意data
and factor
不是很好的名字,因为它们也是内置函数。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)