我有一个 1000 行的数据集,其结构如下:
device geslacht leeftijd type1 type2
1 mob 0 53 C 3
2 tab 1 64 G 7
3 pc 1 50 G 7
4 tab 0 75 C 3
5 mob 1 54 G 7
6 pc 1 58 H 8
7 pc 1 57 A 1
8 pc 0 68 E 5
9 pc 0 66 G 7
10 mob 0 45 C 3
11 tab 1 77 E 5
12 mob 1 16 A 1
我想制作一个 80 行的样本,由类型 1 = A 的 10 行、类型 1 = B 的 10 行组成,依此类推。有没有人可以帮助他?
这是我将如何使用data.table
library(data.table)
indx <- setDT(df)[, .I[sample(.N, 10, replace = TRUE)], by = type1]$V1
df[indx]
# device geslacht leeftijd type1 type2
# 1: mob 0 45 C 3
# 2: mob 0 53 C 3
# 3: tab 0 75 C 3
# 4: mob 0 53 C 3
# 5: tab 0 75 C 3
# 6: mob 0 45 C 3
# 7: tab 0 75 C 3
# 8: mob 0 53 C 3
# 9: mob 0 53 C 3
# 10: mob 0 53 C 3
# 11: mob 1 54 G 7
#...
或者更简单的版本是
setDT(df)[, .SD[sample(.N, 10, replace = TRUE)], by = type1]
基本上,我们从每组中的行索引中进行采样(有替换 - 因为每组中的行数少于 10 行)type1
然后通过该索引对数据进行子集化
类似地与dplyr
你可以做
library(dplyr)
df %>%
group_by(type1) %>%
sample_n(10, replace = TRUE)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)