我有一个包含 5 个维度数据的数据框,如下所示:
> dim(alldata)
[1] 162 6
> head(alldata)
value layer Kmultiplier Resolution Season Variable
1: 0.01308008 b .01K 1km Baseflow Evapotranspiration
2: 0.03974779 b .01K 1km Peak Flow Evapotranspiration
3: 0.02396524 b .01K 1km Summer Flow Evapotranspiration
4: -0.15670996 b .01K 1km Baseflow Discharge
5: 0.06774948 b .01K 1km Peak Flow Discharge
6: -0.04138313 b .01K 1km Summer Flow Discharge
我想做的是根据其他列获取数据的某些“特征”的值列的平均值。因此,我使用它将数据子集仅包含我感兴趣的变量,例如:
> subset=alldata[which(alldata$Variable=="Discharge" & alldata$Resolution=="1km" & alldata$Season=="Peak Flow"),]
> subset
value layer Kmultiplier Resolution Season Variable
1: 0.067749478 b .01K 1km Peak Flow Discharge
2: 0.058260448 b .1K 1km Peak Flow Discharge
3: -0.223953725 b 10K 1km Peak Flow Discharge
4: 0.272916114 g .01K 1km Peak Flow Discharge
5: 0.240135025 g .1K 1km Peak Flow Discharge
6: -0.216730348 g 10K 1km Peak Flow Discharge
7: 0.088966500 s .01K 1km Peak Flow Discharge
8: -0.018943754 s .1K 1km Peak Flow Discharge
9: -0.008339365 s 10K 1km Peak Flow Discharge
这就是我被困住的地方。假设我想要“层”列中每个值的平均值的向量或列表...所以我最终会得到 3 个数字,一个代表“b”,一个代表“g”,一个代表“s”。我需要制作一堆这样的子集,我认为应用函数可以提供帮助,但在多个教程和堆栈问题之后我无法让它工作。一个更简单的例子也很好,像这样:
> A=data.frame(seq(1,9),rep(c("a","b","c"),3),c(rep("type1",3),rep("type2",3),rep("type3",3)),c(rep("place1",2),rep("place2",2),rep("place3",2),rep("place1",2),rep("place2",1)))
> names(A)=c("value","Letter","Type","Place")
> A
value Letter Type Place
1 1 a type1 place1
2 2 b type1 place1
3 3 c type1 place2
4 4 a type2 place2
5 5 b type2 place3
6 6 c type2 place3
7 7 a type3 place1
8 8 b type3 place1
9 9 c type3 place2
在这个简单的示例中,我需要按字母列出的“place1”列“value”的平均值,它应该以任何格式返回类似:“a=平均值,b=平均值,c=平均值”作品。
这是应用功能的工作吗?如果是这样,怎么办?如果没有,请告诉我一个更好的替代方法来对我的数据进行子集化。
谢谢你!