我面临一个数据集的问题重叠因素水平.
我想按因素级别生成时间线、条形图和统计数据- 但是,我希望因子水平是模棱两可的。
这意味着属于多个级别的观察结果应该在图中出现多次。
这是我的数据结构的示例:
head <- c("ID","YEAR","BRAZIL","GERMANY","US","FRANCE")
data <- data.frame(matrix(c(1,2000,1,0,0,0,
2,2010,0,1,1,0,
3,2011,0,1,0,0,
4,2012,1,0,0,1,
5,2012,0,1,0,0,
6,2013,0,0,0,1),
nrow=6, ncol=6, byrow=T))
names(data) <- head
显然,一个可能的因子变量"COUNTRY"
无法以通常的方式创建。这将迫使因素水平变得清晰(在我们的例子中,有 4 个水平:巴西、德国、美国 and France):
data$COUNTRY[data$BRAZIL==1 &
data$GERMANY==0 &
data$US==0 &
data$FRANCE==0] <- "Brazil"
data$COUNTRY[data$BRAZIL==0 &
data$GERMANY==1 &
data$US==0 &
data$FRANCE==0] <- "Germany"
etc...
factor(data$COUNTRY)
但这不是我想要的……
我的问题是,只有在因子水平适当明确的情况下,按因子绘图才有效。
我想制作这样的东西:
require(ggplot2)
MYPLOT <- qplot(data$YEAR, data$COUNTRY)
MYPLOT + geom_point(aes(size=..count..), stat="bin") + scale_size(range=c(0, 15))
观察结果属于i出现的因子水平i情节中的次数。
- 我应该如何转换我的 data.frame 以获得我想要的东西?
- 我应该简单地重复那些属于i因素水平i次?如果是,我该怎么做?
- 是否有一种不需要重复案例的解决方法?
有人有想法吗?