我想预先计算数据的变量摘要(使用plyr
并通过一个quantile
函数),然后用geom_boxplot(stat = "identity")
。这非常有效,除了它(a)不将异常值绘制为点以及(b)将“胡须”扩展到所绘制数据的最大值和最小值。
Example:
library(plyr)
library(ggplot2)
set.seed(4)
df <- data.frame(fact = sample(letters[1:2], 12, replace = TRUE),
val = c(1:10, 100, 101))
df
# fact val
# 1 b 1
# 2 a 2
# 3 a 3
# 4 a 4
# 5 b 5
# 6 a 6
# 7 b 7
# 8 b 8
# 9 b 9
# 10 a 10
# 11 b 100
# 12 a 101
by.fact.df <- ddply(df, c("fact"), function(x) quantile(x$val))
by.fact.df
# fact 0% 25% 50% 75% 100%
# 1 a 2 3.25 5.0 9.00 101
# 2 b 1 5.50 7.5 8.75 100
# What I can do...with faults (a) and (b) above
ggplot(by.fact.df,
aes(x = fact, ymin = `0%`, lower = `25%`, middle = `50%`,
upper = `75%`, ymax = `100%`)) +
geom_boxplot(stat = "identity")
# What I want...
ggplot(df, aes(x = fact, y = val)) +
geom_boxplot()
对于上面提到的错误(a)和(b),我能做什么:
我想获得什么,但仍然通过以下方式利用预计算plyr
(或其他方法):
初步想法:也许有某种方法可以预先计算晶须的真实端点而没有异常值?然后,对异常值的数据进行子集化并将它们传递为geom_point()
?
动机:当处理更大的数据集时,我发现利用它更快、更实用plyr
, dplyr
,和/或data.table
预先计算统计数据,然后绘制它们而不是ggplot2
到计算。
UPDATE
我能够通过以下组合提取我需要的内容dplyr
and plyr
代码,但我不确定这是否是最有效的方法:
df %>%
group_by(fact) %>%
do(ldply(boxplot.stats(.$val), data.frame))
Source: local data frame [6 x 3]
Groups: fact
fact .id X..i..
1 a stats 2
2 a stats 4
3 a stats 10
4 a stats 13
5 a stats 16
6 a n 9