如何使用 geom_boxplot(stat = "identity") 模拟带有异常值的 geom_boxplot()

2024-03-12

我想预先计算数据的变量摘要（使用plyr并通过一个quantile函数），然后用geom_boxplot(stat = "identity")。这非常有效，除了它（a）不将异常值绘制为点以及（b）将“胡须”扩展到所绘制数据的最大值和最小值。

Example:

library(plyr)
library(ggplot2)

set.seed(4)
df <- data.frame(fact = sample(letters[1:2], 12, replace = TRUE),
                 val  = c(1:10, 100, 101))
df
#    fact val
# 1     b   1
# 2     a   2
# 3     a   3
# 4     a   4
# 5     b   5
# 6     a   6
# 7     b   7
# 8     b   8
# 9     b   9
# 10    a  10
# 11    b 100
# 12    a 101

by.fact.df <- ddply(df, c("fact"), function(x) quantile(x$val))

by.fact.df
#   fact 0%  25% 50%  75% 100%
# 1    a  2 3.25 5.0 9.00  101
# 2    b  1 5.50 7.5 8.75  100

# What I can do...with faults (a) and (b) above
ggplot(by.fact.df, 
       aes(x = fact, ymin = `0%`, lower = `25%`, middle = `50%`, 
           upper = `75%`,  ymax = `100%`)) +
  geom_boxplot(stat = "identity")

# What I want...
ggplot(df, aes(x = fact, y = val)) +
  geom_boxplot()

对于上面提到的错误（a）和（b），我能做什么：

我想获得什么，但仍然通过以下方式利用预计算plyr（或其他方法）：

初步想法：也许有某种方法可以预先计算晶须的真实端点而没有异常值？然后，对异常值的数据进行子集化并将它们传递为geom_point()?

动机：当处理更大的数据集时，我发现利用它更快、更实用plyr, dplyr，和/或data.table预先计算统计数据，然后绘制它们而不是ggplot2到计算。

UPDATE

我能够通过以下组合提取我需要的内容dplyr and plyr代码，但我不确定这是否是最有效的方法：

df %>%
  group_by(fact) %>%
  do(ldply(boxplot.stats(.$val), data.frame))

Source: local data frame [6 x 3]
Groups: fact

  fact   .id X..i..
1    a stats      2
2    a stats      4
3    a stats     10
4    a stats     13
5    a stats     16
6    a     n      9

这是我的答案，使用内置函数quantile and boxplot.stats.

geom_boxplot箱线图的计算与boxplot.stats. Read ?geom_boxplot and ?boxplot.stats了解下面我的实现

#Function to calculate boxplot stats to match ggplot's implemention as in geom_boxplot.
my_boxplot.stats <-function(x){
        quantiles <-quantile(x, c(0, 0.25, 0.5, 0.75, 1))
        labels <-names(quantile(x))
        #replacing the upper whisker to geom_boxplot
        quantiles[5] <-boxplot.stats(x)$stats[5]
        res <-data.frame(rbind(quantiles))
        names(res) <-labels
        res$out <-boxplot.stats(x)$out
        return(res)
    }

计算统计数据并绘制它的代码

library(dplyr)
df %>% group_by(fact) %>% do(my_boxplot.stats(.$val)) %>% 
      ggplot(aes(x=fact, y=out, ymin = `0%`, lower = `25%`, middle = `50%`,
                 upper = `75%`,  ymax = `100%`)) +
      geom_boxplot(stat = "identity") + geom_point()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

ggplot2

plyr

dplyr

如何使用 geom_boxplot(stat = "identity") 模拟带有异常值的 geom_boxplot() 的相关文章

R 中的聚类分析：确定最佳聚类数

如何选择最佳的聚类数量来进行 k 均值分析绘制以下数据的子集后多少个簇比较合适如何进行聚类树突分析 n 1000 kk 10 x1 runif kk y1 runif kk z1 runif kk x4 sample x1 lengt
r testthat 和 covr 在非包库中使用

我希望能够使用testthat and covr在一个项目中not一个 r 包事实上不使用任何第三方服务只是普通的旧 r 源文件的集合我正在努力找出这是否可行如果可以则已设置有关如何设置的说明我发现假设你正在编写一个 r 包我
从频率表生成 data.frame

我在 2 4 数组中有包含 500 个观察值的合成数据 datax array c 120 181 50 43 41 33 24 8 dim c 2 4 dimnames datax list gender c male female pu
用于不规则时间序列的滚动窗口函数，可以处理重复项

我有以下数据框 grp nr yr 1 A 1 0 2009 2 A 2 0 2009 3 A 1 5 2009 4 A 1 0 2010 5 B 3 0 2009 6 B 2 0 2010 7 B NA 2011 8 C 3 0 2014
R：install.packages 中出现错误：无法打开连接

我试图安装 RINDSEL 包但无法安装它并且不断收到以下错误 install packages 中出错无法打开连接我从以下位置下载了该软件包 rindsel 1 0 2 zip 综合养殖平台 http old ibpdev net
如何拆分 data.frame -> 将合并应用于子集 -> 合并到 data.frame 中

我真的不知道如何在不使用 for 循环的情况下实现这一目标 x lt c a b c d gt x 1 a b c d data lt data frame x c a b a b c a a b c d name c one one tw
为“facet_wrap”中的每列创建边框和标题

我想在每个方面周围放置带有标签和标题的黑色边框facet wrap 与此类似的东西样本数据 library tidyverse mtcars gt mutate gear factor gear levels c 4 3 5 gt ggp
如何在R中绘制仪表图表？

如何在 R 中绘制以下图 Red 30 Yellow 40 Green 30 Needle at 52 所以这里有一个完整的ggplot解决方案注意从原始帖子中编辑在仪表中断处添加数字指示器和标签这似乎是OP在评论中所要求的如果不
R data.table fread 使用不带标题的命名 colClasses（例如没有 col.names？）

更新 2016 年 6 月 col names 已添加到 data table 1 9 6 所以问题已经结束每个人都非常高兴我想我现在可以将所有 read csv 调用转换为 fread 调用而不必担心破坏原问题使用数据表1 9
R ifelse 错误地用整数替换文本

我正在使用 Udacity 课程中的一些数据链接 Reddit 调查回复 https s3 amazonaws com udacity hosted downloads ud651 reddit csv 我试图通过使用单个单词替代替换任何
将 r 数据框中的列字符串转换为数字

我有一个数据框其中有一列字符串如下所示 mydata lt c 1 356670 35 355030 1 356670 35 355030 1 356620 35 355890 1 356930 35 358660 1 357000 3
带有 geom_errorbar 的position_dodge

我有以下代码 require ggplot2 pd lt position dodge 0 3 ggplot dt aes x Time y OR colour Group geom errorbar aes ymin CI lower y
自定义 colorRampPalette 中的颜色条

我定义了一个 colorRampPalette my colors colorRampPalette c light green yellow orange red 如何为其绘制颜色条图例项目最好仅使用基本包我正在寻找一个充满该颜色
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
在 R 中使用 gsub 删除尾随空格[重复]

这个问题在这里已经有答案了有没有人有一个技巧可以用 gsub 删除变量上的尾随空格以下是我的数据示例正如您所看到的我在变量中同时包含尾随空格和嵌入空格 county lt c mississippi mississippi cany
如何管理和处理 R 包中的补充数据

我想在我的 R 包中添加补充数据我知道关于LazyData true in DESCRIPTION 但不想使用它因为示例数据相当大所以我创建了一个目录 data 其中包含两个 RData文件和一个datalist 我添加使用tools
R dplyr过滤多列上的字符串条件

我有一个 df 例如 df lt read table text v1 v2 v3 v4 v5 1 A B X C 2 A B C X 3 A C C C 4 B D V A 5 B Z Z D header T 如果变量 v2 到 v5
为什么我必须在每次 R 升级时手动创建目录“~/R/%p-library/%v”？

每次R升级后我必须重新安装我使用的软件包来自源代码因此必须为新版本重新编译它们这是一个正确的可以理解的行为所以我调用install packages http stat ethz ch R manual R devel libr
字边界正则表达式问题

我在使用单词边界时遇到问题 b在我的正则表达式中我正在使用 R 但当我尝试时问题也存在http regexr com http regexr com 我使用的模式是 bs l b 虽然我预计下面的第 1 行和第 3 行能够匹配此模式但只
列槽不足

当尝试为 data table 中的每个变量 108 个变量创建 12 个滞后时我收到一条错误指出列槽不足此操作应创建大约 1200 个变量或列 Data A as data table Datos A Varnames names

随机推荐

相当于 CURRENTDIR="$PWD" 的批处理文件？

我正在尝试翻译一个很简单 Unix shell 脚本转换为批处理文件除了那行我已经把大部分都写下来了 CURRENTDIR PWD 我怎样才能将其翻译为 batchese Thanks 最简单的形式 SET CURRENTDIR cd
AJAX：提交表单而不刷新页面

我有一个类似于以下的表格
如何在抖动中打开相机闪光灯？

我正在构建一个应用程序用户可以将他们的视频上传到 firebase 我正在使用相机模块的相机包我想在用户单击闪光灯图标时打开闪光灯或将其关闭我尝试找到一种通过相机包打开闪光灯的方法但找不到任何打开闪光灯的方法然后我尝试使用灯泡包
Android 4.0.3 Stock 浏览器 z-index 问题的解决方法/polyfill

我正在寻找本报告中描述的 z index 错误的解决方法或填充 http code google com p android issues detail id 31862 http code google com p android iss
如何使用charts_flutter包在Flutter中显示工具提示

我在用https pub dev packages charts flutter https pub dev packages charts flutter对于我的应用程序中的图表我想在按下 PointsLineChart 中的点时显示工
如何在 .htaccess 文件中指定 auto_prepend_file 而无需硬编码绝对路径？

我有一个 PHP 文件我想在每个请求开始时执行我在 htaccess 文件中指定了这一点 php value auto prepend file alwaysrunthis php 问题是该指令的值是在目标脚本的上下文中执行的而不是
如何为 pyspark 中的 s3 指定服务器端加密？

感谢 stackoverflow 我成功地将 hadoop aws 2 7 3 jar 和 aws java sdk 1 7 4 jar 从 Maven 存储库复制到 SPARK HOME jars 中以获取 s3a 从 S3 存储桶中读
如何查找程序集中继承特定类型的所有类型 C#

如何获取从特定其他类型继承的所有类型的集合就像是 public IEnumerable
如何处理 WAI ARIA role="listbox"

我有一个选项列表可以从中选择一个出于所有意图和目的 HTML
如何将MYSQL查询转换为MSSQL查询

我有 700 多个 MySQL 查询现在尝试在 MSSQL 中创建相同的查询集我想用相同的 MYSQL 生成 MSSQL 查询有什么方法可以将 MYSQL 查询转换为 MSSQL 查询由此article http blogs msd
如何从python opencv中的数组读取原始png？

我正在通过 TCP 将 png 图像从 iPhone 传输到 MacBook MacBook 代码来自http docs python org library socketserver html requesthandler objects
log4j编码utf8

我使用 Java 和 Log4j 我想记录一个带有德语特殊字符的字符串例如等但在我的日志文件中它看起来像这样
如何使用 phpseclib 验证证书是否由公共 CA 签名？

我需要确保 SMTP 服务器证书由公共证书颁发机构签名我想使用 phpseclib 或其他一些受信任的库我相信我可以使用根证书 https curl haxx se docs caextract html从火狐浏览器中提取有一些自制方
Objective C - 自清零弱指针意外行为

我最近从 Mavericks 升级到 Yosemite 现在我的单元测试失败了问题归结为指向字符串内容的弱指针中的拼写错误请看下面的示例代码 NSString value1 NSString value2 weak NSString w
如何在 C 或 C++ 中全局初始化数组？

我正在尝试这样做 for int k 0 k
如何覆盖 ruby on Rails 4.0.+ 中的默认主键列？

我已经有一个现有的数据库架构其中的表以字符串列作为主键还有一些表以多个列作为键我想在 Rails 中映射此架构但我不知道如何覆盖默认主键由 Rails 框架创建的列 id 您可以像这样覆盖主键 class Book lt Acti
计算数据库中截止日期与今天日期匹配的所有记录

我需要计算数据库中截止日期与今天日期匹配的所有记录我发现我应该能够使用 COUNT 和 CURDATE 来做到这一点但我无法做到正确 SELECT COUNT id FROM tasks WHERE due date CURDATE 从
在VIM中，是否可以在替代子句中使用选定的文本而无需重新输入？

假设我在视觉模式下选择了一个单词我想使用 s 对该单词以及文件中该单词的所有其他实例执行替换有没有办法使用突出显示的文本s
Windows 中是否有类似 GREP 的模式匹配实用程序？

有没有类似的实用工具grep可从 Windows 命令提示符获取或者是否有第三方工具有一个命令行工具叫做FINDSTR随所有 Windows NT 级操作系统一起提供类型FINDSTR 进入命令提示符窗口以获取更多信息它并不支持所有
如何使用 geom_boxplot(stat = "identity") 模拟带有异常值的 geom_boxplot()

我想预先计算数据的变量摘要使用plyr并通过一个quantile函数然后用geom boxplot stat identity 这非常有效除了它 a 不将异常值绘制为点以及 b 将胡须扩展到所绘制数据的最大值和最小值 Exampl

如何使用 geom_boxplot(stat = "identity") 模拟带有异常值的 geom_boxplot()

UPDATE

如何使用 geom_boxplot(stat = "identity") 模拟带有异常值的 geom_boxplot() 的相关文章

随机推荐

热门标签