如何去除 R 中的异常值?

2023-12-01

我目前正在尝试以一种非常简单的方式删除 R 中的异常值。我知道您可以为此自行创建一些函数,但我想对这个简单的代码进行一些输入,以及为什么它似乎不起作用?

outliers <- boxplot(okt$pris)$out

okt_no_out <- okt[-c(outliers),]

boxplot(okt_no_out$pris)

第一行我创建一个包含异常值的向量,第二行我创建一个新的数据框,省略该向量中的值。但是...当我检查新数据框时,750 个异常值中只有大约 400 个被删除了?

矢量离群值大约包含 750 行,但执行此操作时,它只删除了大约一半......

这些简单的代码行不应该以一种非常方便的方式删除异常值吗?


boxplot$out返回异常值的值,而不是异常值的位置。所以okt[-c(outliers),]正在删除数据系列中的随机点,其中一些是异常值,另一些则不是。

您可以做的是使用箱线图统计信息的输出来检索上下须线的末端,然后使用这些值过滤数据集。请参阅下面的示例:

#test data
testdata<-iris$Sepal.Width

#return boxplot object
b<-boxplot(testdata)

#find extremes from the boxplot's stats output
lowerwhisker<-b$stats[1]
upperwhisker<-b$stats[5]

#remove the extremes
testdata<-testdata[testdata>lowerwhisker & testdata<upperwhisker]

#replot
b<-boxplot(testdata)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何去除 R 中的异常值? 的相关文章

  • 如何在Shiny中动态生成的条件面板中格式化条件?

    我正在尝试使用 for 循环在 Shiny 中创建小部件 每个块包含 label 复选框 选择选择器 两个数字输入 我想根据复选框的值和选择选择器的值来设置显示或隐藏两个数字输入的条件 在我创建的 for 循环中 我为每个小部件变量添加了一
  • 将 R 中的 arules 生成的规则应用于新交易

    我的目标是使用 R 包生成的规则arules来预测topic每个事务 每个事务有 1 个主题 其中每个事务是文档中的一组单词 我有一个训练集trans train 用于创建规则 和测试集trans test 我想预测它的 主题 我还希望能够
  • 如何将管道链 (magrittr) 的结果提供给对象

    这是一个相当简单的问题 但我无法通过 google stackexchange 找到答案并查看 magrittr 的文档 如何提供通过 gt 连接的函数链的结果来创建向量 我看到大多数人做的是 a lt data frame x c 1 3
  • R中按字母顺序对每一行字符串进行排序

    我环顾四周 似乎找不到解决这个问题的好方法 我有一个包含行名称的列 我想按字母顺序对每一行进行排序 以便稍后可以识别具有相同名称但顺序不同的行 数据如下 names lt c John D Josh C Karl H John D Bob
  • 在R中,如何平均空间网格正方形上的空间点数据

    现在设法解决问题 我有一组大约 50 000 个点 它们具有坐标和一个与其关联的值 我希望能够将点放入网格中 对落在网格正方形中的所有点的关联值进行平均 所以我想最终得到一个对象来识别每个网格方块并给出网格方块内的平均值 如果有帮助的话 我
  • 在字符串中每个字母后面添加数字

    我有几个具有固定格式的字符串 格式为一个字母后跟一个数字 例如 A3B1C7D1 但是 如果字母后面的数字为 1 则字符串将写为 A3BC7D 我想做的是插入数字 1 然后将字符串转换为A3BC7D to A3B1C7D1 我的示例数据是
  • R:data.table 与 merge(aggregate()) 性能

    或者更一般地说 它是DT SD by versus merge aggregate 话不多说 这里是数据和示例 set seed 5141 size 1e6 df lt data table a rnorm size b paste0 sa
  • R Markdown / Bookdown 中的水平规则导致错误

    突然 我在 Markdown Bookdown 中编织为 PDF 时遇到错误 我的系统没有任何变化 该错误是由 水平规则 引起的 即 Markdown 中的任意位置 或 尽管两侧都有行空格 我提供了一个简单的违规示例 它不会合并成 PDF
  • 如何选择独特点

    我是一名 R 程序员新手 我有以下一系列观点 df lt data frame x c 1 2 3 4 y c 6 3 7 5 df lt df gt mutate k 1 df lt df gt full join df by k df
  • R 控制台是我的母语,如何将 R 设置为英语?

    我在 Windows 7 上使用 R 显然 R 不知何故发现了我说英语以外的语言的证据 并且顽固地坚持在控制台中以我自己的语言提供输出 由于多种原因 这是不可取的 我希望 R 是英语 什么有效 我能够使用LANGUAGE en作为 R 控制
  • 在 ggplot2 中,如何将堆叠直方图中的小值条形组合在一起?

    示例数据 tmp df lt data frame a rnorm 100 0 1 b rnorm 100 0 5 1 c rnorm 100 0 5 1 d rnorm 100 1 1 e rnorm 100 1 1 gt tidyr g
  • ggplot:按组自动化的百分位线

    我找到了dplyr gt 运算符有助于简单的 ggplot2 转换 无需求助于ggproto 这是必需的ggplot2 扩展 http docs ggplot2 org dev vignettes extending ggplot2 htm
  • 根据值的运行总计创建组

    我的数据在一个变量 Y 上是唯一的 另一个变量 Z 告诉我每个 Y 中有多少人 我的问题是我想从这些 Y 和 Z 创建 45 人的组 我的意思是 每当运行总计Z 达到 45 创建一组 然后代码继续创建下一组 我的数据看起来像这样 ID X
  • profvis() 何时以及为何显示“源不可用”?

    我经常分析 R 代码 并大量使用 profvis 对于某些函数 浏览器窗口的上半部分会显示源代码 有时则不会 我不知道什么时候会出现这种情况 对我来说这似乎是随机的 有谁知道 profvis 何时以及为什么无法在顶部窗口中显示代码 发生这种
  • 有效地将环境从内部功能转移到全局环境

    我有一个在其中创建环境的函数 我希望将该环境分配给全局环境 目前我通过将环境分配给来做到这一点globalenv 作为最后一步 如下 funfun lt function inc 1 dataEnv lt new env dataEnv d
  • glm() 模型的交叉验证

    我正在尝试对我之前在 R 中构建的一些 glm 模型进行 10 倍交叉验证 我对cv glm 函数在boot包 尽管我已经阅读了很多帮助文件 当我提供以下公式时 library boot cv glm data glmfit K 10 这里
  • readRDS() 加载额外的包

    什么情况下会出现readRDS R 中的函数尝试加载包 命名空间 我很惊讶地在新的 R 会话中看到以下内容 gt loadedNamespaces 1 base datasets graphics grDevices methods sta
  • 解释 survreg 中的威布尔参数

    我正在尝试使用从 R 中的 survreg 估计的参数生成逆威布尔分布 我的意思是 对于给定的概率 这将是在 MS Excel 中实现的小型模拟模型中的随机数 返回使用我的参数预计出现故障 的时间 我理解逆威布尔分布的一般形式是 X b l
  • R 条形图中的 X 轴

    我想问一个关于 barplot 轴的问题 首先请看我的数据 SerNo DOY Rain 1 350 0 2 351 0 3 352 0 4 353 0 5 354 0 6 355 0 7 356 0 8 357 0 9 358 0 10
  • 如何在 R 地图库中绘制正确的颜色

    我正在尝试使用 R 地图库为特定国家绘制特定颜色 我可以填写颜色 但它们与各自的国家 地区没有正确关联 我想知道是否有人能知道为什么 我的数据框是 filld 有 3 列 第一列是国家名称 第二列只是一些数字数据 第三列是颜色 countr

随机推荐

  • 防止弹性项目超过父级高度并使滚动条工作

    如何防止子div带有滚动条和flex 1超过 Firefox 中其父级 Flexbox 的高度 它在 Chrome 中工作正常 CodePen 链接 如果您更喜欢它而不是 Stack Overflow 片段 https codepen io
  • 在循环中追加到字典值列表

    我有一些代码 其中使用名称列表和结果文件 最终是多个文件 团队 名称 地点 我正在寻找的最终结果是将每个人的姓名 键 与点 值 列表相关联 但是 当我使用下面的代码时 我最终得到的结果如下 Abe 100 80 90 Bob 100 80
  • $_ 的奇怪值/行为

    输出应该是aaabbbcccdddeee not aaa555234dddeee perl wle map for my i 2 i lt 5 i push a a e print a aaa555234dddeee 仅在引用 取消引用时的
  • 如何异步等待 x 秒然后执行某些操作?

    我知道有Thread Sleep and System Windows Forms Timer and Monitor Wait在 C 和 Windows 窗体中 我似乎无法弄清楚如何等待 X 秒然后做其他事情 而不锁定线程 我有一个带有按
  • 如何在 python 中上传 FTP 上的完整目录? [复制]

    这个问题在这里已经有答案了 我必须在 FTP 服务器上上传一个目录 其中包含子目录和文件 但我似乎无法正确理解 我想按原样上传目录 及其子目录和文件所在的位置 ftp FTP ftp connect host port ftp login
  • hibernate中如何删除连接表中的记录

    论坛会员 我需要你们所有人的帮助 我有两个具有一对多关系的 POJO 模型 我的项目 pojo 如下 Entity Table name project public class Project implements java io Ser
  • 将文件存储在 HDFS 上的命令

    介绍 一个 Hadoop NameNode 和三个 DataNode 已安装并正在运行 下一步是向 HDFS 提供文件 已执行以下命令 hadoop fs copyFromLocal ubuntu 14 04 desktop amd64 i
  • 如何检测访问我的网站所使用的浏览器?

    如何检测用户正在使用什么浏览器 IE Firefox Opera 访问我的网站 Javascript PHP ASP Python JSP 以及您能想到的任何其他语言的示例都会有所帮助 是否有一种与语言无关的方法来获取此信息 如果是为了处理
  • Vim 的替代命令可以像 sed 的“t labe”一样处理递归模式吗?

    只是一个随机的例子 aaa 01 02 03 04 05 aaa 后面的数字个数不固定 替换后的预期结果是 aaa 01 aaa 02 aaa 03 aaa 04 aaa 05 我知道如何使用 sed 的 t label 或 Vim 使用类
  • 无法在 ubuntu 14.04 的终端内退出 emacs

    我在 ubuntu 14 04 上的终端中运行 emacs emacs nw 如果我尝试退出C x C c 我在底部的和弦空间中看到了这一点 C x 我是一个 Emacs 新手 但这看起来像是试图与c键 即使我将手指举过Ctrl钥匙 如果我
  • Visual Studio 2010 math.h 中不存在 rint 以及 CUDA rint 的等效项

    我正在将 CUDA 代码移植到 C 并使用 Visual Studio 2010 CUDA 代码使用rint函数 该函数似乎不存在于Visual Studio 2010 math h中 所以看来我需要自己实现它 根据这个link CUDAr
  • 底部弹出UIPicker?

    调用action时从屏幕底部弹出的UIPicker是否只是一个以某种方式协调的基本UIPickerView 就像 UIActionSheet 一样 我将如何实现它 这是我使用的动画代码 void animateDatePicker BOOL
  • 如何用日期范围填充表格?

    我需要一个 MySQL 表来保存 2011 01 01 和 2011 12 31 之间的所有日期 我创建了一个表 其中一个列名为 date 类型为 DATE 通过什么查询 我可以在表中填充所有所需的日期 而不必手动输入它们 尝试这个 DRO
  • 有没有办法用 C# 为 iphone 制作应用程序

    我想知道你们是否可以为 iPhone 制作 C NET 应用程序 我该如何开始 单点触控将是要走的路 附注我真的建议你在任何平台上使用原生版本
  • git/jenkins TLS 问题

    当 Jenkins 尝试克隆存储库时 我收到以下错误 无法连接到存储库 命令 usr bin git ls remote h https github com chkp lebowits protego examples HEAD 返回状态
  • 多级块方法正在产生问题

    我有课 class DataListBuilder include ActionView Helpers TagHelper include ActionView Helpers CaptureHelper include ActionVi
  • ModuleNotFoundError:没有名为“加密”的模块

    这些是我在运行任何项目模块时收到的错误消息 Traceback most recent call last File C Users hsnl BlockchainCodesTutor Wallet py line 3 in
  • System.Web.Services.Protocols.SoapHttpClientProtocol 使用什么版本的 SSL/TLS?

    现在 SSL 3 已被发现容易受到POODLE attack 连接到任何 https Uri 时 System Web Services Protocols SoapHttpClientProtocol 使用什么版本的 SSL TLS 我使
  • mysql/php:显示帖子以及每个帖子的所有评论

    我知道这个问题已经被问过多次 但是 我仍然找不到解决方案 PHP MYSQL 显示带评论的帖子 mysql 查询 有限制的博客文章和评论 帖子和评论的 mysql 结构 基本问题 有桌子posts comments user 您可以使用一个
  • 如何去除 R 中的异常值?

    我目前正在尝试以一种非常简单的方式删除 R 中的异常值 我知道您可以为此自行创建一些函数 但我想对这个简单的代码进行一些输入 以及为什么它似乎不起作用 outliers lt boxplot okt pris out okt no out