R中按组删除异常值

2023-12-02

在我的数据集中，我必须分别删除每个组的异常值。这是我的数据集

vpg=structure(list(customer = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 1L, 
1L, 1L, 1L, 2L, 2L, 2L, 2L), code = c(2L, 2L, 3L, 3L, 4L, 4L, 
5L, 5L, 2L, 2L, 3L, 3L, 4L, 4L, 5L, 5L), year = c(2017L, 2017L, 
2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2018L, 2018L, 2018L, 
2018L, 2018L, 2018L, 2018L, 2018L), stuff = c(10L, 20L, 30L, 
40L, 50L, 60L, 70L, 80L, 10L, 20L, 30L, 40L, 50L, 60L, 70L, 80L
), action = c(0L, 1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L, 1L, 
0L, 1L, 0L, 1L)), .Names = c("customer", "code", "year", "stuff", 
"action"), class = "data.frame", row.names = c(NA, -16L))

我必须从 stuff 变量中删除异常值，但按组客户+代码+年份分开删除

我发现了这个漂亮的功能

remove_outliers <- function(x, na.rm = TRUE, ...) {
  qnt <- quantile(x, probs=c(.25, .75), na.rm = na.rm, ...)
  H <- 1.5 * IQR(x, na.rm = na.rm)
  y <- x
  y[x < (qnt[1] - H)] <- NA
  y[x > (qnt[2] + H)] <- NA
  y
}

new <- remove_outliers(vpg$stuff)
vpg=cbind(new,vpg)
View(vpg)

但它适用于所有群体。如何使用此功能删除每个组的异常值并为下一步工作获得清晰的数据集？注意，在这个数据集中，有变量动作（它的值是0和1）。它不是组变量，但必须仅删除异常值ZERO(0)动作变量的类别。

这是一个解决方案data.table:

library("data.table")
setDT(vpg)
vpg[, new:=stuff][action==0, new:=remove_outliers(stuff), by=.(customer, code, year)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

dplyr

R中按组删除异常值的相关文章

展平 ggplot2 中的 alpha 通道

ggplot2 的某些对象函数支持 alpha 通道 http docs ggplot2 org current geom point html http docs ggplot2 org current geom point html
lme4：如何指定 2 个与随机截距的相关性，而不添加随机斜率之间的相关性

重新发布自stats stackexchange com https stats stackexchange com q 195385 33560 我试图在 R 的 lme4 包中指定一个模型其中随机截距和随机斜率之间有 2 个相关性但
Python DataFrame：将一列转置为多列

我有一个如下所示的数据框 df pd DataFrame month 2017 09 27 2017 09 27 2017 09 28 2017 09 29 Cost 100 500 200 300 我怎样才能得到这样的 df 2017 0
中断、保存并稍后继续循环的最佳方法

事情是这样的我有一个需要几天时间才能运行的循环我想中断循环检查进度然后稍后继续目前我正在使用以下内容 for i in 1 100000 Sys sleep i 2 5 print i write csv i i csv 我检查
评估 R 中字符串指向的函数

假设我有以下内容 x lt 1 10 squared lt function x x 2 y lt squared 我希望能够使用 y 定义的字符串来评估该函数像 eval y 这样的东西我知道这是错误的但会返回 1 1 4 9 16
有没有办法将字母扩展到超过 26 个字符，例如 AA、AB、AC...？

我大部分时间都使用字母来表示我的因素但今天我尝试超过 26 个字符 LETTERS 1 32 期待有自动递归因式分解 AA AB AC 但很失望这只是字母的限制还是有办法使用其他函数来获取我正在寻找的内容 702够吗 LETTERS70
R 在 Ubuntu 中通过代理连接

我在 Ubuntu 12 04 上安装了 RStudio 0 97 168 当我尝试安装 gstat 库时出现以下错误 install packages gstat dependencies TRUE Warning in install
在 RStudio 控制台中显示西里尔字母

我在 Rstudio 控制台中显示俄语字符时遇到问题我使用 readxl 包加载带有俄语的 Excel 文件西里尔字母在数据框中正确显示但是如果我运行一个输出包含变量名称的函数 RStudio 控制台将显示符号而不是正确的西里尔字符
如何编写一个也接受字符输入的 NES 函数？

我正在开发一个将字符串作为函数参数的 R 包现在我想使用非标准评估来允许非字符串输入另外为了保持向后兼容性我想保留函数接受字符串的可能性哈德利给出了example https cran r project org web pack
使用 roxygen2 记录数据集

我正在尝试使用 roxygen2 记录 R 包中的一些数据集仅考虑其中之一 I have mypkg data CpG human GRCh37 RDa 其中包含一个名为的对象CpG human GRCh37 和一个名为 mypkg R
使用 dplyr 和 ggplot 绘制包括负值的多面水平发散堆积条形图

我希望这个例子能够让人清楚我想要堆叠条形其中中间条形跨越 0 因为它代表中性值这与李克特量表一起使用为了重现性我使用钻石数据集以下示例与我的用例足够接近并演示了我很难以正确的顺序获取好或正数据因此中性最接近 0 这是
根据感兴趣的特定单词绘制高度相关的单词[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在尝试绘制一个单词的最高相关性例如我想绘制鲸鱼一词的最高十个相关性的图表有人可以帮我执行类似的命令吗如果有帮助的话我已经安装
在 R 中使用科学记数法和 xtable

我将 data frame 传递给 xtable dat table lt xtable dat 1 20 digits 10 我宁愿使用科学记数法而不是像那样显示数字我该怎么做呢看过了但我发现的只是R 格式化xtable中的数字
如何连接 R 列表中的多个 .wav 文件？

我有一个 wav 文件列表my list library seewave library tuneR data tico audio lt tico freq lt 22050 breaks lt c 0 0 2 0 4 0 6 0 8 i
根据第二个数据帧中的匹配创建新列

如果有两个数据框 top3df http dpaste com 1709875 and qw qw lt structure list id structure 1 25 Label c w01 w02 w03 w04 w05 w06 w0
将一个大的 xlsx 文件导入到 R 中？

我想知道是否有人知道从大 xlsx 文件 20Mb 导入数据的方法我尝试使用 xlsx 和 XLConnect 库不幸的是两者都使用 rJava 我总是收到相同的错误 gt library XLConnect gt wb lt lo
如何对plot_ly()图表进行分面？

Using ggplot2 and plotly制作交互式散点图facet wrap library ggplot2 library plotly g lt iris gt ggplot aes x Sepal Length y Sepal
R 中的频率加权，与 Stata 的结果比较

我正在尝试分析明尼苏达大学 IPUMS 数据集中的数据1990 年美国人口普查 http usa ipums org usa sampdesc shtml us1990a in R 我正在使用survey http faculty wash
生成与现有变量具有预定义相关性的二进制变量

对于模拟研究我想生成一组随机变量连续变量和二元变量这些变量与已经存在的变量具有预定义的关联binary变量此处表示为x 对于这篇文章假设x是按照下面的代码生成的但请记住在现实生活中 x是一个已经存在的变量 set seed 1
修改x轴刻度标签

我正在尝试更改由生成的箱线图的 x 轴刻度标签ggplot2 x 轴是一个分类变量 HabFac 我想要的是将其刻度更改为 6 个化学品 A E 下面是我的代码 raw data read table Read data p TT ggpl

随机推荐

JSON 和处理未导出的字段

是否有技术原因导致未导出的字段不被encoding json包含如果不是并且这是一个任意决定即使未导出是否还可以包含额外的后门选项例如要求导出客户端代码以获得此功能感觉很不幸特别是如果小写字母提供封装或编组结构的决定比它们的设
在 Google 文档中的某些文本后附加列表项的更有效方法

所以目前我有一些代码可以让我插入ListItem在 Google 文档中的一段之后我遇到的唯一问题是对于我想要完成的任务来说它似乎过于复杂这是我的代码 var search This is a test var body Docu
如何保持 .NET 控制台应用程序运行？

考虑一个在单独线程中启动某些服务的控制台应用程序它所需要做的就是等待用户按 Ctrl C 将其关闭以下哪项是执行此操作的更好方法 static ManualResetEvent quitEvent new ManualResetEven
在Python中对大量数组进行排序的最快方法

我正在尝试在 python 中对大量数组进行排序我需要一次对超过 1100 万个数组执行排序另外如果我可以直接获取对数组进行排序的索引那就太好了这就是为什么到目前为止我正在使用 numpy argsort 但这在我的机器上太慢了
C# 代码覆盖率指标

是否有免费的商用代码覆盖率工具低至个人 LOC 级别可用我知道 VS2008 Team Edition 但不幸的是没有预算购买许可证所以我正在寻找一种免费的如啤酒替代品有任何想法吗 NCover是 NET 的开源代码覆盖工具
为什么 N3421 不提供 noexcept 限定符？

In N3421 使运算符函子变得更大 std 函数对象的新特化是 template lt gt struct plus
xsd:dateTime 到 Java OffsetDateTime

为了妥善处理xs 日期时间使用 JAXB 我必须编写自己的转换器String gt java time OffsetDateTime 正如 XML 架构定义中提到的 dateTime 受到 ISO 8601 的启发我使用OffsetDat
SocketIO：通过套接字ID断开客户端连接？

我有一个带有 SocketIO 和多个连接的节点服务器如何根据 ID 断开现有套接字有房间每个房间都有一个管理员和其他连接我的目标是使管理套接字能够根据其 ID 使任何其他套接字断开连接解决方法是向要被踢出的客户端发送一条消息以
valgrind：mmap（0x600000，8192）在UME中失败，错误12（无法分配内存）

我正在关注这个练习此页面包含安装 Valgrind 3 6 1 的说明但我当前的 Linux 内核版本不支持此版本的 Valgrind 因此我安装了 Valgrind 3 11 0 并在运行此命令后按照说明进行操作 valgrind
Grails Gorm 如何为每个具体类插入表，其中每个具体类都继承一个抽象类

大家好以下是情况我有一个抽象类 AbstractProfile 和一个具体类 GoogleProfile abstract class AbstractProfile class GoogleProfile extends Abstra
C# 程序使用秒表来计时操作时冻结

我有一个控制灯的 Windows 窗体程序这种光有自己的类别我可以做一些事情比如打开和关闭它改变颜色等我可以毫无问题地做到这一点然而我想要做的是让灯持续特定的时间即 100 毫秒或 300 毫秒取决于使用情况我尝试使用秒
将 onlongclick 侦听器添加到警报对话框

我在 android 中有一个 AlertDialog 其中包含来自 sqlite 的好友列表当我单击列表中的好友姓名时就会呼叫该好友我想做的是将一个 longclicklistener 添加到列表中这样系统就可以提示我删除列表中的
有没有办法在 Postgres 中禁用函数重载

我和我的用户不在 PL pgSQL 中使用函数重载每个模式名称元组总是有一个函数因此我们希望仅按名称删除函数更改其签名而不必先删除它等等例如考虑以下函数 CREATE OR REPLACE FUNCTION myfunc
有没有办法在 python 中从头开始创建 .xlsm 文件？

我在 mac 上使用 python 3 8 1 并尝试创建一个 xlsm文件从头开始我看过 openpyxl 和 xlsxwriter 它们都能够创建 xlsx文件从头开始两者都可以编辑现有的 xlsm文件但我找不到任何有关实际创建的
SQLite INSERT ... ON CONFLICT ... WHERE ... DO UPDATE SET 的替代方案

我正在 Linux 上运行一个使用 SQLite3 版本 3 7 17 的应用程序这条语句出错了 INSERT INTO taxa taxon id rank parent id VALUES ON CONFLICT taxon id W
从 python 脚本设置 bash 变量

我在 bash 脚本中调用 python 脚本我想知道是否有一种简单的方法可以在 python 脚本中设置 bash 变量 Example 我的 bash 脚本 bin bash someVar python3 some folder p
使用 Ajax 和 beforeSend 显示图像

我对 jquery 和 ajax 比较陌生我对它们的可能性感到惊讶我正在开发我的第一个 ajax jquery 带验证插件网络表单快完成了但是有一点不明白我想显示一个加载图标并使用 beforeSend 方法禁用发送按钮但它不
如何了解我的平板电脑支持哪些采样率？

我有一个应用程序可以在许多设备 Xoom Xyboard 等上完美运行但在 Galaxy 10 1 上的这一行失败 mrec setAudioSamplingRate 44100 当我注释掉这一行时一切都会顺利进行我不确定它默认使用
R 中矩阵两列相乘之和

我使用以下方法在 R 中生成一个矩阵 ncolumns 3 nrows 10 my mat lt matrix runif ncolumns nrows ncol ncolumns 该矩阵表示 3D 中点的坐标 R中如何计算以下值 sum
R中按组删除异常值

在我的数据集中我必须分别删除每个组的异常值这是我的数据集 vpg structure list customer c 1L 1L 1L 1L 2L 2L 2L 2L 1L 1L 1L 1L 2L 2L 2L 2L code c 2L 2

R中按组删除异常值

R中按组删除异常值 的相关文章

随机推荐

热门标签

R中按组删除异常值的相关文章