Python中基于移动均值的异常值检测

2023-12-14

我正在尝试将算法从 MATLAB 转换为 Python。该算法适用于大型数据集，并且需要应用异常值检测和消除技术。

在MATLAB代码中，我使用的异常值删除技术是移动中位数:

   Outlier_T=isoutlier(Data_raw.Temperatura,'movmedian',3);
   Data_raw(find(Outlier_T),:)=[]

通过查找不成比例的值，用滚动中位数检测异常值位于三值移动窗口的中心。因此，如果我在第 3 行有一个值为 40 的“Temperatura”列，则会检测到该列并删除整行。

         Temperatura     Date       
    1        24.72        2.3        
    2        25.76        4.6        
    3        40           7.0        
    4        25.31        9.3        
    5        26.21       15.6
    6        26.59       17.9        
   ...        ...         ...

据我了解，这是通过pandas.DataFrame.rolling。我已经看到几篇文章举例说明了它的用法，但我无法使其与我的代码一起使用：

尝试A：

Dataframe.rolling(df["t_new"]))

尝试B：

df-df.rolling(3).median().abs()>200

#基于@Ami Tavory 的answer

我在这里遗漏了一些明显的东西吗？这样做的正确方法是什么？感谢您的时间。

下面的代码根据阈值删除行。该阈值可以根据需要进行调整。但不确定它是否复制 Matlab 代码。

# Import Libraries
import pandas as pd
import numpy as np

# Create DataFrame
df = pd.DataFrame({
    'Temperatura': [24.72, 25.76, 40, 25.31, 26.21, 26.59],
    'Date':[2.3,4.6,7.0,9.3,15.6,17.9]
})

# Set threshold for difference with rolling median
upper_threshold = 1
lower_threshold = -1

# Calculate rolling median
df['rolling_temp'] = df['Temperatura'].rolling(window=3).median()

# Calculate difference
df['diff'] = df['Temperatura'] - df['rolling_temp']

# Flag rows to be dropped as `1`
df['drop_flag'] = np.where((df['diff']>upper_threshold)|(df['diff']<lower_threshold),1,0)

# Drop flagged rows
df = df[df['drop_flag']!=1]
df = df.drop(['rolling_temp', 'rolling_temp', 'diff', 'drop_flag'],axis=1)

Output

print(df)

   Temperatura  Date
0        24.72   2.3
1        25.76   4.6
3        25.31   9.3
4        26.21  15.6
5        26.59  17.9

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

outliers

rollingcomputation

Python中基于移动均值的异常值检测的相关文章

Python 的 pack("

我不太了解 python 但从文档中可以看出代码 str AAAA str pack

如何在仍然使用 unique = True 的同时允许 ModelForm 中的空字段？

目前在models py I have class ModelName models Model rowname models CharField max length 100 blank True unique True 就确保相同的值不
如何将二维数组作为 multiprocessing.Array 传递给 multiprocessing.Pool？

我的目标是将父数组传递给mp Pool并填充它2s 同时将其分发到不同的进程这适用于一维数组 import numpy as np import multiprocessing as mp import itertools def wor
在 opencv 中一次性将旋转和平移结合起来

我有一段用于旋转和平移图像的代码 Point2f pt 0 in rows double angle atan trans c trans b 180 M PI Mat r getRotationMatrix2D pt angle 1 0
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
将 Python 字典中的键替换为唯一值

a 0 PtpMotion 1 PtpMotion 2 LinMotion 3 LinMotion 4 LinMotion 5 LinMotion 6 LinMotion 7 LinMotion 8 LinMotion 9 PtpMotio
使用 python3 查找表情符号的宽度

我尝试使用 python 中的模式打印字母 A def printA length height symbol a for i in range length for i in range height for i in range hei
XGBoostLibraryNotFound：在候选路径中找不到 XGBoost 库，您是否安装了编译器并在根路径中运行了 build.sh？

我在移动 XGBoost 的 python package 目录时遇到这个问题 Traceback most recent call last File setup py line 19 in LIB PATH libpath find l
Django 模板：输出带有所有小数位的浮点数

我如何在 django 模板中输出这个数字小数位数是可变的我事先不知道 x 0 000015 1 x 输出是 1 5e 05 2 x stringformat f 输出是 0 000015 这不是本地化的应该有逗号我需要对输出进行本
获取SVG绘图的边界框

我想提取 SVG 绘图的边界框由于 Python 已经在系统上可用并且还用于执行其他任务因此我不想使用 JavaScript 或任何其他语言我的理解是是否可以计算单个元素的边界框但我不知道如何计算整个绘图的边界框只是所有元素的最小
在未运行 python 中的函数的情况下检查了非本地语句[重复]

这个问题在这里已经有答案了以前我认为当我们定义一个函数时该函数可能是错误的但python在执行之前不会检查它 x 100 def f x 1 0 return x print x gt gt gt 100 然而当我学习的时候nonl
Django 自定义文件存储系统

我有一个自定义存储 import os from django core files storage import Storage class AlwaysOverwriteFileSystemStorage Storage def get
2D 矩阵上的 Numpy where()

我有一个像这样的矩阵 t np array 1 2 3 foo 2 3 4 bar 5 6 7 hello 8 9 1 bar 我想获取行包含字符串 bar 的索引在一维数组中 rows np where t bar 应该给我索引 0 3
如何将 bisect.insort_left 与键一起使用？

文档缺少示例你如何使用bisect insort left 基于密钥尝试根据键插入 bisect insort left data brown 7 将插入放在data 0 从文档 bisect insort left a x lo 0
如何使用 python 在 XML 声明后添加注释

import xml etree ElementTree as ET def addCommentInXml fileXml C Users Documents config xml tree ET parse fileXml root t
如果出现重复，则主键取正值

我有一个数据框df Key1 Key2 Value K11 K21 V1 K11 K21 V1 K13 K23 V2 K13 K23 V2 现在例如对于相同的键 K11 K21 组合我们有 2 个值一负一正如何从此 df 中仅获取正
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断
如何在我的 heroku 应用程序上安装软件包？

我有一个使用 Shortuuid 的应用程序 https pypi python org pypi shortuuid 0 1 https pypi python org pypi shortuuid 0 1 当我使用 runapp py
对象对于所需数组来说太深 - scipy.integrate.odeint

我昨天刚开始使用Python 使用时遇到错误scipy integrate odeint 我定义了一个函数 def SIR x t beta gamma mu M 这需要numpy array物体x t and M 标量浮动beta gam
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决

随机推荐

Checkstyle：自定义规则 - Eclipse 插件

我使用 checkstyle API 编写了一些自定义 checkstyle 规则它们使用 Maven 运行良好在我将新项目添加为 checkstyle 插件的依赖项之后现在我希望 Eclipse Checkstyle 插件使用这些规
文本对齐文本 45 度 [重复]

这个问题在这里已经有答案了我想实现像上面屏幕上那样的文本对齐效果有什么建议么我相信您正在寻找shape outside财产 shape outside CSS 属性使用形状值来定义浮动的浮动区域并将导致内联内容环绕形状而不是浮动的边
在gnuplot中的两点之间绘制弯曲箭头

我使用以下 gnuplot 代码生成下图我想从标记的点绘制一个弯曲的箭头l 0 to l 1带头 Code reset session Ranges set xrange 1 6 set yrange 2 1 Term options s
在 Android 中从 Facebook 请求检索电子邮件和位置时出错

我在原生 Android 中使用 facebook sdk 3 5 这就是我获取 Facebook 好友的 ID 姓名的方法 private void onSessionStateChange final Session session S
将指令转换为汇编代码 lods 和 stos 以便 NASM 可以编译

好的所以我尝试使用以下方式在汇编中汇编一些代码nasm f elf final asm xor eax eax push eax push dword 0x75792273 push dword 0x70742027 push dword
带有动态生成元素的 jQuery

我已经使用 jQuery 几周了我注意到它可以很好地处理原始 HTML 文档中的对象但是当我使用 jQuery 生成新元素时库没有获取任何事件假设我尝试运行这样的东西 whatever click function alert AL
使用 PLSQL 时，此 SELECT 语句中需要 INTO 子句

我收到以下错误出现错误SELECT CASE陈述 PLS 00428 此 SELECT 语句中需要 INTO 子句 FOR REMS IN cur names LOOP SELECT CASE WHEN EXISTS SELECT 1 F
使用 android studio 3.0.1 创建新项目时出错

错误任务 app preDebugAndroidTestBuild 执行失败与项目 app 中的依赖项 com android support support annotations 冲突应用程序 26 1 0 和测试应用程序 27
字符串连接的最优化方式

我们每天都会遇到很多情况我们必须在代码中进行繁琐且大量的字符串操作我们都知道字符串操作是昂贵的操作我想知道现有版本中哪个版本最便宜最常见的操作是串联这是我们可以在一定程度上控制的在 C 中连接 std strings 的最佳方法
从 Swift 数组中检索固定数量的数据

I have var toPlotLines Int 200 300 400 500 600 322 435 我想检索前四个integers来自array 我可以做到这一点而无需循环吗Swift 我试过这个graphView graphPo
使用 JTextArea 模拟文本控制台

我的目标是在 Java 中获得一个类似控制台的组件不一定是在 JTextArea 中但这似乎是首先尝试的合乎逻辑的事情输出很简单使用 JTextArea 提供的方法但输入是另一回事我想拦截输入并对其进行操作逐个字符我发现了
Fluent NHibernate (1.2.0.712) 导出到 HBM 的映射不起作用/不遵守约定

Fluent NHibernate中的HBM导出功能似乎不起作用如果我调用 FluentMappingsContainer ExportTo 生成的映射将不正确并且出现以下异常 FluentNHibernate Cfg FluentCo
将 std::filesystem 头文件添加到我的程序时出现编译错误

我正在尝试编译一个简单的 C 程序其中包含 std filesystem 头文件 include
如何在 Spark 结构化流中手动设置 group.id 并提交 kafka 偏移量？

我正在阅读 Spark 结构化流 Kafka 集成指南here 据此链接告知 enable auto commit Kafka源不提交任何偏移量那么当我的 Spark 应用程序成功处理每条记录后如何手动提交偏移量呢 tl dr 无法向
与安全导航操作员的双向绑定

在 Angular 2 中通过安全导航操作符使用双向绑定语法糖的最佳方法是什么我已经尝试过以下方法
Asp.Net：从 URL 中删除操作名称

我正在尝试创建一个允许我使用的路由规则 http localhost Profile 2 代替 http localhost Profile Show 2 访问页面我目前有一个路由规则可以在访问页面时成功删除索引我如何将相同的概念应用
使用 React 将 BlockBlob 上传到 Azure 存储

我还没有得到一个有效的例子我的以下示例告诉我 createBlockBlob 方法未定义注意我也尝试过 createBlockBlobFromLocalFile 并传入文件名但仍然没有成功 import React from rea
RecyclerView getItemCount 中的 NullPointerException 问题

请调查此事并让我知道出了什么问题 public class MyAdapter extends RecyclerView Adapter
在 SPARQL 中获取特定人的性别...？

我对这些话题很陌生我阅读了 sparql 文件并试图获取特定人的性别比如说我想要拉里佩奇性别我能够获取 lary page 的所有属性基于以下页面 http dbpedia org resource Larry Page 但它没
Python中基于移动均值的异常值检测

我正在尝试将算法从 MATLAB 转换为 Python 该算法适用于大型数据集并且需要应用异常值检测和消除技术在MATLAB代码中我使用的异常值删除技术是移动中位数 Outlier T isoutlier Data raw Tempe

Python中基于移动均值的异常值检测

Python中基于移动均值的异常值检测 的相关文章

随机推荐

热门标签

Python中基于移动均值的异常值检测的相关文章