删除异常值 (+/- 3 std) 并替换为 Python/pandas 中的 np.nan

2023-11-30

我看到了几种接近解决我的问题的解决方案

link1 link2

但到目前为止，他们还没有帮助我取得成功。

我相信以下解决方案是我所需要的，但仍然出现错误（并且我没有声誉点对其进行评论/提问）：link

（我收到以下错误，但我不明白在哪里.copy()或添加一个“inplace=True“当执行以下命令时df2=df.groupby('install_site').transform(replace):

设置复制警告：尝试在 DataFrame 的切片副本上设置一个值。尝试使用.loc[row_indexer,col_indexer] = value instead

请参阅文档中的警告：link

所以，我试图提出自己的版本，但我一直陷入困境。开始。

我有一个按时间索引的数据框，其中包含站点列（许多不同站点的字符串值）和浮点值。

time_index            site       val

我想浏览“val”列，按站点分组，并用 NaN（对于每个组）替换任何异常值（与平均值相差+/- 3 个标准差的值）。

当我使用以下函数时，我无法使用 True/Falses 向量索引数据框：

def replace_outliers_with_nan(df, stdvs):
    dfnew=pd.DataFrame()
    for i, col in enumerate(df.sites.unique()):
        dftmp = pd.DataFrame(df[df.sites==col])
        idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
        dftmp[idx==False]=np.nan  #this is where the problem lies, I believe
        dfnew[col] = dftmp
    return dfnew

此外，我担心上述函数在 700 万行以上的行上会花费很长时间，这就是为什么我希望使用 groupby 函数选项。

如果我理解正确，则无需遍历列。该解决方案将偏差超过三组标准差的所有值替换为 NaN。

def replace(group, stds):
    group[np.abs(group - group.mean()) > stds * group.std()] = np.nan
    return group

# df is your DataFrame
df.loc[:, df.columns != group_column] = df.groupby(group_column).transform(lambda g: replace(g, 3))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

GROUPING

outliers

删除异常值 (+/- 3 std) 并替换为 Python/pandas 中的 np.nan 的相关文章

为什么 Python 在导入脚本时只保存脚本的字节码？

既然执行Python字节码会比运行原始源代码更快因为Python不需要重新编译为什么Python在导入脚本时只保存编译后的字节码呢为每个执行的脚本保存 pyc 文件不是更好吗无论如何 Python 解释器的启动时间都需要时间即使您
在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的

随机推荐

使用 Ruby 驱动程序的 MongoDB Group

我正在尝试带回一个包含用于描述博客文章的计数的年月组合列表我们的想法是它们将像这样显示 2010 年 1 月 1 篇文章 2009 年 12 月 2 个职位我已经设法使用 MongoDB JS shell 让它工作并且它以有用的格
PHP-PDO从数据库获取元数据

我想从带有朋友表的数据库中获取元数据 id name 1 Herbert 2 LG 3 Levins 这是我试图获取数据的代码
如何正确手动重新创建 sklearn (python) 逻辑回归 Predict_proba 结果以进行多重分类

如果我运行 4 个类的基本逻辑回归我可以获得 Predict proba 数组如何使用系数和截距手动计算概率获得与 Predict proba 生成的相同答案的确切步骤是什么网上似乎有很多关于此的问题和一些建议这些建议要么不完整
Android 中不显示选项菜单

我有这个代码来创建菜单 Override public boolean onCreateOptionsMenu Menu menu super onCreateOptionsMenu menu MenuInflater inflater g
风格化文本以针对不同语言使用不同字体？

有没有一种方法可以对 HTML 页面上的文本进行样式化以便它针对不同的语言自动使用不同的字体我的网站使用英语和阿拉伯语我想根据显示的语言使用不同的字体假设我有这样的一段上一句是阿拉伯语但这一句是英语我希望阿拉伯语句子用 X 字
当 SimpleXML 解析带有特殊字符的 XML 时会发生什么？

我正在尝试用我的最终输出来解决这个问题 XML 提要看起来像这样
UIView动画

我正在尝试制作动画UIView这里它看起来像一个矩形我只想将其转换为我的坐标那么我怎样才能让它动起来呢我试图找到一些教程但没有成功在iOS 4中 UIView块动画方法是最简单的 UIView animateWithDurat
什么是 JSTL 强制 Jars

我是新人刚刚开始学习Java 来自jstltag 我对jstl了解很多我使用IDE eclipse mars 通过添加一个简单的jsp页面来创建一个动态Web项目然后将war导出到tomcat 7的webapps文件夹中我对jstl
Leaflet - 如何查找现有标记并删除标记？

我已经开始使用传单作为开源地图 http leaflet cloudmade com 以下 jQuery 代码将允许在单击地图时在地图上创建标记 map on click onMapClick function onMapClick e v
向表单验证添加错误不起作用？

根据有关表单验证的语义 UI 文档我可以手动添加错误添加错误错误给定数组错误将错误添加到表单中我想使用此功能因为我通过 AJAX 提交表单进行服务器端验证然后想要显示结果我尝试了以下代码 my form form add
spring默认作用域是否是单例？

你能解释一下为什么Spring要为如下所示的bean配置创建两个对象吗因为默认情况下spring的默认作用域是单例的 Spring的配置在这里
寻找具有 3 个 CGPoint 的角度

在我的应用程序中用户点击 3 次点击的 3 个点将创建一个角度它完美地绘制了角度我试图计算第二次点击时的角度但我认为我做错了可能是数学错误我还没有在微积分课上讨论这个问题所以我将使用维基百科上的公式 http en wiki
无法从派生类型的范围访问另一个实例的受保护成员

In 这个答案对于这个问题为什么我的对象无法访问公共基类中定义的另一个对象的受保护成员可以读作您只能从您自己的基类实例访问受保护的成员要么我没有正确理解要么关注 MCVE 在 coliru 上直播证明它是错误的 struct B
Android 上是否有类似于 Windows Phone 7 上的全景或枢轴 UI 控件？

有谁知道是否有一个适用于 Android 的 UI 小部件类似于 Windows Phone 7 全景或枢轴控件如果没有是否有任何教程可以指导我走上实现自己的正确道路任何帮助表示赞赏谢谢是的我也对枢轴控件感兴趣这是我找到的类
避免 GRPC 服务器中的端口冲突

我目前正在考虑 GRPC 来满足我的实时需求我注意到在示例中我们明确要求绑定到服务器中的硬编码端口我希望将服务器部署在像 Heroku 这样的 Stack 上想象一下我将端口设置为 9090 并且该端口当前正被另一个服务使用这不会
R：每月汇总行数

我制作了一个数据框其中有一列包含日期和一列包含数值我希望这个数据框按月进行分组并汇总每个相应月份其他列中的所有数值这是我的数据框示例 capture date Test1 Test2 Test3 2016 03 18 0 1 1 2
如何在 Vue 2 中包含 css 文件

我是 vue js 新手正在尝试学习这个我在我的系统中安装了全新版本的 vue webpack 我有一个 css js 和这个主题模板的图像我想将其包含到 HTML 中所以我尝试将其添加到index html但我可以在控制台中看到错
在没有 IDE 的情况下如何使用 CMSIS？

我正在使用 STM32F103C8T6 并想使用 CMSIS 这本质上只是寄存器定义没有代码让我的生活更轻松同时仍保持在较低水平问题是我不知道如何安装该库以便在命令行上使用 Makefile 使用所有文档似乎都与特定于供应商的 I
从任何进程获取密钥

我在网上看到了很多解决方案但没有一个完全符合我的要求当我的应用程序在后台运行时在给定进程不是我的控制台应用程序中按下任何键的最佳最简单方法是什么我不需要修改器或任何东西如果您不太关心按下哪个进程最简单的方法是调用获取异步键
删除异常值 (+/- 3 std) 并替换为 Python/pandas 中的 np.nan

我看到了几种接近解决我的问题的解决方案 link1 link2 但到目前为止他们还没有帮助我取得成功我相信以下解决方案是我所需要的但仍然出现错误并且我没有声誉点对其进行评论提问 link 我收到以下错误但我不明白在哪里 copy

删除异常值 (+/- 3 std) 并替换为 Python/pandas 中的 np.nan

删除异常值 (+/- 3 std) 并替换为 Python/pandas 中的 np.nan 的相关文章

随机推荐

热门标签