如何通过 2x2 平均内核对 pandas 数据帧进行下采样

2024-02-03

我正在尝试对 pandas 数据帧进行下采样以减少粒度。例如，我想减少这个数据框：

对此（使用均值进行下采样以获得 2x2 数据帧）：

2.25  3.25
2     2.25

是否有内置的方法或有效的方法来做到这一点，或者我必须自己编写？

Thanks

一种选择是使用 groupby 两次。一次用于索引：

In [11]: df.groupby(lambda x: x//2).mean()
Out[11]:
     0    1  2    3
0  1.5  3.0  3  3.5
1  2.5  1.5  2  2.5

一次用于列：

In [12]: df.groupby(lambda x: x//2).mean().groupby(lambda y: y//2, axis=1).mean()
Out[12]:
      0     1
0  2.25  3.25
1  2.00  2.25

注意：仅计算一次平均值的解决方案可能更可取...一种选择是 stack、groupby、mean 和 unstack，但是atm https://github.com/pydata/pandas/pull/4805这有点麻烦。

这似乎比维克多的解决方案 https://stackoverflow.com/a/18825879/1240268:

In [21]: df = pd.DataFrame(np.random.randn(100, 100))

In [22]: %timeit df.groupby(lambda x: x//2).mean().groupby(lambda y: y//2, axis=1).mean()
1000 loops, best of 3: 1.64 ms per loop

In [23]: %timeit viktor()
1 loops, best of 3: 822 ms per loop

事实上，对于更大的 DataFrame，Viktor 的解决方案会使我的（功率不足的）笔记本电脑崩溃：

In [31]: df = pd.DataFrame(np.random.randn(1000, 1000))

In [32]: %timeit df.groupby(lambda x: x//2).mean().groupby(lambda y: y//2, axis=1).mean()
10 loops, best of 3: 42.9 ms per loop

In [33]: %timeit viktor()
# crashes

正如 Viktor 指出的那样，这不适用于非整数索引，如果需要的话，您可以将它们存储为临时变量并在之后将它们反馈回来：

df_index, df_cols, df.index, df.columns = df.index, df.columns, np.arange(len(df.index)), np.arange(len(df.columns))
res = df.groupby(...
res.index, res.columns = df_index[::2], df_cols[::2]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Filtering

downsampling

如何通过 2x2 平均内核对 pandas 数据帧进行下采样的相关文章

如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break

随机推荐

如果更新值为空，则不更新列

我有一个这样的查询在函数中 UPDATE some table SET column 1 param 1 column 2 param 2 column 3 param 3 column 4 param 4 column 5 param
如何在 Ruby 中限制 Markdown 语法？

我希望使用 Ruby 库在 Rails CMS 评论系统中实现 Markdown 例如Maraku http maruku rubyforge org or Kramdown http kramdown rubyforge org 我需要限
多种 OpenSSL RSA 签名方法会产生不同的结果

尝试着全神贯注于签名并使用测试各种选项我可以使用以下命令进行签名 openssl dgst sha256 sign private key pem binary out sig file data file 但文档好像说我也可以使用这个
如何在wxpython中的StaticBitmap上创建悬停效果？

我想在 StaticBitmap 上创建悬停效果如果鼠标光标位于位图上则显示一张图像如果没有则显示第二张图像这是一个简单的程序与按钮完美配合但是 StaticBitmap 不会发出 EVT WINDOW ENTER EVT W
在 HTML 5 视频之上叠加 DIV

我需要在包含 HTML 5 视频的 div 顶部覆盖一个 div 在下面的示例中覆盖 div 的 id 是 video overlays 请参阅下面的示例 div div div div div div
哪个更好 - 使用 String 或 File 作为采用文件名的方法的参数类型[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
执行多个请求 Axios (Vue.js)

我正在尝试执行两个非并发请求但想在执行第二个请求之前使用第一个请求中的数据如何实现从第一个请求获取数据然后将该数据用于第二个请求 axios get user 12345 then response gt this arrayOne
比较日期？

我正在尝试比较 Android 中的两个日期但我得到了这个当我写这个的时候 SimpleDateFormat sdf new SimpleDateFormat ddMMyyyy String valid until 26052018 f
我在这个 ASPxPageControl 中做错了什么？（开发快报）

这是我所拥有的我正在尝试使用 Developer Express ASPxPageControl 我只想在加载页面时加载第一个 TabPage 及其包含的 WebUserControl 然后当我单击后续选项卡时加载这些 WebUserCo
JavaFX 单实例应用程序

尝试做到这一点当用户关闭程序时单击所有退出按钮这样就不再有托盘图标我调用 Platform setImplicitExit false 所以程序仍然在后台运行我正在尝试学习如何做到这一点以便当用户重新单击运行 jar 的 ex
读取 Windows 中当前的鼠标坐标

如何使用 C 读取 Windows 中鼠标的当前位置我想从鼠标访问原始数据并显示坐标使用 Windows API 您可以 GetCursorPos 我现在无法编译代码来测试它但它应该会产生如下结果 POINT cursor if Ge
如何取消设置后数组？

每次刷新页面时我都会得到存储在 post 数组中的相同值我希望仅在提交后并且刷新后没有回显结果后才执行回显语句
访问 HTML 中
元素的封装组件，以在 CSS 中设置样式
我正在使用以下命令从文件导入 svg element 从检查元素工具来看它的层次结构在浏览器中显示如下 document

将 xmltype 插入指定位置的 xmltype [PL/SQL]

我在将 xmltype 插入 pl sql 中指定位置的另一个 xmltype 时遇到问题第一个变量 v xml 的形式为

是否可以将图例放置在 R 中 ggplot 的右上角？

我正在尝试为 ggplot 创建一个主题然后我可以将其用于所有图表并使它们看起来既漂亮又漂亮且统一我想将图例从右侧垂直居中的当前位置移动到与右侧图表的顶部对齐如下面的红色箭头所示我想不明白我可以把它放到位置inside情节通过使

2 使用 EF Core 2.0 Code First 外键作为主键

我有两张桌子 Comment and Like public class Comment CommentID get set public class Like CommentID get set UserID get set 首先使用实体

相当于 python 3 中的 find coreutil 命令用于递归返回目录结构中的所有文件和文件夹？

在 python 3 中递归返回目录结构中的所有文件和文件夹的最佳替代方案是什么我想要类似的东西 find x y gt matches txt 我重写了一个提示另一个问题 https stackoverflow com a 274576

Maven：如何设置 testng 的线程数

我正在使用 testng 并行运行测试 Xml 文件包含线程计数参数

使用 asciidoc 时，有什么方法可以更改特定块的文本大小（字体大小）？

我需要你的帮助现在我正在使用 AsciiDoc 和 AsciiDoctor 创建一些手册我希望某些特定块上的文本较小例如宽表宽列表等但不希望主要文本较小特别是我需要根据客户的要求将宽表的文本缩小有什么办法吗你提到了列表和表格

如何通过 2x2 平均内核对 pandas 数据帧进行下采样

我正在尝试对 pandas 数据帧进行下采样以减少粒度例如我想减少这个数据框 1 2 3 4 2 4 3 3 2 2 1 3 3 1 3 2 对此使用均值进行下采样以获得 2x2 数据帧 2 25 3 25 2 2 25 是否有内置的
热门标签

apritag

轨迹拼接

规划算法

镜像下载链接

个串口的使用方法

串口通信协议概述

一文理解

无法验证签名

错误导致没有公钥

语言的方法

文件处理工具

通讯协议初探

操作基本教程

雷达解决办法

驱动包无法连接

链式存储

语言预定义跟踪调试

闭环优化

4DoF

松耦合初始化

两种点云地面去除方法

中关键知识点总结

播放文件需要

机械键盘改热插拔

高效对比两个波形

软件使用
Powered by Hwhale

如何通过 2x2 平均内核对 pandas 数据帧进行下采样

如何通过 2x2 平均内核对 pandas 数据帧进行下采样 的相关文章

随机推荐

热门标签

如何通过 2x2 平均内核对 pandas 数据帧进行下采样的相关文章