如何有效地迭代 Pandas 数据帧的连续块

2023-12-10

我有一个大数据框（几百万行）。

我希望能够对其进行 groupby 操作，但只是按行的任意连续（最好是大小相等）子集进行分组，而不是使用各个行的任何特定属性来决定它们进入哪个组。

用例：我想通过 IPython 中的并行映射将函数应用于每一行。哪些行进入哪个后端引擎并不重要，因为该函数一次基于一行计算结果。（至少在概念上是这样；实际上它是矢量化的。）

我想出了这样的东西：

# Generate a number from 0-9 for each row, indicating which tenth of the DF it belongs to
max_idx = dataframe.index.max()
tenths = ((10 * dataframe.index) / (1 + max_idx)).astype(np.uint32)

# Use this value to perform a groupby, yielding 10 consecutive chunks
groups = [g[1] for g in dataframe.groupby(tenths)]

# Process chunks in parallel
results = dview.map_sync(my_function, groups)

但这看起来很冗长，并且不能保证大小相同的块。特别是当索引稀疏或非整数或其他情况时。

有更好的方法建议吗？

Thanks!

使用 numpy 的数组分割():

import numpy as np
import pandas as pd

data = pd.DataFrame(np.random.rand(10, 3))
for chunk in np.array_split(data, 5):
  assert len(chunk) == len(data) / 5, "This assert may fail for the last chunk if data lenght isn't divisible by 5"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

parallelprocessing

ipython

如何有效地迭代 Pandas 数据帧的连续块的相关文章

在 Python 中使用 sec 函数的反函数

我正在创建一个程序用于计算从一定高度范围和设定初始速度发射射弹的最佳角度在我需要使用的最终方程中存在一个反 sec 函数它导致了一些麻烦我已经导入了数学并尝试使用 asec 无论如何但是数学似乎无法计算反秒函数我也明白 sec
Sorted(key=lambda: ...) 背后的语法[重复]

这个问题在这里已经有答案了我不太明白背后的语法sorted 争论 key lambda variable variable 0 Isn t lambda随意的为什么是variable在看起来像的内容中陈述了两次dict 我认为这里的所有
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
Python3 查找 2 个列表中有多少个差异才能相等

假设我们有 2 个列表 always具有相同的长度和always包含字符串 list1 sot sot ts gg gg gg list2 gg gg gg gg gg sot 我们需要找到其中有多少项list2应该改变以便它等于lis
python ttk treeview：如何选择并设置焦点在一行上？

我有一个 ttk Treeview 小部件其中包含一些数据行如何设置焦点并选择突出显示指定项目 tree focus set 什么也没做 tree selection set 0 抱怨尽管小部件明显填充了超过零个项目但未找到项目
python中函数变量的作用域

假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
VSCode pytest 测试发现失败

Pytest 测试发现失败用户界面指出 Test discovery error please check the configuration settings for the tests 输出窗口显示 Test Discovery fa
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
字典的嵌套列表

我正在尝试创建dict通过嵌套list groups Group1 A B Group2 C D L y x 0 for y in x if y x 0 for x in groups d k v for d in L for k v in
在 omp 并行 for 循环中使用 unique_ptr 会导致 SEG.FAULT

采取以下代码 include
字典中列表中仅有的几个索引的总和

如果我有这种类型的字典 a dictionary dog white 3 5 black 6 7 Brown 23 1 cat gray 5 6 brown 4 9 bird blue 3 5 green 1 2 yellow 4 9 mo
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
在pycharm中调试python代码

这个问题类似于this https stackoverflow com questions 10240018 how to use pycharm to debug python script一我正在尝试调试pyethapp https
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
使用 Keras 和 fit_generator 绘制 TensorBoard 分布和直方图

我正在使用 Keras 使用 fit generator 函数训练 CNN 这似乎是一个已知问题 https github com fchollet keras issues 3358TensorBoard 在此设置中不显示直方图和分布有
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb
在并行包中的 R 的 par*apply 函数内部使用 Rcpp 函数

我试图了解背后发生的事情Rcpp sourceCpp 调用并行环境最近问题中部分解决了这个问题在 Windows 上使用 parLapply 中的 Rcpp 函数 https stackoverflow com questions 2

随机推荐

我可以使用 __init__.py 定义全局变量吗？

我想定义一个在包的所有子模块中都可用的常量我以为最好的地方是在 init py根包的文件但我不知道该怎么做假设我有几个子包每个子包都有几个模块如何从这些模块访问该变量当然如果这是完全错误的并且有更好的选择我想知道你应该能
将项目分配给具有功能的组

我有一个问题我要将变量分配给集合每个集合都有可以分配给它的变量的限制并且每个变量都可以分配给总集合的某个子集 Example a可以成套A or B b可以成套B c可以成套A or B d可以成套A 因此我们可以有A a d B
HashMap 和 TreeMap 有什么区别？ [复制]

这个问题在这里已经有答案了我开始学习Java 什么时候应该使用 HashMap 而不是 TreeMap TreeMap是一个例子SortedMap 这意味着键的顺序可以排序并且在迭代键时您可以期望它们是按顺序排列的 HashMap另一
如何在本机反应中锁定 ios 中特定屏幕的方向？

我想锁定相机屏幕的方向
SQL语句将记录插入到具有标识列的表中？

我正在尝试将一行手动插入到我的 SQL Server 数据表中该表有 5 列 1 个标识列和 4 个数据列我在看这个帖子但是当我运行所选答案的查询时当然是用我的表名替换 GroupTable 之后我的 SQL Server 200
不正确的引用元素签名 XML C#

我需要实现 EBICS 协议特别是 HPB 请求并且我需要签署我的 XML 文件
对齐内容和对齐项目有什么区别？

有什么区别align items and align content The align itemsFlex box 的属性沿着横轴对齐 Flex 容器内的项目就像justify content沿着主轴线对于默认的flex direct
JavaFX：如何在 GraphicsContext 上绘制路径？

JavaFX 提供了两种低级路径绘制方法GraphicsContext和一个高水平的Path node 我想在类中存储形状并在其中绘制它们GraphicsContext The Path上课对我来说似乎很方便我知道它旨在用作场景图中的节
用于检查某个字符连续出现 3 次或以上的正则表达式

我想检查输入字符串以验证正确的文本 A 我希望用户允许编写字母数字字符包括句点逗号连字符和圆括号 b 但是我不希望用户同时输入 3 位或更多位数字例如允许 12 但不允许 185 C 我不希望用户输入或或 aaaaaaaaa
JavaScript window.find 绝对不起作用

当我尝试传递分布在几个块元素中的文本时 window find 方法不起作用 HTML p search me p b I could be the answer b JavaScript window find meI could be
多行 JLabels - Java [重复]

这个问题在这里已经有答案了 I want JLabel文本采用多行格式否则文本会太长我们如何在 Java 中做到这一点如果您不介意将标签文本包装在html标签当容器的宽度太窄而无法容纳全部标签时 JLabel 会自动换行例如尝试
Javascript 淡入淡出图像

我对 JavaScript 相当陌生我需要一个非常简单的脚本来循环缓慢地淡入和淡出图像任何帮助将非常感激最简单的方法是使用 jQuery img src 文档 http api jquery com fadeIn 您还可以通过传递参数
显示倒计时时间表单 jquery 会话超时

我找到了https github com travishorn jquery sessionTimeout我想在我的项目中使用这个 jquery 会话超时尽管它在后台看起来工作正常我想在文本中显示倒计时时间如何显示计时器或者除了这个之
Postfix 和 OpenJDK 11：“没有合适的协议（协议被禁用或密码套件不合适）”

我知道这个主题还有一些其他问题及其答案但这些对我都没有帮助我有一个Postfix服务器后缀 3 4 14Debian 10 Buster 具有以下配置仅有趣的部分 smtpd tls mandatory protocols SSL
如何“解锁”RwLock？

我正在尝试解决螺纹环问题在每个线程中我读取令牌值如果不是我的检查是否是程序结束如果是则完成线程否则请再次阅读并重复如果是我的即有我的 id 则获取写锁增加令牌的值检查是否结束然后告诉主线程我完成了它并完成当前线程循环
matlab中以向量为索引的完整矩阵

假设我们有一个矩阵 A1 和两个向量 v1 和 v2 如下所示 A1 zeros 5 5 v1 1 2 3 v2 5 5 4 有没有办法用v1和v2作为索引来逐一替换A1中的元素即在 A1 1 5 A1 2 5 和 A1 3 4 中插入一
如何自定义PostgreSQL官方Docker镜像的配置文件？

我正在使用官方 Postgres Docker 镜像尝试自定义其配置为此我使用命令sed改变max connections例如 sed i e s max connections 100 max connections 1000 va
使用 ARC iPhone 在 XCode 4.2 中消失 UILocation 警报

当应用程序在使用 ARC 的项目中启动时警报会瞬间出现或不显示不使用 ARC 也没关系我添加 CoreLocation 框架并将其导入到项目中 My code import
在 Windows 中使用 fopen 和 C 打开长文件名

我在使用 fopen 打开路径长度超过 Windows 本机支持的 260 个字符的文件时遇到问题我发现了前缀我需要将其放在路径前面才能处理该文件我的问题是这与 fopen 结合仍然有效吗我仍然无法打开文件但我没有找到有关它的信
如何有效地迭代 Pandas 数据帧的连续块

我有一个大数据框几百万行我希望能够对其进行 groupby 操作但只是按行的任意连续最好是大小相等子集进行分组而不是使用各个行的任何特定属性来决定它们进入哪个组用例我想通过 IPython 中的并行映射将函数应用于每一行哪

如何有效地迭代 Pandas 数据帧的连续块

如何有效地迭代 Pandas 数据帧的连续块 的相关文章

随机推荐

热门标签

如何有效地迭代 Pandas 数据帧的连续块的相关文章