大熊猫数据框并行处理

2024-03-09

我正在访问一个非常大的 Pandas 数据框作为全局变量。该变量通过并行访问joblib https://pythonhosted.org/joblib/parallel.html.

Eg.

df = db.query("select id, a_lot_of_data from table")

def process(id):
    temp_df = df.loc[id]
    temp_df.apply(another_function)

Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())

以这种方式访问原始 df 似乎是跨进程复制数据。这是意外的，因为原始 df 在任何子进程中都没有被更改？（或者是吗？）

对于 joblib 创建的每个进程，整个 DataFrame 都需要进行 pickle 和 unpickle。在实践中，这是非常慢的，并且还需要每个的许多倍的内存。

一种解决方案是将数据存储在 HDF 中（df.to_hdf）使用表格格式。然后你可以使用select选择数据子集进行进一步处理。实际上，这对于交互式使用来说太慢了。它也非常复杂，您的工作人员需要存储他们的工作，以便在最后一步中进行整合。

另一种选择是探索numba.vectorize with target='parallel'。这需要使用 NumPy 数组而不是 Pandas 对象，因此它也有一些复杂性成本。

从长远来看，dask https://github.com/blaze/dask希望为 Pandas 带来并行执行，但这并不是很快就能实现的事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

joblib

大熊猫数据框并行处理的相关文章

Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
PyDev 无法再调试

我正在使用 eclipse 4 2 1 和 pydev 2 7 1 以前是 2 6 0 一切都工作正常直到调试器突然停止工作它打印 pydev debugger 开始然后根本不运行程序而是挂起根据我在其他问题报告中找到的一些信息
由于 __init__ 构造函数而产生的 Pytest 集合警告

我一直在使用 Pytest 和 Selenium Web 驱动程序自学测试自动化我所有的测试函数都在一个名为测试网络 py 它位于名为的目录中tests 我将所有函数分开并将它们放在一个名为的单独目录中的自己的文件中测试用例例如这就
在 Tensorflow 2.0 中的 tf.function input_signature 中使用字典

我正在使用 Tensorflow 2 0 并面临以下情况 tf function def my fn items do stuff return 如果 items 是张量的字典例如 item1 tf zeros 1 1 item2 tf
Python 3.8 的点子

如何安装适用于 Python 3 8 的 Pip 我将 3 8 设置为我的默认 Python 版本 sudo apt install python3 8 pip gives 无法找到包 python3 8 pip 和跑步 python3 8
使用 pandas 的 TimeGrouper() 按 1 秒的间隔查找列计数

考虑由时间戳索引的数据帧数据如下所示 Index Receiver Type Retry 1970 01 01 00 00 00 000000000 R1 Data 1 1970 01 01 00 00 00 800000000 R1
/ __init__() 处的 TypeError 恰好采用 1 个参数（给定 2 个）

我有点困惑为什么会出现这个错误我不知道这个额外的参数是从哪里来的 Environment Request Method GET Request URL http 0 0 0 0 5000 Django Version 1 6 4 Pyth
当数据帧预排序时 pandas.groupby.nsmallest 会丢弃多索引

我正在使用 pandas 0 22 0 python 版本 3 6 4 groupby与 nsmallest方法查找数据帧每组中的最小项目这是一个示例数据框 gt gt gt import pandas as pd gt gt gt df
什么时候会在 dict 上使用键值对作为 dict.update 方法？

我注意到你可以做两件事来更新字典并且它们似乎有相同的结果 a a update foo 1 a a update foo 1 两者都会产生如下所示的字典结果 foo 1 是否有任何理由更喜欢使用字典或键值对作为更新方法它们在功能上是否
Python：球体的交集

我对编程非常陌生但我决定承担一个有趣的项目因为我最近学会了如何以参数形式表示球体当三个球体相交时有两个不同的交点除非它们仅在一个奇点处重叠球体的参数表示我的代码是根据答案修改的Python matplotlib 绘制 3d 立
matplotlib pyplot：子图大小

如果我绘制如下所示的单个图它将具有 x y 大小 import matplotlib pyplot as plt plt plot 1 2 1 2 但是如果我在同一行中绘制 3 个子图则每个子图的大小均为 x 3 y fig ax p
比较两个类似列表的对象的内容的最佳方法是什么？

例如当我必须比较两个类似数组的对象的内容时lists tuples or collection deques 不考虑对象的类型我使用 list an arrayish list another arrayish 有没有更惯用更快更好
subprocess.Popen args 参数的最大长度是多少？

我在用Popen http docs python org library subprocess html using the subprocess modulesubprocess 模块中的函数来执行命令行工具 subprocess Po
将 python 代码写入 python 文件的最佳方法是什么？

我想编写一个脚本 generate script py 生成另一个python脚本 file generated py 到目前为止我已经创建了generate script py import os filepath os getcwd d
如何在 Python 中从平面列表构建嵌套列表？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我有一个简单的列表例如 flat 1 1 1 1 1 1 1 2 2 2 1 2 2 3 我需要转换为嵌套列表其中每个级别破折号后跟数
当日志在不同进程中发出时，caplog 中的消息为空

我正在使用 log cli true 运行测试剧本 import logging import sys from multiprocessing import Process logging basicConfig stream sys
从Python中的URL中提取域[重复]

这个问题在这里已经有答案了我有一个像这样的网址 http abc hostname com somethings anything 我想得到 hostname com 我可以使用什么模块来完成此任务我想在python2中使用相同的模块和
从另一个文件执行按钮命令？

我已经开始开发一个 GUI 系统在该系统中我需要从一个文件导入一个函数以便在按下按钮时在主文件中执行但每次运行它时我都会得到 AttributeError partially initialized module Two has
Python从更高级别的包导入模块

这是我的包层次结构 app init py Empty file server py global vars py handlers init py Empty file url1 init py Empty file app1 py ap
如何使用 Python 从 Azure Functions 中的辅助线程重定向日志

我正在使用 Azure 函数运行启动多个线程的 Python 脚本出于性能原因一切都按预期工作但 Azure Functions 日志中仅显示来自 main 线程的信息日志我在 main 中启动的辅助线程中使用的所有日志都不会出

随机推荐

使用 PHP 将时间添加 30 秒

我怎样才能给这个时间加上30秒呢 time date m d Y h i s a time 我不知道该怎么做因为它显示了很多不同的时间单位而我只想添加 30 秒 time date m d Y h i s a time 30
输入大数以避免 NumberFormatException

我必须控制从1到9999999999的输入代表学校的注册号原始类型 long 只能容纳大约 2 000 000 000 我如何存储这个大小的数字根据this http docs oracle com javase tutorial j
www.sandbox.itunes.apple.com 已关闭

在此先感谢您的帮助具体问题由于在沙盒环境中测试应用内购买时出现错误 1001 无法连接到 iTunes 商店知道是否重要吗 www sandbox itunes apple com下降了吗如果没有我怎么知道苹果的沙盒是否已关闭背
如何创建一个所有字段都是公共的公共结构，而无需为每个字段重复“pub”？

如何在 Rust 中定义一个公共结构其中所有字段都是公共的而不必重复pub每个字段前面的修饰符 A pub struct宏将是理想的 pub struct Foo a i32 b f64 这相当于 pub struct Foo pub
如何创建动画切换按钮？

是的我可以创建带有 2 张图片的 ToggleButton 开关但我想创建带有 3 5 张图片的 ToggleButton 例如什么时候关闭我单击关闭图片中图图片上它什么时候开启我点击图片上中图关闭图片所以它就像
带有 postgres 的游标，数据存储在哪里以及对数据库的调用次数

您好我正在使用 psycopg2 进行 postgres 访问我试图了解光标存储返回的行的位置是将其作为临时表存储在数据库中还是存储在客户端游标当您指定获取多行时是否一次命中数据库一个查询或者它是否命中数据库一次获取第一
android - 无需root即可将字体安装到android平台

我开发了一个新的应用程序它是一种古老的埃及语言科普特语我需要在 Android 平台上安装特定的字体使这种语言可读我搜索是否找到应用程序执行相同的功能iFont 另外当我访问字体文件夹时我发现它允许安装字体在线获取字体那么
Javascript 数组分页

我正在尝试编写一个 Javascript 函数该函数需要array page size and page number作为参数并返回一个模仿分页结果的数组 paginate function array page size page nu
我可以用64位jre运行使用32位jdk开发的java程序吗？应用程序使用32位非java系统库

我正在 64 位 Windows 7 安装上使用 64 位 eclipse 开发一个 java 应用程序我被迫使用 32 位 JDK 1 7 0 因为应用程序使用Jpcap http netresearch ics uci edu kfu
iPhone X如何处理View Controller inputAccessoryView？

我有一个消息应用程序它具有典型的 UI 设计即全屏表格视图底部的文本字段我将该文本字段设置为视图控制器的inputAccessoryView并打电话ViewController becomeFirstResponder 以使该字段显示
Javascript 文字处理器/编辑器（或 Google Docs 架构）[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我认为像 Google 文档那样推出
如何简单计算从一点到另一点的旅行时间？（无剧情）

我花了很多时间阅读和测试OSMnx 的示例笔记本 https github com gboeing osmnx examples但我无法找到一种方法来简单地计算从给定点 GPS 坐标到另一个点的旅行时间我想估计对于列表中的每个点到达
必须转义哪些字符才能防止 (My)SQL 注入？

我正在使用 MySQL API 的功能 mysql real escape string 根据文档它转义了以下字符 0 n r Z 现在我查看了 OWASP org 的 ESAPI 安全库在 Python 端口中它有以下代码 http
WeakHashMap 在完整 GC 期间是否被清除？

我在使用 Wea kHashMap 时遇到了一些麻烦考虑这个示例代码 List
“using”应该在命名空间内部还是外部？ [复制]

这个问题在这里已经有答案了可能的重复使用应该在命名空间内部还是外部 https stackoverflow com questions 125319 should usings be inside or outside the name
如何修复 NoSuchMethodError？

我得到了一个NoSuchMethodError运行我的 Java 程序时出错出了什么问题以及如何修复它如果没有更多信息很难查明问题但根本原因是您很可能针对缺少方法的类的不同版本编译了一个类而不是运行该类时使用的版本查看堆栈跟踪
使用 python 在远程 Windows 计算机上运行命令

这次我询问有关在远程 Windows 计算机上运行命令的问题让我在这里更详细地描述一下我有一台安装了 python 的机器我想运行一些 powershell 和 cmd 命令或者我想将 cmd 文件发送到远程 Windows 机器
在线程中获取正确的 WPF 调度程序 [重复]

这个问题在这里已经有答案了在对象的构造函数中我需要创建一个 WPF mediaElement 对象 m videoMedia new MediaElement 但该类也可以从其他线程实例化所以我需要使用 Dispatcher Invo
Asp.net MVC FileContentResult - 阻止在浏览器中打开

我的控制器操作之一将文件返回给用户我希望向用户显示下载打开保存对话框无论文件类型如何当文件类型为 doc docx xlsx 等时此方法工作正常但当文件为 txt xps pdf 有时或 html 时它会在浏览器中打开
大熊猫数据框并行处理

我正在访问一个非常大的 Pandas 数据框作为全局变量该变量通过并行访问joblib https pythonhosted org joblib parallel html Eg df db query select id a lot

大熊猫数据框并行处理

大熊猫数据框并行处理 的相关文章

随机推荐

热门标签

大熊猫数据框并行处理的相关文章