如何并行化行式 Pandas 数据帧的 apply() 方法

2024-02-24

我有以下代码：

import pandas as pd
import time

def enrich_str(str):
        
    val1 = f'{str}_1'
    val2 = f'{str}_2'
    val3 = f'{str}_3'
    time.sleep(3)
    
    return val1, val2, val3
    
def enrich_row(passed_row):
    col_name = str(passed_row['colName'])
    my_string = str(passed_row[col_name])
    
    val1, val2, val3 = enrich_str(my_string)
    
    passed_row['enriched1'] = val1
    passed_row['enriched2'] = val2
    passed_row['enriched3'] = val3
    
    return passed_row


df = pd.DataFrame({'numbers': [1, 2, 3, 4, 5], 'colors': ['red', 'white', 'blue', 'orange', 'red']}, 
                  columns=['numbers', 'colors'])

df['colName'] = 'colors'

tic = time.perf_counter()
enriched_df = df.apply(enrich_row, col_name='colors', axis=1)
toc = time.perf_counter()

print(f"{df.shape[0]} rows enriched in {toc - tic:0.4f} seconds")

enriched_df

需要 15 秒才能获得输出数据帧，如下所示：

现在我想在我的机器上使用多个线程并行化丰富操作。我探索了很多解决方案，比如Dask, numba，但对我来说，它们似乎都不简单。

然后我偶然发现了multiprocessing图书馆及其pool.imaps()方法。所以我尝试运行以下代码：

import multiprocessing as mp

tic = time.perf_counter()
pool = mp.Pool(5)
result = pool.imap(enrich_row, df.itertuples(), chunksize=1)
pool.close()
pool.join()
toc = time.perf_counter()

print(f"{df.shape[0]} rows enriched in {toc - tic:0.4f} seconds")
result

大约需要 2 秒result不是 Pandas 数据框。我不知道我哪里错了。

我建议您使用悲情叉 https://pypi.org/project/pathos/ of multiprocessing，因为它将更好地处理 DataFrame 的酸洗。imap返回一个迭代器，而不是 DataFrame，因此您必须将其转换回来：

def enrich_row(row_tuple):
    passed_row = row_tuple[1]
    col_name = str(passed_row['colName'])
    my_string = str(passed_row[col_name])
    
    val1, val2, val3 = enrich_str(my_string)
    
    passed_row['enriched1'] = val1
    passed_row['enriched2'] = val2
    passed_row['enriched3'] = val3
    
    return passed_row

df = pd.DataFrame({'numbers': [1, 2, 3, 4, 5], 'colors': ['red', 'white', 'blue', 'orange', 'red']}, 
                  columns=['numbers', 'colors'])

df['colName'] = 'colors'

from pathos.multiprocessing import Pool

tic = time.perf_counter()
result = Pool(8).imap(enrich_row, df.iterrows(), chunksize=1)
df = pd.DataFrame(result)
toc = time.perf_counter()

print(f"{df.shape[0]} rows enriched in {toc - tic:0.4f} seconds")
print(df)

请注意，我正在使用df.iterrows()它返回元组的迭代器(row_number, row)，所以我修改了enrich_row来处理这种格式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

multiprocessing

如何并行化行式 Pandas 数据帧的 apply() 方法的相关文章

numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有

随机推荐

使用信号量实现 N 进程屏障

我目前正在为之前迭代的操作系统考试进行培训我遇到了这个实施 N 进程屏障即是确保每个流程都完成他们中的一群人在某个时刻等待着点在其各自的执行中对于其他进程达到他们的给定点您有以下内容可用操作 init sem val
删除核心数据中的重复对象（swift）

我将对象保存到 JSON 中的核心数据这是我使用for循环假设我称之为setup功能由于用户可能会停止此循环因此核心数据中保存的对象将是部分的用户可以重新启动此setup函数重新启动解析和将对象保存到核心数据的过程现在如果我
使用 Linux sort 命令对多个键进行排序

说我有这个文件 cat a txt c 1002 4 f 1001 1 d 1003 1 a 1001 3 e 1004 2 b 1001 2 我想按第二列排序然后按第三列排序第二列是数字而第三列可以视为字符串我知道以下命令效果很好
单击任意位置以在 CKEditor 中聚焦

在 FireFox 中我可以单击 CKEditor 350px x 250px 中的任意位置将焦点放在编辑器顶部的单个文本段落上然而在 IE6 中我知道但我们的客户坚持我必须直接单击段落顶部以将光标聚焦并随后编辑文本 CKEd
STD 集合中引用的生命周期

对 STD 集合例如映射返回的元素的引用有效多久例如在这段代码中 struct Employee int salary string name the key map
JavaTypeDescriptorRegistry - 找不到所请求的 Java 类的匹配类型描述符

我有一个项目运行没有任何问题除了这个警告消息 WARN org hibernate type descriptor java JavaTypeDescriptorRegistry Could not find matching type
从第三方将CSS注入到iframe中

我们可以将一堆 CSS 文件从第三方例如托管广告的 OAS 注入到 iframe 中吗如果可能的话我们将不胜感激通过使用 jQuery 选择器您应该能够做到这一点但是对 iframe 内容不应有任何限制即它应该来自同一域对
使用 StreamReader 检查文件是否包含字符串

我有一个字符串是args 0 到目前为止这是我的代码 static void Main string args string latestversion args 0 create reader open file using Strea
如何从无限字节流中读取 UTF-8 字符 - C#

通常要从字节流中读取字符您可以使用 StreamReader 在此示例中我从无限流中读取由 r 分隔的记录 using var reader new StreamReader stream Encoding UTF8 var mess
如何修复 android Adobe SDK 工具中的此错误？

我已将 Adob e Editor 集成到我的 Android 应用程序中它工作正常更新我的 Android Studio 后它崩溃了我在gradle中添加了 android compileSdkVersion 26 buildTo
如何释放 boost::mpi::request？

我正在尝试让 MPI 断开通信器这是一件很棘手的事情我在下面整理了一个演示我有相同想法的两个版本侦听 int 一个使用 MPI IRecv 另一个使用 boost mpi request 您会注意到在此程序上使用 mpiexec
单击单元格时的操作

H 我是 VBA 新手这可能是一个太简单的问题但我正在努力使用 VBA 当单元格 1 1 被点击时因为它有1 消息框会显示 hi Sub test click action when cell 1 1 is clicked and i
如何动态更改黑莓标签字段的字体颜色？

我有一个标签字段和三个按钮名称分别为红色黄色蓝色如果我单击红色按钮则标签字段字体颜色应更改为红色同样如果我单击黄色按钮则字体颜色应更改为黄色同样根据按钮颜色标签字段中的字体颜色应发生变化谁能告诉我该怎么做 Label
Laravel Session 检测到一个域、多个数据库

我读过几篇文章主题例如this https stackoverflow com questions 31847054 how to use multiple databases in laravel this https medium
Git 存储库太大

我有一个项目其中包含大约 12MB 的代码和资产我一直在使用 Git 跟踪它并且刚刚注意到我的 git文件夹现在刚刚超过 1 83GB 它由几个小文件组成然后是一个包文件约占该文件夹的 1 82GB 我已经跑了git gc agg
检测android中home按钮的点击事件（应用程序启动器图标）

如何识别android中应用程序启动器图标中的点击事件一旦用户单击此图标我需要转到主屏幕例如假设这是清单文件
WPF 中的图像可见性问题 - 按下按钮时不显示

我正在用 C 开发一个 WPF 应用程序其中有一个按钮可以切换图像的可见性我已按照说明进行操作并实现了以下代码来处理按钮单击 XAML
保存到服务器后图像质量下降。

我正在捕获图像并将其保存到服务器路径中它工作正常捕获的图像看起来质量不错但将图像保存到服务器后其质量下降这是我的代码这是我的活动 import java io BufferedReader import java io Byt
无法在 android studio 的模拟器中启动 AVD。参数无效

我在 Android Studio 2 1 2 中遇到模拟器问题当我尝试启动 AVD 时我收到一条消息无法在模拟器中启动 AVD Output 哈克斯已启用该虚拟机所需的内存超出了驱动程序限制 Hax ram size 0x6000
如何并行化行式 Pandas 数据帧的 apply() 方法

我有以下代码 import pandas as pd import time def enrich str str val1 f str 1 val2 f str 2 val3 f str 3 time sleep 3 return val

如何并行化行式 Pandas 数据帧的 apply() 方法

如何并行化行式 Pandas 数据帧的 apply() 方法 的相关文章

随机推荐

热门标签

如何并行化行式 Pandas 数据帧的 apply() 方法的相关文章