如何在Dask中进行行处理和项目分配

2023-12-05

类似的未回答问题：Dask DataFrame 的逐行处理

我正在处理数百万行长的数据帧，因此现在我尝试并行执行所有数据帧操作。我需要转换为 Dask 的此类操作之一是：

 for row in df.itertuples():                                                                                                                                                                                                         
     ratio = row.ratio                                                                                                                                                                                                                     
     tmpratio = row.tmpratio                                                                                                                                                                                                                                                                                                                                                                                                 
     tmplabel = row.tmplabel                                                                                                                                                                                                               
     if tmpratio > ratio:                                                                                                                                                                                                                  
         df.loc[row.Index,'ratio'] = tmpratio                                                                                                                                                                                        
         df.loc[row.Index,'label'] = tmplabel

在 Dask 中按索引设置值或有条件地在行中设置值的适当方法是什么？鉴于.loc不支持 Dask 中的项目分配，似乎没有set_value, at[], or iat[]在达斯克也可以。

我尝试过使用地图分区 with assign，但我没有看到任何在行级别执行条件分配的能力。

Dask dataframe 不支持高效迭代或行分配。一般来说，这些工作流程很少能很好地扩展。 Pandas 本身也很慢。

相反，您可以考虑使用系列.where方法。这是一个最小的例子：

In [1]: import pandas as pd

In [2]: df = pd.DataFrame({'x': [1, 2, 3], 'y': [3, 2, 1]})

In [3]: import dask.dataframe as dd

In [4]: ddf = dd.from_pandas(df, npartitions=2)

In [5]: ddf['z'] = ddf.x.where(ddf.x > ddf.y, ddf.y)

In [6]: ddf.compute()
Out[6]:
   x  y  z
0  1  3  3
1  2  2  2
2  3  1  3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Dask

如何在Dask中进行行处理和项目分配的相关文章

使用 Poetry 创建的 Python 项目：如何在 Visual Studio Code 中调试它？

我有一个根据基本 Poetry 创建的 Python 项目指示 https python poetry org docs basic usage 项目文件夹是这样的 my project my project my project py F
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
使用最新值进行采样

考虑以下系列 created at 2014 01 27 21 50 05 040961 80000 00 2014 03 12 18 46 45 517968 79900 00 2014 09 05 20 54 17 991260 636
Pandas 根据条件替换数据框值

我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
类型错误：无法连接“str”和“int”对象有人可以帮助新手使用他们的代码吗？

感谢任何帮助还有任何重大缺陷或您在格式或基本方面看到的任何重大缺陷请指出谢谢 day raw input How many days locations raw input Where to days str day location
numpy 向量化而不是 for 循环

我用 Python 写了一些代码运行良好但速度很慢我认为是由于 for 循环我希望可以使用 numpy 命令加速以下操作让我定义目标假设我有一个 2D numpy 数组all CMs尺寸row x col 例如考虑一个6x11数
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
我应该在哪里对对象和字段进行 django 验证？

我正在创建一个 Django 应用程序它使用 Django Rest Framework 和普通的 django views 作为用户的入口点我想对模型的独立字段以及整个对象进行验证例如字段根据正则表达式函数输入的车牌是否正确与
从 SUDS 中的 SOAP 响应中提取 Cookie

我必须使用具有多种服务的 API 所有这些都需要来自下面的身份验证的 JSESSION cookie 然而当我调用下一个服务时它不会保留 cookie 因此会拒绝它们 from suds client import Client url
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
根据标签位置计算 Pandas DataFrame 的索引

我正在尝试计算标签的索引Pandas https pandas pydata org DataFrame在每一列中基本上我有以下内容DataFrame d col1 label1 label2 label3 col2 label2 lab
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
如何通过 API Gateway 使用事件调用类型调用 Lambda 函数？

文件说默认情况下 Invoke API 采用 RequestResponse 调用类型您可以选择通过将 Event 指定为 InitationType 来请求异步执行因此我可以发送到我的函数 python 的就是到处都是 Inspi
如何在Python中不使用库函数将字符串转换为整数？

我正在尝试转换 a 546 to a 546 不使用任何库函数我能想到的最纯粹 gt gt gt a 546 gt gt gt result 0 gt gt gt for digit in a result 10 for d in 01
阻止 BeautifulSoup 将我的 XML 标签转换为小写

我正在使用 BeautifulStoneSoup 来解析 XML 文档并更改一些属性我注意到它会自动将所有 XML 标签转换为小写例如我的源文件有
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
混合语言源目录布局

我们正在运行一个使用多种不同语言的大型项目 Java Python PHP SQL 和 Perl 到目前为止人们一直在自己的私有存储库中工作但现在我们希望将整个项目合并到一个存储库中现在的问题是目录结构应该是什么样的我们应该为每种
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指

随机推荐

如何设置Spark Kmeans初始中心

我正在使用 Spark ML 来运行 Kmeans 我有一堆数据和三个现有中心例如这三个中心是 1 0 1 0 1 0 5 0 5 0 5 0 9 0 9 0 9 0 那么我如何表明 Kmeans 中心是上述三个向量我看到 Kmean
Ionic-Framework (4) - Openlayers 地图不工作/不可见

我尝试将 Openlayers 与 Ionic 一起使用但地图在 setTimeout 之前不可见这是我的工作代码 import Component OnInit from angular core import OlMap from
找不到类型或命名空间

我目前正在尝试将 Visual Studio 2008 中的 WiX 3 5 自定义操作项目转换为 WiX 3 7 和 Visual Studio 2012 但出现以下异常找不到类型或名称空间名称 MyNamespace 您是缺少 us
页面加载时，如何让六个函数互相执行？

当页面加载时在一个大div中有六个不同的元素这些元素有六个不同的函数我想让这些函数在一定时间后互相执行例如1000ms 但这六个函数不是绑定到一个元素它们绑定到六个不同的元素例如当页面加载时我想将Class line1 添
如何使在 div 内垂直居中？ [复制]

这个问题在这里已经有答案了代码 div style border solid 1px gray width 400px padding 0px span style background e2e6f0 padding right 4px
Apache Commons 文件上传 - 流意外结束

好吧我不得不说到目前为止这个问题让我难住了我们在 Tomcat 6 0 18 中运行的 Web 应用程序在文件上传期间失败但是仅当客户端机器是Windows机器时仅适用于某些机器并且适用于所有浏览器而不仅仅是IE 日志中有堆
将函数应用于列表的每个元素[重复]

这个问题在这里已经有答案了假设我有一个类似的列表 mylis this is test another test 如何将函数应用于列表中的每个元素例如我该如何申请str upper to get THIS IS TEST ANOTHE
如何在 C# 中执行 SHA1 文件校验和？

我该如何使用SHA1CryptoServiceProvider 在文件上创建文件的 SHA1 校验和 using FileStream fs new FileStream C file location FileMode Open usin
python exec() 中的全局变量和局部变量

我正在尝试使用 exec 运行一段 python 代码 my code class A object pass print locals s locals print A s A class B object a ref A global
创建确定性有限自动机 (DFA) - Mercury

我想要在 Mercury 中模拟确定性有限自动机 DFA 但我有几个地方很糟糕形式上 DFA 具有以下特征一组状态 S 一个输入字母 E 一个转换函数 S E gt S 一个startState s S setOfAcceptableF
Java [unchecked] 未检查的情况警告

好吧我环顾四周并做了很多谷歌搜索但我仍然找不到避免此警告的方法 Integer result chooser showOpenDialog null if result equals 0 String tempHolder choose
无法更改 Android 设备中的语言

我正在尝试在应用程序中更改设备的语言我有这个代码 Locale locale new Locale en US Locale setDefault locale Configuration config new Configuration
Python：访问另一个文件中函数中的变量

我有两个文件 lib py global var def test var Hello return test py from lib import test print var 但是尽管它们位于同一文件夹中当我运行 test py 时
从按钮扩展获取所有数据 (Excel)

我们有一个支持分页的数据表没问题需要包含导出到 Excel 按钮因此我们添加了按钮扩展并且可以正常导出数据问题是这样的它只导出当前页面的数据而不是整个数据集如何获取整组数据是否可以 dataTable custom
需要 WPF 线角度的算法

计算 WPF 线的角度以度为单位的正确算法是什么你需要atan2 然而这将为您提供以弧度为单位的角度转换为度数一定很容易角度的计算方式为atan2 y2 y1 x2 x1 where x1 y1 and x2 y2 是你的线
Powershell：通过 UpgradeCode 卸载应用程序

当我通过 Powershell 脚本升级降级我的应用程序时我想在运行新安装程序之前首先强制卸载当前安装的版本如何使用应用程序的 UpgradeCode 使用 Powershell 来做到这一点通过应用程序名称执行此操作会不太健壮既
单声道，shell 脚本？

csharp 版本 Mono C 编译器版本 4 0 0 0 允许写入C 脚本 like usr bin csharp Console WriteLine Hello world 我尝试添加 main 函数但出现解析错误例如 inter
从 powershell 脚本生成的程序中正常退出

假设我有以下脚本 originalPath pwd D code ps1 misc title ps1 dynamo db CURPATH PSScriptRoot path txt DB DIR cat CURPATH cd DB DIR
使用 Powershell 通过传入参数来更新 web.config 中 XML 元素的 configSource

我试图找到一种方法通过更新 web config 中 appSettings 元素的 configSource 来更新不同环境的 web config 这是我知道的方法 xml get DocumentElement appSetting
如何在Dask中进行行处理和项目分配

类似的未回答问题 Dask DataFrame 的逐行处理我正在处理数百万行长的数据帧因此现在我尝试并行执行所有数据帧操作我需要转换为 Dask 的此类操作之一是 for row in df itertuples ratio row

如何在Dask中进行行处理和项目分配

如何在Dask中进行行处理和项目分配 的相关文章

随机推荐

热门标签

如何在Dask中进行行处理和项目分配的相关文章