dask allocate() 或 apply() 中的变量列名

2024-05-10

我有适用于pandas，但我在将其转换为使用时遇到问题dask。有一个部分解决方案here https://stackoverflow.com/questions/32363114/how-do-i-change-rows-and-columns-in-a-dask-dataframe，但它不允许我使用变量作为我正在创建/分配的列的名称。

这是工作中的pandas code:

percent_cols = ['num_unique_words', 'num_words_over_6']

def find_fraction(row, col):
    return row[col] / row['num_words']

for c in percent_cols:
    df[c] = df.apply(find_fraction, col=c, axis=1)

这是dask代码不执行我想要的操作：

data = dd.from_pandas(df, npartitions=8)

for c in percent_cols:
    data = data.assign(c = data[c] / data.num_words)

这会将结果分配给一个名为的新列c而不是修改的值data[c]（我想要的是）。如果我可以让列名是一个变量，那么创建一个新列就可以了。例如，如果这有效：

for c in percent_cols:
    name = c + "new"
    data = data.assign(name = data[c] / data.num_words)

出于显而易见的原因，Python 不允许表达式左边=并忽略之前的值name.

如何使用变量作为我要分配给的列的名称？循环迭代的次数远远超过我愿意复制/粘贴的次数。

这可以解释为Python语言问题：

Question：如何使用变量的值作为关键字参数中的名称？

Answer：使用字典并**拆包

c = 'name'
f(c=5)       # 'c' is used as the keyword argument name, not what we want
f(**{c: 5})  # 'name' is used as the keyword argument name, this is great

Dask.dataframe解决方案

对于您的具体问题，我建议如下：

d = {col: df[col] / df['num_words'] for col in percent_cols}
df = df.assign(**d)

也考虑对 Pandas 这样做

The .assign方法在 Pandas 中也可用，并且可能比使用更快.apply.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Dask

dask allocate() 或 apply() 中的变量列名的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li

随机推荐

在订单项目视图中显示自定义产品数据

我在添加到购物车时遇到问题我有一个具有不同定制条件的产品可供选择当客户选择特定选项时它添加到购物车当客户选择另一种选择并添加时它显示为购物车中的第二件商品这没关系但付款后订单在第 1 项和第 2 项下均显示自定义选项但没有
iOS7 无法隐藏状态栏

我刚刚将我的 iPhone 5 iOS 7 升级到了四个测试版现在当我在这台 iPhone 上通过 Xcode 5 运行我的应用程序时状态栏不会隐藏尽管它应该隐藏不工作 UIApplication sharedApplicatio
Dart 包的条件导入/代码

有没有办法根据 Dart 中的环境标志或目标平台有条件地导入库代码我正在尝试在两者之间切换dart io的 ZLibDecoder ZLibEncoder 类和基于目标平台的 zlib js 有一篇文章介绍了如何创建统一的界面 http
如何生成随机凸多边形？

我正在尝试设计一种生成随机二维凸多边形的方法它必须具有以下属性坐标应该是整数多边形应位于角为 0 0 和 C C 的正方形内其中 C 已给出多边形的顶点数量应接近给定数量 N 例如生成具有 10 个顶点并位于正方形 0 100
使用 Ruby CSV 标头转换器

假设我有以下课程 class Buyer lt ActiveRecord Base attr accesible first name last name 以及 CSV 文件中的以下内容 First Name Last Name John
使用 ClosedXML 附加到 excel 文件

我需要将新数据附加到使用 ClosedXML 创建的现有 Excel 文件中如何使用 ClosedXML 附加到 Excel 文件如何获取最后一条记录的行号并将其附加到该行号上或者还有其他内容 Thanks 打开现有工作簿然后使用L
有没有办法模拟小部件或屏幕特定位置的触摸？

我想触摸或点击小部件上的某处而不让用户在此时明确触摸屏幕有什么办法可以做到吗我已经检查了SO答案有些人建议使用集成测试但在未物理或以某种方式连接到笔记本电脑的设备上无法执行集成测试无法找到更好的措辞我还尝试进行 hitTe
Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn
防止 Windows 中的崩溃消息

我的应用程序需要扫描经常导致崩溃的第三方文件为了克服这个问题它使用一个单独的进程来扫描这些文件并每当这个进程崩溃时我的应用程序就会实例化另一个应用程序我的问题是每次崩溃后我都会收到 Windows 崩溃消息 AuxScanner
Kotlin 中是否有类似于 #region #endregion 的语法？

我知道我可以使用 region endregion 包围 C 中的代码片段 Kotlin 中是否有类似的语法谢谢 region MyRegion protected void Page Load object sender EventAr
sql查询连接两个服务器中不同数据库的两个表

我在 ServerS 上的数据库中有两个表 tableA 在 ServerB 上的数据库中有两个表我只想根据这些表的公共字段名对这些表执行 fullouter join 在 SQL Server 中您可以创建一个链接服务器在 Mana
为什么在尝试使用 Java 连接到 RDS PostgreSQL 数据库时会收到 SocketTimeoutException？

我有一个 Spring 应用程序我试图在 AWS 上托管几天来我一直在努力配置我有一个 EC2 实例并且能够通过 SSH 连接到它我还在 AWS 中设置了 Postgres RDS 数据库但我无法使用 IDE 中的代码连接到它
Sentry 与 @sentry/webpack-plugin 和 heroku

我正在使用 webpack 来构建我的应用程序它可以在本地使用 sentry webpack plugin 它自动生成版本并将源映射上传到 Sentry 但是如果我尝试在 Heroku 上构建相同的应用程序则会出现以下错误 Error
向伪 shell (pty) 发出命令

我尝试使用 subprocess popen os spawn 来运行进程但似乎需要伪终端 import pty master slave pty openpty os write master ls l 应该发送 ls l 到从属终端
哪个更快？按引用传递与按值传递 C++

我认为按引用传递应该比按值传递更快因为计算机不复制数据它只是指向数据的地址但是请考虑以下 C 代码 include
指向 VLA 的指针

你可能知道 VLA 的优点和缺点 https stackoverflow com a 3082302 1606345在 C11 中它们是可选的我认为使 VLA 成为可选的主要原因是堆栈可能会爆炸 int arr n where n 10
如何表示类的实例与将其作为输入的类之间的关系？

我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
Bazel：将编译标志添加到默认 C++ 工具链

我想向默认的 C 工具链添加一些编译器和链接器标志以便我构建的所有目标本地或导入共享它们我知道可以定义我自己的工具链但我不想这样做因为它非常复杂且容易出错理想情况下我想要这样的东西 cc toolchain cc defaul
在 Swift 中使用 Obj-C 完成块

在 Objective C 中我有一个完成块类定义为 File h typedef void MYCompletionBlock BOOL success NSDictionary result NSError error 然后在 Sw
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column

热门标签