PySpark 中的高效列处理

2023-11-29

我有一个包含大量列（> 30000）的数据框。

我用它填充1 and 0基于第一列，如下所示：

for column in list_of_column_names:
  df = df.withColumn(column, when(array_contains(df['list_column'], column), 1).otherwise(0))

然而这个过程需要很多时间。有没有办法更有效地做到这一点？有些事情告诉我列处理可以并行化。

Edit:

输入数据示例

+----------------+-----+-----+-----+
|  list_column   | Foo | Bar | Baz |
+----------------+-----+-----+-----+
| ['Foo', 'Bak'] |     |     |     |
| ['Bar', Baz']  |     |     |     |
| ['Foo']        |     |     |     |
+----------------+-----+-----+-----+

除了非常宽的数据之外，您的代码没有任何具体错误：

for column in list_of_column_names:
    df = df.withColumn(...)

只生成执行计划。

一旦评估结果，实际的数据处理将并发和并行化。

然而，这是一个昂贵的过程，因为它需要O(NMK)N 行的运算，M列和K列表中的值。

此外，对非常广泛的数据执行计划的计算成本非常昂贵（尽管成本在记录数量方面是恒定的）。如果它成为限制因素，你可能会更好RDDs:

使用对列数组进行排序sort_array功能。
将数据转换为RDD.
使用二分搜索对每一列应用搜索。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

PySpark 中的高效列处理的相关文章

如何计算 numpy 数组中元素的特定范围

我有一个像这样的数组 import numpy as np data np array 0 0 0 1 1 1 0 0 0 0 1 1 1 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
字符串在内部存储为单独的字符，内存中的每个字符都由其他类似的字符串共享吗？

例如是字符串var1 ROB 存储为 3 个内存位置 R O 和 B 每个位置都有自己的地址和变量var1指向内存位置R 那它怎么指向O和B呢并执行其他字符串例如 var2 BOB 指向内存中相同的 B 和 Ovar1指的是字符串如
Django 视图集没有属性“get_extra_actions”

我第一次使用 Django 我正在尝试构建一个 API 我正在遵循一些教程和示例它工作正常但在安装所有要求和项目后我现在正在 Raspberry Pi 中运行该项目失败并出现以下错误 Performing system checks
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
xlwt 可以在单元格中创建一个包含标题和链接变量的超链接吗？

例如如何更改以下行使 test 为变量 T 且 http google com http google com 是变量L ws write 0 0 xlwt Formula test HYPERLINK http google com
将 Django 的 FileField 设置为现有文件

我在磁盘上有一个现有文件例如 folder file txt 在 Django 中有一个 FileField 模型字段当我做 instance field File file folder file txt instance save
获取每行最后 150 行中所有正值的计数 - pandas

我有以下数据集其中有列Date and Values对于每一行它两者都有 ve and ve价值观我必须计算最后 150 行的所有正值在每一行因此前 150 行将具有空值然后以下行将具有最后 150 行的计数 ve行类似地
setUp() 中的 if 条件忽略测试

在unittest python库中存在函数setUp and tearDown用于设置变量和其他测试前后的事情如何运行或忽略 setUp 中条件的测试您可以致电if cond self skipTest reason in setU
如何在Python Selenium中获取WebElement的类名？

我使用 Selenium WebDriver 来抓取从网页中获取的用 JavaScript 编写的表格我正在迭代表行列表每行可能属于不同的类别我想获取此类的名称以便我可以为每一行选择适当的操作 table body table f
在Python中将数组的元素从科学记数法转换为十进制记数法

我有一个 numpy 数组其元素采用科学格式我想将它们转换为十进制格式我的 numpy 数组如下所示 array 93495052 96955582 98555123 06146193 array 1 00097681e 09 9 9
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
无法在 AWS Glue PySpark 开发终端节点中正确运行脚本

我已经配置了一个 AWS Glue 开发终端节点并且可以在 pyspark REPL shell 中成功连接到它像这样https docs aws amazon com glue latest dg dev endpoint tutor
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
Django 自定义文件存储系统

我有一个自定义存储 import os from django core files storage import Storage class AlwaysOverwriteFileSystemStorage Storage def get
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
2D 矩阵上的 Numpy where()

我有一个像这样的矩阵 t np array 1 2 3 foo 2 3 4 bar 5 6 7 hello 8 9 1 bar 我想获取行包含字符串 bar 的索引在一维数组中 rows np where t bar 应该给我索引 0 3
在Python中设置Windows命令行终端标题

我在 Windows 计算机上运行某个 Python 脚本的多个实例每个实例都来自不同的目录并使用单独的 shell 窗口不幸的是 Windows 为每个 shell 窗口提供了相同的名称
使用 Pandas 来“applymap”来访问索引/列？

解决以下 pandas 问题的最有效方法是什么这是一个简化的示例其中包含数据框中的一些数据 import pandas as pd import numpy as np df pd DataFrame np random randint
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY

随机推荐

打印斐波那契数列

我正在尝试编写一个简单的Python 程序它应该返回一个返回连续斐波那契数的闭包 def fibGen n 1 0 n 2 0 n 1 def fib if n 1 0 and n 2 0 n 1 1 return n else n n
RServe共享库代码

RServe 生成的进程是否有可能共享一些曾经加载到内存中的通用库想象一下我需要在 100 个不同的 RConnection 上同时执行以下代码 library libraryOfSize40MB fun 这意味着我需要大约 3 9G
在oracle标准版中使用什么功能，例如在oracle企业版中使用分区功能

我只能使用oracle标准版 oracle标准版的功能提供了分区之类的功能有没有像MYSQL中那样的逻辑合并表的概念唯一想到的就是为每个分区建立一个真正的表然后将它们全部联合起来但是每次添加或删除分区时您都必须重建视图
如何在bash中将字符串的长度存储在变量中？

我正在用这个guide作为参考我可以运行命令来查找字符串的长度例如 expr length monkey brains 如预期返回 13 然而我在将结果存储在变量中时遇到了麻烦比如说一个名为 hi 的变量首先我尝试直接分配 hi
检查字符串匹配中的多个单词以进行 r 中的文本搜索

目前我有一个适用于单字搜索的代码我们可以搜索多个单词并将这些匹配的单词写入数据框中吗为了澄清请参阅此post 这是akrun s适用于一个单词的解决方案这是代码 library pdftools library tesseract
在curl_easy_perform之后接收数据

我有以下问题如何编写通过 http response 返回的数据char 缓冲我发现了几种方法 use CURLOPT WRITEDATA or CURLOPT WRITEFUNCTION but CURLOPT WRITEDATA需要
MySQL GROUP BY 来自不同表的多个列

我有以下表格布局 Table Data Field Type type enum type b type a type id int 11 unsigned data bigint 20 unsigned Table A and B Fie
PYTHONPATH 中到底应该设置什么？

我正在为一个 python 项目工作的其他开发人员编写一个设置文档并且我一直在阅读PYTHONPATH环境变量我正在查看我当前的开发系统并认为我有一些设置错误导致我的 IDE IntelliJ 在查找 python 库时行为不正确
基于条件的多个箱线图

我有一个包含两列的数据框功率栏代表系统的功耗 component status 列根据组件关闭或打开的时间将数据分为两部分当值为 153 时该组件为 ON 当值为 150 时该组件为 OFF 我正在寻找的结果是有一个包含三个箱线图的
Java 变量值作为新变量名

我想知道在 Java 中是否有任何方法可以为新变量指定一个名称该名称是另一个变量的值下面的代码是我正在尝试做的事情的一个无效示例 int a 0 while true String a newValue a a 1 or String
无法打印空手道功能文件中的标题

我正在使用空手道 https github com intuit karate 进行一些 API 测试并使用无效标头进行测试我想在调试时打印标题以确保一切都设置正确这就是我设置并尝试打印的方式但没有任何效果我可以在文档中找到有关它
具有 3 个按钮的 UIAlertView 在横向模式下隐藏消息

我的 UIAlertView 有一条消息和 3 个按钮我的问题是警报视图通常以纵向显示但在横向模式下隐藏消息如下图所示如何让消息出现提前致谢我也遇到同样的问题但我通过一个小小的改变解决了这个问题喜欢添加 n n 在的最后T
如何创建系统还原点？ [复制]

这个问题在这里已经有答案了安装paint net 我发现了一个字符串正在创建系统还原点我猜它正在为卷影服务创建一个还原点不是吗我不知道如果我是对的我该如何在我的应用程序中执行此操作如果有合适的 Apis 请告诉我您可以使用系
.NET Framework 依赖项的 SAP Crystal Reports 运行时引擎有哪些？

我正在尝试在全新的 Microsoft Windows Server 2012 R2 x64 虚拟机上安装适用于 NET 框架的 SAP Crystal Reports 运行时引擎安装因以下错误而停止错误 1904 模块 C Progr
哪个开源项目使用 castle activerecord？

除了演示之外您还能建议任何使用 castle activerecord 进行代码研究的开源项目吗上面有不少谷歌代码他们之中有一些是酒窖经理博客引擎先生故事诗盖亚冲刺攻占城堡 Issuetracker Net
PyCrypto 和 GMP 库未找到错误 [Mac OS 10.6.3]

我正在尝试安装pycrypto 2 1 0但尝试做 python setup py build 引出 running build running build py running build ext warning GMP library
JDK8 的 WebService 客户端生成错误

我需要在我的项目中使用 Web 服务我使用 NetBeans 因此右键单击我的项目并尝试添加新的 Web 服务客户端上次我检查过这是创建 Web 服务客户端的方法但它导致了一个断言错误说 java lang AssertionEr
如何从Linux内核空间访问物理地址？

我正在研究树莓派板是否可以直接访问GPIO物理地址从 Linux 内核空间使用 inb outb 如果是的话怎么办 GPIO寄存器地址链接第90页http www raspberrypi org wp content uploads
带有 Ruby on Rails 和 OAUTH2 的 Yahoo API

我有一个 RoR 网站可以从证券交易所获取数据并且我通过 Yahoo API 使用 Yahoo 的财务表我需要授权才能获得对 YQL 的完全访问权限这要求我使用 Oauth2 我需要帮助获取对 Yahoo 的 OAuth 访问权限
PySpark 中的高效列处理

我有一个包含大量列 gt 30000 的数据框我用它填充1 and 0基于第一列如下所示 for column in list of column names df df withColumn column when array con

PySpark 中的高效列处理

PySpark 中的高效列处理 的相关文章

随机推荐

热门标签

PySpark 中的高效列处理的相关文章