如何在 Spark SQL 中压缩两个数组列

2024-03-06

我有一个 Pandas 数据框。我尝试首先将包含字符串值的两列连接到一个列表中，然后使用 zip，我用“_”连接列表的每个元素。我的数据集如下：

df['column_1']: 'abc, def, ghi'
df['column_2']: '1.0, 2.0, 3.0'

我想将这两列连接到第三列中，如下所示，为我的数据帧的每一行。

df['column_3']: [abc_1.0, def_2.0, ghi_3.0]

我已经使用下面的代码在 python 中成功完成了此操作，但是数据帧非常大，并且需要很长时间才能运行整个数据帧。为了提高效率，我想在 PySpark 中做同样的事情。我已成功读取 Spark 数据帧中的数据，但我很难确定如何使用 PySpark 等效函数复制 Pandas 函数。如何在 PySpark 中获得我想要的结果？

df['column_3'] = df['column_2']
for index, row in df.iterrows():
  while index < 3:
    if isinstance(row['column_1'], str):      
      row['column_1'] = list(row['column_1'].split(','))
      row['column_2'] = list(row['column_2'].split(','))
      row['column_3'] = ['_'.join(map(str, i)) for i in zip(list(row['column_1']), list(row['column_2']))]

我已使用以下代码将两列转换为 PySpark 中的数组

from pyspark.sql.types import ArrayType, IntegerType, StringType
from pyspark.sql.functions import col, split

crash.withColumn("column_1",
    split(col("column_1"), ",\s*").cast(ArrayType(StringType())).alias("column_1")
)
crash.withColumn("column_2",
    split(col("column_2"), ",\s*").cast(ArrayType(StringType())).alias("column_2")
)

现在我需要的只是使用“_”将数组的每个元素压缩到两列中。我该如何使用 zip 呢？任何帮助表示赞赏。

Spark SQL 与 Python 的等价物是pyspark.sql.functions.arrays_zip https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=arrays_zip#pyspark.sql.functions.arrays_zip:

pyspark.sql.functions.arrays_zip(*cols)

集合函数：返回一个合并的结构体数组，其中第 N 个结构体包含输入数组的所有第 N 个值。

因此，如果您已经有两个数组：

from pyspark.sql.functions import split

df = (spark
    .createDataFrame([('abc, def, ghi', '1.0, 2.0, 3.0')])
    .toDF("column_1", "column_2")
    .withColumn("column_1", split("column_1", "\s*,\s*"))
    .withColumn("column_2", split("column_2", "\s*,\s*")))

您可以将其应用到结果上

from pyspark.sql.functions import arrays_zip

df_zipped = df.withColumn(
  "zipped", arrays_zip("column_1", "column_2")
)

df_zipped.select("zipped").show(truncate=False)

+------------------------------------+
|zipped                              |
+------------------------------------+
|[[abc, 1.0], [def, 2.0], [ghi, 3.0]]|
+------------------------------------+

现在要合并结果，您可以transform (如何使用变换高阶函数？ https://stackoverflow.com/q/53761600/10465355, TypeError：列不可迭代 - 如何迭代 ArrayType()？ https://stackoverflow.com/q/48993439/10465355):

df_zipped_concat = df_zipped.withColumn(
    "zipped_concat",
     expr("transform(zipped, x -> concat_ws('_', x.column_1, x.column_2))")
) 

df_zipped_concat.select("zipped_concat").show(truncate=False)

+---------------------------+
|zipped_concat              |
+---------------------------+
|[abc_1.0, def_2.0, ghi_3.0]|
+---------------------------+

Note:

高阶函数transform and arrays_zipApache Spark 2.4 中已引入。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Spark SQL 中压缩两个数组列的相关文章

Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重

随机推荐

如何判断点击了表格中的哪一行号？

我有一个如下表 table tr td 1 td td 1 td td 1 td tr tr td 2 td td 2 td td 2 td tr tr td 3 td td 3 td td 3 td tr table 当用户单击表时如何
核心数据问题 - 选择分组依据/具有最大值

假设我有两个实体每个消息都属于一个消息线程如何获取所有消息线程以及该线程上相应的最后一条消息通常在 SQL 中我会这样做按时间戳 max timeStamp 的线程从消息组中选择其一我认为 Core Data 不允许在其谓词
C++ Builder vs Delphi vs MFC

我正在学习MFC 发现它不太好用我听说过很多关于 Delphi 的事对 Delphi 的研究让我接触到了 C Builder C Builder 是否提供了 C MFC 的严肃且良好的替代方案 C Builder 比 MFC 更好吗 C
Chrome扩展：从popup.js访问background.js的变量

如果我正在使用chrome extension getBackgroundPage https developer chrome com extensions extension html method getBackgroundPage
如何关闭窗口.打开

我知道你可以用 window close 关闭 window open 但还有其他方法吗我有一个打开 facebook 连接的弹出窗口我想在用户连接到 facebook 时关闭弹出窗口然后刷新父窗口我认为过去我使用过 TARGET
一元 & 运算符并在 Ruby 中将过程作为参数传递

我无法理解下面的这段代码我了解一元与运算符并将过程作为参数传递给方法的想法但我实在无法接受过去的事self to the language call 我是这样理解的我们正在过去self作为 proc block 语言的参数这对我来说
GNU Smalltalk 80 调试器。如何调试smallcode代码？启动调试器？

在 GNU Smalltalk 80 中可以用您自己的普通代码编写 Smalltalk 代码个人选择的文本编辑器因此调试代码非常重要首先将文件另存为 txt 文件然后您可以使用工具从程序员文本编辑器中打开该文件这里的工
2D 缩放到 webgl 中的点

我正在尝试使用 WebGL 更具体地说是 regl 创建 2D 图形可视化通过我当前的实现我已经可以看到力布局应用于每个节点这很好当我尝试相对于当前鼠标位置进行缩放时问题就出现了根据我的研究要实现这种行为需要按以下顺序应用
ITemplate 的 InstantiateIn() 方法中的动态控件类型基于 DataItem 的属性。有办法吗？

我有一个简单的GridView 对于普通人来说是这样的Item or AlternatingItem row ID Description Value 01 Some text 0 082 02 Some text Yes 02 Some
使用闪亮仪表板在 R Shiny 应用程序中包含从 RMarkdown 渲染的 HTML 文件会导致 tabItems 损坏

Problem 当使用shinydashboard在ShinyApp中包含从RMarkdown渲染的HTML文档时只有当RMarkdown文件的YAML块中的设置 self contained 设置为true时 HTML文档才能正确渲染
在 Oracle 中的 to_char() 中显示时区描述

我有一个 SQL 查询 select to char cast sysdate as timestamp with LOCAL time zone YYYY MM DD HH24 MI SS TZR from dual 此返回输出为 201
PostgreSQL：使用动态名称的多个表的联合

我的模式中有一组表大约 100 个名为qgep以及哪些名字开头vl 它们具有相同的列 colA colB colC 我想做的是得到一张大桌子它是我所有的的联合体vl 表还有一列包含原始表的名称我可以获得表格列表 SELECT ta
我可以依赖 malloc 返回 NULL 吗？

我在 Unix 系统上读到过 malloc即使内存实际上不可用也可以返回非 NULL 指针并且稍后尝试使用该内存将触发错误由于我无法通过检查 NULL 来捕获此类错误因此我想知道检查 NULL 到底有多大用处在相关的说明中 Her
android 使用 AudioTrack 播放声音

你好我有这个代码 AudioTrack audioTrack public void playAccordeon int minBufferSize AudioTrack getMinBufferSize 44100 AudioForma
static_cast(-1) 是在没有 numeric_limits 的情况下生成全一位数据的正确方法吗？

我在无法访问 C 标准库的环境中编写 C 代码特别是无法访问std numeric limits 假设我想实现 template
如何使用 API (curl) 编辑 github 问题？（特别是：关闭）

我计划将另一个本地系统中跟踪的数百个错误迁移到 GitHub 的问题系统中大多数这些错误在过去都已被修复我可以使用 github 的 API 来创建问题例如 curl u GITHUB TOKEN x oauth basic ht
片段添加或替换不起作用

我正在使用这里的代码参考 http developer android com guide components fragments html When I put in that code in my program I get an e
如何从Sqlite获取最后一条记录？

我有一张桌子question table和一个ImageButton Back 单击后我需要从数据库中获取最后插入的记录Back 我的行包含以下列 question optionA optionB optionC optionD 我需要这些
关于java设计模式的建议

我需要一些关于 Java 中以下问题的设计模式的有用建议我有三门课 class A extends X implement Y doA class B extends X implement Y doB class C extends X
如何在 Spark SQL 中压缩两个数组列

我有一个 Pandas 数据框我尝试首先将包含字符串值的两列连接到一个列表中然后使用 zip 我用连接列表的每个元素我的数据集如下 df column 1 abc def ghi df column 2 1 0 2 0 3 0 我想

如何在 Spark SQL 中压缩两个数组列

如何在 Spark SQL 中压缩两个数组列 的相关文章

随机推荐

热门标签

如何在 Spark SQL 中压缩两个数组列的相关文章