Spark：如何使用动态嵌套数组转置和分解列

2024-04-10

我应用了问题中的算法Spark：如何转置和分解具有嵌套数组的列 https://stackoverflow.com/questions/69418239/spark-how-to-transpose-and-explode-columns-with-nested-arrays使用动态数组转置和分解嵌套 Spark 数据框。

我已添加到数据框"""{"id":3,"c":[{"date":3,"val":3, "val_dynamic":3}]}}"""，有新列c，其中数组有新的val_dynamic可以随机出现的字段。

我正在寻找所需的输出 2（转置和爆炸），但即使是所需的输出 1（转置）的示例也将非常有用。

输入 df:

+------------------+--------+-----------+---+
|                 a|       b|          c| id|
+------------------+--------+-----------+---+
|[{1, 1}, {11, 11}]|    null|       null|  1|
|              null|[{2, 2}]|       null|  2|
|              null|    null|[{3, 3, 3}]|  3|   !!! NOTE: Added `val_dynamic`
+------------------+--------+-----------+---+


root
 |-- a: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- date: long (nullable = true)
 |    |    |-- val: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- date: long (nullable = true)
 |    |    |-- val: long (nullable = true)
 |-- c: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- date: long (nullable = true)
 |    |    |-- val: long (nullable = true)
 |    |    |-- val_dynamic: long (nullable = true)  !!! NOTE: Added `val_dynamic`
 |-- id: long (nullable = true)

所需输出 1 (transpose_df)：

+---+------+-------------------+
| id| cols |       arrays      |
+---+------+-------------------+
|  1|  a   | [{1, 1}, {11, 11}]|
|  2|  b   | [{2, 2}]          |
|  3|  c   | [{3, 3, 3}]       | !!! NOTE: Added `val_dynamic`
+---+------+-------------------+

所需输出 2 (explode_df)：

+---+----+----+---+-----------+
| id|cols|date|val|val_dynamic|
+---+----+----+---+-----------+
|  1|   a|   1|  1|   null    |
|  1|   a|  11| 11|   null    |
|  2|   b|   2|  2|   null    |
|  3|   c|   3|  3|      3    |  !!! NOTE: Added `val_dynamic`
+---+----+----+---+-----------+

当前代码：

import pyspark.sql.functions as f

df = spark.read.json(sc.parallelize([
  """{"id":1,"a":[{"date":1,"val":1},{"date":11,"val":11}]}""",
  """{"id":2,"b":[{"date":2,"val":2}]}}""",
  """{"id":3,"c":[{"date":3,"val":3, "val_dynamic":3}]}}"""
    ]))

df.show()

cols = [ 'a', 'b', 'c']

#expr = stack(2,'a',a,'b',b,'c',c )
expr = f"stack({len(cols)}," + \
    ",".join([f"'{c}',{c}" for c in cols]) + \
    ")"


transpose_df = df.selectExpr("id", expr) \
    .withColumnRenamed("col0", "cols") \
    .withColumnRenamed("col1", "arrays") \
    .filter("not arrays is null")

transpose_df.show()

explode_df = transpose_df.selectExpr('id', 'cols', 'inline(arrays)')
explode_df.show()

目前的结果

AnalysisException: cannot resolve 'stack(3, 'a', `a`, 'b', `b`, 'c', `c`)' due to data type mismatch: Argument 2 (array<struct<date:bigint,val:bigint>>) != Argument 6 (array<struct<date:bigint,val:bigint,val_dynamic:bigint>>); line 1 pos 0;
'Project [id#2304L, unresolvedalias(stack(3, a, a#2301, b, b#2302, c, c#2303), Some(org.apache.spark.sql.Column$$Lambda$2580/0x00000008411d3040@4d9eefd0))]
+- LogicalRDD [a#2301, b#2302, c#2303, id#2304L], false

ref :

stack要求所有堆积的列具有相同的类型。这里的问题是数组内部的结构具有不同的成员。一种方法是将缺少的成员添加到所有结构中，以便我的方法之前的回答 https://stackoverflow.com/a/69419416/2129801再次工作。

cols = ['a', 'b', 'c']

#create a map containing all struct fields per column
existing_fields = {c:list(map(lambda field: field.name, df.schema.fields[i].dataType.elementType.fields)) 
      for i,c in enumerate(df.columns) if c in cols}

#get a (unique) set of all fields that exist in all columns
all_fields = set(sum(existing_fields.values(),[]))

#create a list of transform expressions to fill up the structs will null fields
transform_exprs = [f"transform({c}, e -> named_struct(" + 
    ",".join([f"'{f}', {('e.'+f) if f in existing_fields[c] else 'cast(null as long)'}" for f in all_fields]) 
    + f")) as {c}" for c in cols]

#create a df where all columns contain arrays with the same struct
full_struct_df = df.selectExpr("id", *transform_exprs)

full_struct_df现在有架构

root
 |-- id: long (nullable = true)
 |-- a: array (nullable = true)
 |    |-- element: struct (containsNull = false)
 |    |    |-- val: long (nullable = true)
 |    |    |-- val_dynamic: long (nullable = true)
 |    |    |-- date: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: struct (containsNull = false)
 |    |    |-- val: long (nullable = true)
 |    |    |-- val_dynamic: long (nullable = true)
 |    |    |-- date: long (nullable = true)
 |-- c: array (nullable = true)
 |    |-- element: struct (containsNull = false)
 |    |    |-- val: long (nullable = true)
 |    |    |-- val_dynamic: long (nullable = true)
 |    |    |-- date: long (nullable = true)

从这里开始，逻辑像以前一样工作：

stack_expr = f"stack({len(cols)}," + \
    ",".join([f"'{c}',{c}" for c in cols]) + \
    ")"

transpose_df = full_struct_df.selectExpr("id", stack_expr) \
    .withColumnRenamed("col0", "cols") \
    .withColumnRenamed("col1", "arrays") \
    .filter("not arrays is null")

explode_df = transpose_df.selectExpr('id', 'cols', 'inline(arrays)')

这个答案的第一部分要求

中提到的每一列cols是一个结构体数组
所有结构的所有成员都是long是。实行这一限制的原因是cast(null as long)创建变换表达式时。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark：如何使用动态嵌套数组转置和分解列的相关文章

在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
子查询与连接

我重构了从另一家公司继承的应用程序的一个缓慢部分以使用内部联接而不是子查询例如 WHERE id IN SELECT id FROM 重构后的查询运行速度提高了约 100 倍 50 秒到 0 3 我预计会有改进但谁能解释为什么它如此剧
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
使用 RGB 数据将输入数据剪切到 imshow 的有效范围（对于浮点数为 [0..1]，对于整数为 [0..255]）

我尝试将 MRI 切片转换为 PNG 格式后运行图形切割算法我不断遇到以下问题 Clipping input data to the valid range for imshow with RGB data 0 1 for floats
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
为什么类型提示“float”接受“int”，而它甚至不是子类？

一方面我了解到数字可以int or float应将类型注释为float 来源 PEP 484 类型提示 https www python org dev peps pep 0484 the numeric tower and 这个计算器问
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
Python Pandas DateOffset 使用另一列中的值

我以为这会很容易但下面的内容并不适合我想要的只是尝试通过使用另一列中的值将天数添加到预先存在的日期时间列来计算新的日期列我下面的偏移列只有 1 位数字 df new date df orig date apply lambda x
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp
在 python 中使用 ftplib 时

这是导致错误的相关代码 ftp ftplib FTP server ftp login r user r pass change directories to the incoming folder ftp cwd incoming fil

随机推荐

在 Scala 3 中派生不透明类型的类型类实例

Scala 3 有没有办法使用derives关键字与不透明类型别名结合使用最好有一种无样板的方法通过自动依赖基础类型如果有的相同类型类的实例来为给定的不透明类型别名提供类型类实例如果能够表达类似的东西就好了 opaque type
将逗号分隔的字符串解析为某种可以循环访问各个值的对象的最简单方法？

将逗号分隔的字符串值列表解析为可以循环的某种对象的最简单方法是什么以便我可以轻松访问各个值示例字符串 0 10 20 30 100 200 我对 C 有点陌生所以请原谅我问这样一个简单的问题谢谢这有一些问题但最终最简单的方法是使
子类如何访问父类的属性？

我有一个关于 Javascript 对象的问题如何访问父类的属性 function randomObj for example button obj this text this is obj function parentClass t
dreamhost 上的 SSH 密钥

我正在尝试设置与 dreamhost 和我的本地计算机配对的 SSH 密钥我使用 git bash 作为我的终端使用 mingw32 我可以通过 ssh 电子邮件受保护 cdn cgi l email protection并要求我提供密
rspec，未知属性问题

我正在优秀的 railstutorial org 网站上工作有一个关于 rspec 的基本问题当我在新用户模型上运行以下测试时我收到未知属性用户名消息和失败的测试 before each do attr lname e gt
从 IE EPM BHO 内访问命名管道服务器

我正在尝试对我们的旧产品进行一些更改以支持 BHO 上的 IE EPM 我已经设法加载它并调用各种方法 SetSite DocumentComplete 等当我尝试连接到 Windows 服务中运行的命名管道服务器时我似乎遇到了障碍
如何在 Clojure 中遍历一棵树，同时收集每个节点节点的值？

我想创建一个函数来收集二叉树中每个节点的值在 ClojureDocs 中我发现了几个用于遍历树图的函数例如 tree seq prewalk 和 postwalk https clojuredocs org clojure core
为什么在 MySQL 中使用 CAST 时出现语法错误？

我正在使用 MySQL Workbench v5 2 44 CE 我正在针对本地 MySQL 5 5 安装运行它我正在尝试使用CAST函数但不断出现以下错误语法错误意外的 INT SYM 源日期和目标日期类型是什么并不重要唯一不给
Google oauth2 与 devise 和omniauth 处理为失败

我正在尝试配置一个新的rails4 2应用程序来针对Google Oauth2进行身份验证我似乎成功地完成了这个过程但它被视为失败最初的授权似乎进展顺利直到谷歌发送回调那么似乎就被错误地认定为失败了给出的错误信息是 Could
查找信标的两个地理位置之间的点

假设我们有两个beacons放置在道路两侧我们知道他们的latitude and longitude它们所在的位置我们将它们视为一个位置我们还知道distance两者之间以米为单位beacons 使用半正矢公式测量我们的设备正在这两
如何修复警告：视图不在窗口层次结构中

我正在使用标准设置程序Mobclix in an iOS应用程序我正在调用requestAndDisplayAdFromViewController 从内部开始的方法viewWillAppear void viewWillAppear B
吞没的消息：错误：未捕获（承诺）：[对象未定义]

我的登录组件会短暂显示然后被有关承诺中未定义对象的错误消息删除这是承诺的定义 static init Promise
如何在 ActiveAdmin 中使用 ActiveStorage `has_many_attached` 编辑多个附加图像

我有一个简单的模型可以通过附加多个图像ActiveStorage处理文件存储我在用ActiveAdmin编辑我的模型并上传附加图像到目前为止没有问题问题是当我想编辑模型并添加新图像时以前的图像会被删除只添加新图像我可以预览
Maven 内存不足构建失败

截至今天我的 Maven 编译失败 INFO ERROR Unexpected INFO java lang OutOfMemoryError Java heap space INFO at java util Arrays copyOf
将 Hive 表导出到 hdfs 中的 csv

我知道在 Hive 中将表保存到 csv 或其他文本文件时分隔符存在一个已知问题所以我想知道你们是否可以帮助我解决这个问题我有一个现有的表表 A 我想将其以 csv 格式保存到 hdfs 通过阅读其他回复我相信我必须首先创建一个
java中如何复制文件

我正在尝试复制 java 中的文件并将其移动到新文件夹这是我一直在使用的代码但我总是收到此错误访问被拒绝在指定目录中有没有办法解决这个问题或者有更好的方法来复制文件谢谢 try File f1 new File fpath Fi
来自 URI 的图像路径

我正在尝试从图库中获取图像文件 Intent intent new Intent intent setType image intent setAction Intent ACTION GET CONTENT startActivityFo
行范围内的替换

I have
如何使用 Spring 和 Active Directory 实现单点登录

我有一个基于 Spring 的 Web 应用程序我想在其上实现单点登录解决方案基本流程是 1 用户登录 Windows 工作站台式电脑根据组织的 Active Directory 进行身份验证 2 用户打开浏览器并导航到 Sprin
Spark：如何使用动态嵌套数组转置和分解列

我应用了问题中的算法Spark 如何转置和分解具有嵌套数组的列 https stackoverflow com questions 69418239 spark how to transpose and explode columns wi

Spark：如何使用动态嵌套数组转置和分解列

Spark：如何使用动态嵌套数组转置和分解列 的相关文章

随机推荐

热门标签

Spark：如何使用动态嵌套数组转置和分解列的相关文章