在 PySpark 中将结构数组扩展为列

2024-06-24

我有一个来自 Google Analytics 的 Spark 数据框，如下所示：

id     customDimensions (Array<Struct>)
100    [ {"index": 1, "value": "Earth"}, {"index": 2, "value": "Europe"}]
101    [ {"index": 1, "value": "Mars" }]

我还有一个“自定义维度元数据”数据框，如下所示：

index   name
1       planet
2       continent

我将使用元数据 df 中的索引，以便将自定义维度扩展到列中。结果应如下所示：

id     planet     continent
100    Earth      Europe
101    Mars       null

我尝试过以下方法，效果很好，但性能极差。我想知道是否有更好的方法。

# Select the two relevant columns
cd = df.select('id', 'customDimensions')

# Explode customDimensions so that each row now has a {index, value}
cd = cd.withColumn('customDimensions', F.explode(cd.customDimensions))

# Put the index and value into their own columns
cd = cd.select('id', 'customDimensions.index', 'customDimensions.value')

# Join with metadata to obtain the name from the index
metadata = metadata.select('index', 'name')
cd = (cd
         .join(metadata, cd.index == metadata.index, 'left')
         .drop(metadata.index))

# Pivot cd so that each row has the id, and we have columns for each custom dimension
piv = cd.groupBy('id').pivot('name').agg(F.first(F.col('value')))

# Join back to restore the other columns
return df.join(piv, df.id == piv.id).drop(piv.id)

假设：

最多有 250 个自定义维度索引，并且名称只能通过元数据数据框得知
原始数据框还有我想维护的其他几个列（因此在我的解决方案末尾加入了连接）

连接是非常昂贵的操作，因为它会导致数据混洗。如果可以的话，您应该避免它或寻求优化它。

您的代码中有两个联接。可以完全避免最后一次连接取回列。可以优化与元数据数据帧的其他连接。由于元数据 df 只有 250 行并且非常多，因此您可以使用broadcast()连接中的提示。这将避免较大数据帧的改组。

我已经做了一些建议的代码更改，但由于我没有您的数据，因此未经过测试。

# df columns list
df_columns = df.columns

# Explode customDimensions so that each row now has a {index, value}
cd = df.withColumn('customDimensions', F.explode(cd.customDimensions))

# Put the index and value into their own columns
cd = cd.select(*df_columns, 'customDimensions.index', 'customDimensions.value')

# Join with metadata to obtain the name from the index
metadata = metadata.select('index', 'name')
cd = cd.join(broadcast(metadata), "index", 'left')

# Pivot cd so that each row has the id, and we have columns for each custom dimension
piv = cd.groupBy(df_columns).pivot('name').agg(F.first(F.col('value')))


return piv

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

googleanalytics

PySpark

在 PySpark 中将结构数组扩展为列的相关文章

如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
Spark 作业托管在 Jboss 上并尝试连接到 master 时，调用 RpcHandler #receive() 获取单向消息时出错

部署在 Jboss 服务器上时我无法连接到 master 上的 Spark 我有一个使用 Java 和 Spark API 设计的应用程序用于将数据加载到 Oracle 数据库我已经在 J boss 上部署了这个应用程序并且在我的本
谷歌分析和 iFrame

所以我有一个简单的页面当用户单击链接时 iframe 将打开我正在尝试使用 pageTracker trackPageview outgoing example com 在 iframe 内部但似乎它不起作用我已阅读此页 code
使用 Firebase 跟踪应用链接

我们有 Android 和 iOS 应用程序我们想要跟踪我们的应用程序是从哪些链接下载的因此如果我们在 Facebook 上发布了我们应用程序的链接并且有人点击该链接并下载了它它应该记录该应用程序是在 Facebook 上下载的
使用 pySpark 在 Azure Databricks 中使用来自 EventHub 的事件

我可以看到 Spark 连接器和使用 Azure Databricks 中的 Scala 从事件中心消费事件的指南但是我们如何使用 pySpark 从 azure databricks 消费事件中心中的事件任何建议文档详细信息都会有
Python / Pyspark - 计数 NULL、空和 NaN

我想计算列中的 NULL 空和 NaN 值我尝试过这样的 df filter df ID df ID isNull df ID isnan count 但我总是收到此错误消息 TypeError Column object is not
从 aws Glue 脚本调用存储过程

ETL 作业完成后在 AWS Glue 脚本中调用存储过程的最佳方式是什么我正在使用 PySpark 从 S3 获取数据并将其存储在临时表中在这个过程之后需要调用一个存储过程该存储过程将数据从临时表加载到相应的 MDS 表中如果
Spark中RDD转换的结果是什么？

谁能解释一下结果是什么RDD 转换它是新的数据集数据副本还是只是新的指针集用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系依赖关系只是产生结果程序的步骤谱系链依赖字符串中的每个 RDD 都有一个计算其数
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
pySpark 映射多列

我需要能够使用多列比较两个数据帧 pySpark尝试 get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them t
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
仅使用 Spark ML Pipelines 进行转换

我正在开发一个项目其中可配置的管道和 Spark DataFrame 更改的沿袭跟踪都是必不可少的该管道的端点通常只是修改后的 DataFrame 将其视为 ETL 任务对我来说最有意义的是利用现有的 Spark ML Pipelin
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
Google Analytics：如何按多组页面进行分段

我正在开发一个网站其中有许多页面组每个页面组都有类似的 URL 方案大致如下 groupa page1 groupa page2 groupa page3 groupb page1 groupb page2 groupb page3
使用 Google Analytics 的 Angular 4+

我正在尝试将 Google Analytics 与 Angular 4 一起使用但我在 ts 中找不到 ga js 的任何 type 为了快速解决方案我在每个组件中都使用了它 declare let ga any 下面我是如何解决的创
如何使用数据集进行分组

我有一个使用rdd的请求 val test Seq New York Jack Los Angeles Tom Chicago David Houston John Detroit Michael Chicago Andrew Detroi
在 Spark 流/结构化流中读取来自 Kafka 的 avro 消息

我是第一次使用 pyspark 火花版本 2 3 0 卡夫卡版本 2 2 0 我有一个kafka生产者它以avro格式发送嵌套数据我正在尝试在pyspark中的spark streaming 结构化流中编写代码它将把来自kafka的a
无法将作业提交到 Spark 集群（集群模式）

火花版本1 3 0 以集群模式向spark集群提交作业时出错 spark submit class org apache spark examples streaming JavaDirectKafkaWordCount deploy mo

随机推荐

如何将小数纪元时间戳（双精度）转换为 std::chrono::time_point？

我有一个小数纪元时间戳表示为double 我想转换为适当的std chrono time point 该纪元是自 1970 年 1 月 1 日以来常见的 UNIX 纪元我知道存在std chrono system clock from
如何判断约会是否是周末？

给定一个日期作为输入我如何确定这一天是否是周末有一个 Weekday 函数它接受 Date 作为参数并返回日期 1 2 3 等返回值为 vbSunday 1 vbMonday 2 vbTuesday 3 vbWednesday 4
下载 - 每个用户的最大连接数？

我有一个 php 脚本允许用户通过下载恢复下载大文件这工作正常但我将 php 代码的下载速度限制为每个连接 200kb s 因此 Mozillas Firefox 下载管理器仅建立一个连接速度约为 200kb s 但 Free Do
Mongoose __v 什么时候改变

根据http aaronheckmann tumblr com post 48943525537 mongoose v3 part 1 versioning http aaronheckmann tumblr com post 489435
如何提交 git 标签？

我已成功对中央 git 存储库进行提交和推送更改我现在意识到我想标记所有文件的当前版本所以我这样做 git tag a 0 5 这样就成功了但现在我尝试git push我被告知没有什么可承诺的如何将新标签推送到中央存储库注意gi
Javascript 错误的可能情况：“预期标识符、字符串或数字”

一些用户报告我的网站上偶尔出现 JS 错误错误消息显示预期标识符字符串或数字行号为 423725915 这只是一个任意数字并且在发生这种情况时每个报告都会发生变化这主要发生在 IE7 Mozilla 4 0 浏览器中我扫描了我
C 常用算术转换

我正在阅读 C99 标准中有关常见算术转换的内容如果两个操作数具有相同的类型则无需进一步转换需要否则如果两个操作数都有符号整数类型或者都有无符号整数类型较小整数类型的操作数转换等级转换为大于操作数的类型秩否则如果具有无
为什么每当我使用 scandir() 时，我都会在数组的开头收到句点？

为什么每当我使用 scandir 时我都会在数组的开头收到句点 Array 0 gt 1 gt 2 gt bar php 3 gt foo txt 4 gt somedir Array 0 gt somedir 1 gt foo txt
箭头函数参数周围应有括号。（箭头括号）

如何避免流量类型错误ES7箭头函数 handleSelectCategory e gt const form this state let newCategories if form categories findIndex c gt c
什么是“具有指定instance_id的DacInstance不存在。（Microsoft SQL Server，36004）”？

我正在尝试使用 dacpac 升级远程 SQL Server 2012 数据库但收到以下消息指定instance id 的DacInstance 不存在微软 SQL Server 36004 我试图在互联网上搜索但找不到任何东西有任
void* 与 char* 具有相同的表示和内存对齐方式是什么意思？

我读过一些关于void 类型指针并从标准中找到了此要求 6 2 5 27 指向 void 的指针应具有与指向字符类型的指针相同的表示和对齐要求 39 类似地指向兼容类型的限定或非限定版本的指针应具有相同的表示和对齐要求我看到标准并不保证
如何更改通用Windows平台应用程序中单击事件上按钮的背景颜色？

我正在 Windows 10 中开发 UWP 应用程序并且尝试更改单击事件中按钮的背景颜色这是我的代码 private void button1 1 Click object sender RoutedEventArgs e if Si
Delphi TTask - PPL 中匿名函数中的变量捕获如何工作？

我开始深入研究 Delphi D11 PPL 并编写了这个小例子 procedure TForm2 LaunchTasks const cmax 5 Var ltask ITask i j Integer begin for i 1 to
位置：固定在 IE 6/7/8 和 mozilla 上工作

我想将 div 的位置固定在页面的右下角聊天框我如何通过一个适用于所有 IE6 7 8 和 mozilla 的 css 文件来做到这一点 for我现在有聊天框位置固定底部 0 右 1 这在 IE 上不起作用我的限制是我只能编辑
C# 套接字编程 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案嘿我对 C 异步套接字编程做了噩梦您能给我指点一本深入解释异步编程的指南教程或书籍吗如果可能包
扩展对象字面量

var x name japan age 20 x prototype mad function alert USA x mad 上面的代码不起作用对象字面量无法扩展或者x mad 这不是正确的打电话方式你不能这样做能够使用它来定义
使用通配符 ID 选择 div

如何使用 ID 但带有通配符来选择 div 如果 DIV 的 ID 是statusMessage 1098 我想以某种方式选择它例如document getElementById statusMessage 这是因为在生成页面之前我不知
找不到 npx 命令

我正在使用 webpack 我需要执行 node modules webpack bin webpack js using npx npx webpack将运行 webpack 二进制文件 node modules webpack bin
编译并运行金属示例

我已经有一段时间没有使用 XCode 了但自从 Apple 批评 XCode 6 和新的 Metal API 以来我不得不检查一下他们已经发布了示例例如Basic3D 示例的转换版本不过我在编译和运行它们时遇到了问题我必须添加
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array

在 PySpark 中将结构数组扩展为列

在 PySpark 中将结构数组扩展为列 的相关文章

随机推荐

热门标签

在 PySpark 中将结构数组扩展为列的相关文章