如何在 Pyspark 中将列表拆分为多列？

2024-03-14

I have:

key   value
a    [1,2,3]
b    [2,3,4]

I want:

key value1 value2 value3
a     1      2      3
b     2      3      4

看来在scala中我可以写：df.select($"value._1", $"value._2", $"value._3")，但这在Python中是不可能的。

那么有没有一个好的方法可以做到这一点呢？

这取决于您的“列表”的类型：

如果是类型ArrayType():

df = hc.createDataFrame(sc.parallelize([['a', [1,2,3]], ['b', [2,3,4]]]), ["key", "value"])
df.printSchema()
df.show()
root
 |-- key: string (nullable = true)
 |-- value: array (nullable = true)
 |    |-- element: long (containsNull = true)

你可以像使用 python 一样访问这些值[]:

df.select("key", df.value[0], df.value[1], df.value[2]).show()
+---+--------+--------+--------+
|key|value[0]|value[1]|value[2]|
+---+--------+--------+--------+
|  a|       1|       2|       3|
|  b|       2|       3|       4|
+---+--------+--------+--------+

+---+-------+
|key|  value|
+---+-------+
|  a|[1,2,3]|
|  b|[2,3,4]|
+---+-------+

如果是类型StructType()：（也许您通过读取 JSON 来构建数据框）

df2 = df.select("key", psf.struct(
        df.value[0].alias("value1"), 
        df.value[1].alias("value2"), 
        df.value[2].alias("value3")
    ).alias("value"))
df2.printSchema()
df2.show()
root
 |-- key: string (nullable = true)
 |-- value: struct (nullable = false)
 |    |-- value1: long (nullable = true)
 |    |-- value2: long (nullable = true)
 |    |-- value3: long (nullable = true)

+---+-------+
|key|  value|
+---+-------+
|  a|[1,2,3]|
|  b|[2,3,4]|
+---+-------+

您可以使用直接“拆分”列*:

df2.select('key', 'value.*').show()
+---+------+------+------+
|key|value1|value2|value3|
+---+------+------+------+
|  a|     1|     2|     3|
|  b|     2|     3|     4|
+---+------+------+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

如何在 Pyspark 中将列表拆分为多列？的相关文章

如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

在 VS2010 中使用 MS Test ClassInitialize() 和 TestInitialize() 而不是 NUnit

我已经在 VS2008 中使用了 NUnit 现在正在适应 VS2010 上的 MSTest 我曾经能够在 TestSetup 中创建一个对象并在 TestCleanup 中处理它并且每次在 NUnit 中运行测试方法时都会创建该对象从
如何根据某人是否使用移动设备来更改我的 Angular 组件 HTML？

我想配置我的 Angular 9 应用程序以不同方式显示组件具体取决于某人是否使用移动设备来观看它当我用 Python 构建模板时有一个 user agents 包它允许我根据移动路径检测和提供不同的 HTML load user
magento - 将订单金额从当前货币转换为基础货币

我正在尝试将订单金额从当前货币转换为基础货币下面是我尝试过的代码但没有成功 baseCurrencyCode Mage app gt getStore gt getBaseCurrencyCode currentCurrencyCode
像 R 的 is.na 函数一样在 Julia 中查找缺失值

朱莉娅 1 0 0文档 https docs julialang org en v1 manual noteworthy differences Noteworthy differences from R 1关于 Julia 和 R 中缺失
mysql - 自动更新另一个表中的出现次数

我有两个表一个用于存储用户的报告另一个用于存储用户 1 Report table report id P user id 001 user1 002 user1 003 user3 2 Users table user id P no
当我在天蓝色中设置 customErrors mode="Off" 时，我没有收到错误信息

我收到这条消息由于发生内部服务器错误该页面无法显示我的网络配置
为什么是函数式语言？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我在这里看到很多关于函数式语言之类的讨论为什么要使用一种语言而不是传统语言他们在哪些方面做得更好他们最差的是什么理想的函数
更改 Rails text_field 表单构建器类型

我一直在研究 HTML5 表单中可用的新选项例如将输入类型声明为电子邮件网址和数字如下所述here http diveintohtml5 info forms html 我如何将它们与轨道表单构建器结合使用我努力了但这是行不
Gradle 同步失败 Android studio 2.3.2

Gradle 同步失败配置项目 app 时出现问题有关更多详细信息请参阅 IDE 日志因此我对 Android Studio 非常陌生只是第一次尝试设置即使我尝试了为 gradle 同步提到的所有方法但不幸的是没有任何效果
使用“.NETFramework,Version=v4.6.1”而不是项目目标框架“.NETStandard,Version=v2.0”恢复了“MvvmCross.Core/Platform 5.7.0”

我正在使用最新版本的 MvvmCross 创建 Android 和 iOS 应用程序现在由于可移植类库已被弃用我正在使用 NET 标准库版本 2 0 我在 MvvmCross 的 NuGet 包中收到此警告尽管该项目可以编译但我不
如何显示 2d 高斯核？（opencv）

我正在使用这个 blur cv2 GaussianBlur dst 5 5 0 我想通过以下方式显示内核矩阵 print cv2 getGaussianKernel ksize 5 5 sigma 0 但我收到类型错误 TypeError
使用统计管理器返回最近一天/一周/一个月/一年的数据？

我正在尝试查询UsageStats from UsageStatsManager 我已经建立了一个DateUtils类为我提供了获取每天每月每年即将到来的一周的开始和结束时间的方法如下所示 public static Calend
使用 ggplot 在对数刻度上绘制较小的中断

To get ggplot为了在对数刻度上正确绘制小断点我必须这样做 faceplant1 lt function x return c x 1 10 25 x 2 10 25 faceplant2 lt function x retur
在 revel 中解析 json 日期时间

我正在尝试从 json 请求中解析日期时间该请求看起来像这样 startedAt 2017 06 01 10 39 它被解码成的结构如下所示 type MyStruct struct StartedAt time Time json st
AWS Elastic Beanstalk：环境无法启动

我之前创建过一些环境所以我知道 Amazon EBS 是如何工作的但是最近我在创建环境时遇到了以下问题与环境关联的实例配置文件 aws elasticbeanstalk ec2 role 没有角色请将角色附加到实例配置文件我按照步
iOS - 视频不能仅在 iPhone 上的 iOS7 中旋转？

我做了什么我正在扩展课程中播放视频MPMoviePlayerViewController https developer apple com library ios documentation mediaplayer reference
如何在 YARD 中记录具有可变数量参数的函数？

我有一个接受可变数量参数的函数如下所示 def myfun args end 所有参数都具有相同类型 Symbol 所以现在我记录该函数就像只有一个参数一样说它可以接受多个参数例如 this function doesn t do
ObjectMapper java.lang.NoSuchMethodError: com.fasterxml.jackson.core.JsonFactory.requiresPropertyOrdering()Z

我正在尝试使用 ObjectMapper 将 Json 字符串映射到 Java 对象 ObjectMapper mapper new ObjectMapper CustomerData customerData mapper readVal
OCaml：从列表中删除重复项，同时保持右侧的顺序

我刚刚读过这个线程 https groups google com d msg racket users BuUzcJtd3Ig zqYIjVyJdjoJ并觉得很有趣我实施remove from the left几分钟后即可运行 remo
如何在 Pyspark 中将列表拆分为多列？

I have key value a 1 2 3 b 2 3 4 I want key value1 value2 value3 a 1 2 3 b 2 3 4 看来在scala中我可以写 df select value 1 value 2

如何在 Pyspark 中将列表拆分为多列？

如何在 Pyspark 中将列表拆分为多列？ 的相关文章

随机推荐

热门标签

如何在 Pyspark 中将列表拆分为多列？的相关文章