PySpark 将“map”类型的列转换为数据框中的多列

2024-04-30

Input

我有一个专栏Parameters类型的map形式：

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}]
df = sqlContext.createDataFrame(d)

df.collect()
# [Row(Parameters={'foo': '1', 'bar': '2', 'baz': 'aaa'})]

df.printSchema()
# root
#  |-- Parameters: map (nullable = true)
#  |    |-- key: string
#  |    |-- value: string (valueContainsNull = true)

Output

我想在 PySpark 中重塑它，以便所有键 (foo, bar等）将成为列，即：

[Row(foo='1', bar='2', baz='aaa')]

Using withColumn works:

(df
 .withColumn('foo', df.Parameters['foo'])
 .withColumn('bar', df.Parameters['bar'])
 .withColumn('baz', df.Parameters['baz'])
 .drop('Parameters')
).collect()

But 我需要一个没有明确提及列名称的解决方案，因为我有几十个。

由于钥匙MapType不是架构的一部分，您必须首先收集它们，例如如下所示：

from pyspark.sql.functions import explode

keys = (df
    .select(explode("Parameters"))
    .select("key")
    .distinct()
    .rdd.flatMap(lambda x: x)
    .collect())

当你有了这些之后，剩下的就是简单的选择：

from pyspark.sql.functions import col

exprs = [col("Parameters").getItem(k).alias(k) for k in keys]
df.select(*exprs)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

apachesparksql

PySpark 将“map”类型的列转换为数据框中的多列的相关文章

如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
使用 suds SOAP 库进行 HTTP 身份验证的奇怪行为

我有一个正在运行的 python 程序它使用 suds 通过 SOAP 获取大量数据 Web服务是通过分页功能实现的这样我就可以抓取nnn每个 fetch 调用的行并获取下一个nnn与后续的电话如果我使用如下代码向 HTTP 服务器进
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

没有要加载的文件——readline（加载错误）

当我想执行 Rails 3 控制台时它会抛出以下错误 script rails c usr local rvm rubies ruby 1 9 2 p318 lib ruby 1 9 1 irb completion rb 9 in re
将 css 应用到区域地图

我创建了一个非常大的地图其中包含许多多边形区域每个多边形区域超过 20 个坐标用于地图内的区域但是您无法将 css 添加到 AREA 标记因为我被告知它不是可见元素我想要做的是当用户将鼠标悬停在地图上的某个区域上时我希望通
Java线程池大小（执行器）

我有一个有 3 个线程的应用程序我将其切换为由 ScheduledExecutorService 管理创建此实例时您必须指定线程池大小但这是什么这是否意味着如果我计划运行 3 个任务我应该为每个任务创建一个大小为 3 的线程池
控制器中的模拟服务器

我的控制器中有以下行 string lTempPath Path Combine Server MapPath Temp lRandomFileName 问题是服务器不是虚拟的只能通过 getter 进行访问 I get a 该方法或操作
枚举类型的命名空间 - 最佳实践

通常需要同时使用多种枚举类型有时人们会发生名字冲突我想到了两种解决方案使用命名空间或使用更大的枚举元素名称尽管如此命名空间解决方案有两种可能的实现带有嵌套枚举的虚拟类或完整的命名空间我正在寻找所有三种方法的优缺点
Haskell 有反向模式自动微分的工作实现吗？

我见过的 Haskell 中最相关的实现是前向模式http hackage haskell org packages archive fad 1 0 doc html Numeric FAD html http hackage haskel
Django 组和权限。扩展组以拥有 FK？

我正在开发一种产品允许不同的学校在线管理他们的内容其中一部分涉及设置我自己编写的基于角色的访问控制逻辑本质上每所学校都有自己的一组角色这些角色拥有自己的一组权限该软件的用户在任何给定时间都可能属于多个具有不同角色的学校由于各种
我应该在哪里放置 axis2.xml 以便由带有肥皂客户端的 jar 读取？

我在 jar 文件中有一个 java 控制台应用程序它通过调用肥皂服务axis2 http axis apache org axis2 java core 我在用这个博客 http www nandana org 2008 08 want
如何从 C# (ASP.NET) 中的函数返回多个值？

我有一个页面其中包含一些产品和用户输入数字的文本字段我首先使用 JavaScript 来计算总成本根据他们输入的用户数量他们会获得不同的费率如下面的代码所示当用户在文本字段中键入或粘贴数字时将调用CalculateCost 函
为什么 NHibernate 在选择时删除然后插入复合元素？

有人可以向我解释一下关于 NHibernate 如何处理复合元素的这个小谜团吗我的课程看起来像这样 public class Blog public virtual int Id get private set public virtua
IllegalStateException：无法从cursorWindow读取第0行，第-1列

IllegalStateException 无法从cursorWindow读取第0行第 1列我是 Android 新手我查看了 smiller 问题确实解决了我的问题请帮忙提前致谢这是我的代码 function to add da
当我从 Android 设备中选择下一步时，在填写表单时，它会跳过任何下拉菜单

我有一个由输入文本框下拉菜单和提交按钮组成的网络表单当我在 Android 手机上使用我的网站 chrome 浏览器或 Android 设备上的任何浏览器时我使用手机键盘上的 next 导航到下一个字段我的表单上的字段顺序名字
带有存根列表的 Pandas Wide_to_long

我目前有以下数据框 1 1 1 2 1 3 1 4 1 5 2 1 9 5 10 1 10 2 10 3 10 4 10 5 0 0 049400 0 063812 0 097736 0 077222 0 112779 0 201620 0
gofabric8> 无法解压缩 /Users/apple/.fabric8/bin/oc.zip zip：不是有效的 zip

我正在尝试为微服务设置环境我正在使用 Fabric8 来做到这一点我在用着mvn fabric8 cluster start Dfabric8 cluster kind openshift命令执行时出现以下错误 INFO gofabr
使用 jQuery 加载脚本时保持范围

假设我有一个包含以下内容的文件 test js var test something 然后我有一个主要脚本需要加载 test js 以获取测试变量显然这有效 ajax dataType script cache true url test
一个或多个参数值无效：键 xyz 的类型不匹配预期：S 实际：M

我的 AWS Lambda 根据以下答案调用 DynamoDB https stackoverflow com a 33649402 495455 https stackoverflow com a 33649402 495455 我收到错
NSString 中的子字符串 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我在用NSString我想获取它的一个子字符串其中包含字符串的前 20 个字符我怎样才能做到这一点您可以使用substringT
Glassfish Eclipse 插件与 jdk 8

我正在尝试使用 glassfish eclipse plugin 启动 glassfish 4 不幸的是它似乎无法识别我刚刚安装的 JDK 8 Release候选版本完成按钮保持禁用状态如果我选择 java 7 jdk 完成按钮将启
GenServer 正常关闭

我使用 GenServer 编写了一个 Elixir 应用程序该应用程序在启动时启动外部应用程序然后将其关闭并在退出时进行其他清理我在中添加了启动功能init 1 https hexdocs pm elixir GenServer
PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz

PySpark 将“map”类型的列转换为数据框中的多列

Input

Output

PySpark 将“map”类型的列转换为数据框中的多列 的相关文章

随机推荐

热门标签

PySpark 将“map”类型的列转换为数据框中的多列的相关文章