在 PySpark 中展平动态嵌套结构（结构内的结构）

2024-04-27

我正在努力展平结构内有结构的 JSON 模式。问题是内部结构名称是动态的，因此我无法使用“.”轻松访问它们。概念

该架构类似于：

    root
 |-- A: string (nullable = true)
 |-- Plugins: struct (nullable = true)
 |    |-- RfS: struct (nullable = true)
 |        |-- A
 |        |-- B
 |    |-- RtW: struct (nullable = true)
 |        |-- A
 |        |-- B

所以 As 和 Bs 是固定的，但每个 JSON 文件都有不同的数字结构和不同的名称 (RfS,RtW) .. 可能是 2 .. 可能是 5 .. 具有我不知道的动态名称。

我怎样才能以动态的方式轻松地扁平化这个结构？

下一个解决方案是使用单个选择和chain https://stackoverflow.com/questions/952914/how-to-make-a-flat-list-out-of-list-of-lists用于展平最终列的函数：

from pyspark.sql.functions import col
from itertools import chain

jsonData = """{
  "A" : "some A",
  "Plugins": {
    "RfS": {
      "A" : "RfSA",
      "B" : "RfSB"
    },
    "RtW" : {
      "A" : "RtWA",
      "B" : "RtWA"
    }
  }
}"""

df = spark.read.json(sc.parallelize([jsonData]))

no_plug_cols = ["A"] # cols not in Plugins i.e A
plug_df = df.select("A", "Plugins.*")

# plug_df.printSchema()
# root
#  |-- A: string (nullable = true)
#  |-- RfS: struct (nullable = true)
#  |    |-- A: string (nullable = true)
#  |    |-- B: string (nullable = true)
#  |-- RtW: struct (nullable = true)
#  |    |-- A: string (nullable = true)
#  |    |-- B: string (nullable = true)

# note that we use sets i.e set(plug_df.columns) - set(no_plug_cols) to retrieve cols in Plugins only
icols = [(col(f"{c}.A").alias(f"{c}.A"), col(f"{c}.B").alias(f"{c}.B")) 
         for c in (set(plug_df.columns) - set(no_plug_cols))]

# we use chain to flatten icols which is a list of tuples
plug_df.select(no_plug_cols + list(chain(*icols))).show()

# +------+-----+-----+-----+-----+
# |     A|RfS.A|RfS.B|RtW.A|RtW.B|
# +------+-----+-----+-----+-----+
# |some A| RfSA| RfSB| RtWA| RtWA|
# +------+-----+-----+-----+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

apachesparksql

PySpark

在 PySpark 中展平动态嵌套结构（结构内的结构）的相关文章

Swift 4 使用随机密钥解码嵌套 JSON [重复]

这个问题在这里已经有答案了我是 Swift 4 的新手正在尝试从 Wikipedia API 解码此 JSON 我正在努力定义一个结构因为我发现的所有示例教程都仅嵌套 1 2 层深度除此之外当其中一个密钥是随机的时如何解码数据
Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
将打开关闭的 Google Chrome 浏览器添加到 Selenium linkedin_scraper 代码中

我正在尝试抓取一些知名人士的 LinkedIn 个人资料该代码获取一堆 LinkedIn 个人资料 URL 然后使用Selenium and scrape linkedin收集信息并将其作为 json 文件保存到文件夹中我遇到的问题是
创建圆形图像 PIL Tkinter

Currently I have a zoom feature in my application that works very well however I d like the actual zoom box to be a circ
使用信号时出现 django TransactionManagementError

我有一个与 django 的用户和 UserInfo 一对一的字段我想订阅用户模型上的 post save 回调函数以便我也可以保存 UserInfo receiver post save sender User def saveUse
引发 RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 导入 fitz 时目录 'static/' 不存在

当我运行 extract img py 文件时出现此错误 RuntimeError f 目录 directory 不存在运行时错误导入 fitz 时不存在目录 static 我不明白为什么这会给我发回此错误消息我之前看到过关于这个话题
通过鼻子测试检查某个函数是否发出警告

我正在使用编写单元测试nose http somethingaboutorange com mrl projects nose 0 11 2 我想检查函数是否引发警告该函数使用warnings warn 这是很容易就能做到的事情吗 def
Django 如何从 ManyToManyField 序列化并列出全部

我正在使用 Django 1 9 1 开发移动应用程序后端我实现了关注者模型现在我想列出用户的所有关注者但目前我不得不这样做我还使用 Django Rest 框架这是我的 UserProfile 模型 class UserProf
如何使用基于 Spring MVC 注解的 Portlet 控制器通过 AJAX 呈现 JSON 视图/响应？

在过去的六个小时里我在 Google 和 stackoverflow 上搜索了这个问题的答案我最初是一名 PHP 开发人员所以请耐心等待从 PHP 控制器返回 JSON 数组非常简单我正在使用 Spring MVC 3 0 我只想
angular.copy() 和 JSON.parse(JSON.stringify()) 之间的区别？

有人可以解释 angular copy 和 JSON parse JSON stringify 之间的区别吗有吗您会推荐使用什么 angular fromJson angular toJson 与 JSON parse JSON str
Selenium：等到 WebElement 中的文本发生变化

我在用着selenium使用Python 2 7 从网页上的搜索框检索内容搜索框动态检索结果并在框本身中显示结果 from selenium import webdriver from selenium webdriver common
在ansible中合并字典

我目前正在构建一个使用 ansible 安装 PHP 的角色并且在合并字典时遇到一些困难我尝试了多种方法来做到这一点但我无法让它像我想要的那样工作 A vars file my default values key value my
如何使用 jira-python 设置 fixVersions 字段

我正在尝试使用 jira python 模块 http jira python readthedocs org en latest 更新现有的 JIRA 具体来说我正在尝试设置问题的fixesVersion 列表我已经尝试了一段时间但没
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

目前我正在尝试构建一个我通过 buildozer 用 Python 和 Kivy 编写的应用程序无论我在做什么我都会遇到 window x11 的问题即使我在代码中注释掉所有与 Windows 相关的内容或执行本文中描述的所有操作这
如何在 Python 中执行相当于预处理器指令的操作？

有没有办法在 Python 中执行以下预处理器指令 if DEBUG lt do some code gt else lt do some other code gt endif There s debug 这是编译器预处理的特殊值 if
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
如何让你的精灵在pygame中跳跃

目前我已经制作了一个平台游戏可以左右移动我的角色他从地上开始关于如何让他跳的任何想法因为我不明白目前如果我按住向上键我的玩家精灵将连续向上移动或者如果我按下它我的玩家精灵将向上移动并保持向上我想找个办法远离他让我重新跌

随机推荐

为什么Go中可以在多个return语句中重新定义err

考虑下面的示例来说明这个问题它只是为了解释这个问题而构建的但我在书中以及实际项目中都看到了类似的代码 package main import strconv fmt log func main n1 err strconv Atoi 1
小部件预览图像

My app preview image looks like this 我怎样才能让它看起来像 WhatsApp 聊天预览小有阴影我手机中的其他应用程序也使用相同类型的预览我的小部件 xml
如何实现一个“更好”的Finally Rx操作符？

最近我意识到 RxFinally https learn microsoft com en us previous versions dotnet reactive extensions hh212133 v vs 103 操作符的行为方式
响应中的“Access-Control-Allow-Credentials”标头为“”，必须为“true”

我在后端使用 Node Express 在客户端使用 Angular4 这给了我以下错误 XMLHttpRequest 无法加载http localhost 4876 登录检查 http localhost 4876 login chec
如何使用 Python GZip 模块压缩文件夹？

我正在创建压缩文件文件夹的 Python 软件我将如何创建一段代码要求用户输入文件夹位置然后对其进行压缩我目前拥有单个文件的代码但没有包含完整文件的文件夹请详细解释如何执行此操作将文件夹压缩为 tar 文件的代码是 impo
Keras，训练模型后如何预测？

我正在使用 reuters example 数据集它运行良好我的模型已经过训练我阅读了有关如何保存模型的信息以便稍后加载它以再次使用但如何使用这个保存的模型来预测新文本呢我用吗models predict 我必须以特殊方式准备这
Oracle SQL 上的条件 SUM

我通过以下方式获得数据 ITEM LOCATION UNIT RETAIL QUANTITY 100 KS 10 10 200 KS 20 30 我想要正数量的总和数量 gt 0 和负数量的总和数量如何根据条件获得这些列的总和您可以
如何选择 UITextField？

我想在 UITableView 中编辑用户的用户名我向 UITableViewCell 添加了一个 UITextField 这似乎工作得很好但是当用户触摸单元格甚至在文本字段之外时他希望进行编辑如何以编程方式选择文本字段代码看
Spring Boot 自动将 JSON 转换为控制器中的对象

我有具有该依赖项的 Spring Boot 应用程序
React Router v5.1.2 公共和受保护的经过身份验证和基于角色的路由

目标是将 login 作为唯一的公共路由一旦登录用户就拥有基于用户角色的路由身份验证是使用 Keycloak 完成的我从 keycloak idTokenParsed preferred username 获取用户管理员经理工
是否可以将“文本”添加到 swig 中的现有类型映射中？

我发现了这个问题但一个答案基本上是你不想这样做使用 Swig 为 C 代码构建 C 包装器时是否可以向现有方法添加代码 https stackoverflow com questions 11286913 我实际上同意所描述的情况
我如何通过变量访问Android可绘制对象

如何通过变量访问 Android 绘图例子我有可绘制的 logo 1 png logo2 png logoN png 有什么办法让我可以做到这一点吗 String logopicker 1 logo setImageResource R
如何根据请求打开多个浏览器窗口？（PHP）

所以我有一个表格PHP HTML页用户将其提交给同一PHP HTML页现在我将拥有 PHP 页面 POST数据我想在刷新页面时选择一些弹出浏览器窗口其中 url 将相对于用户POST要求喜欢www example com bal
如何在 Node.js 中将字符串转换为变量名？ [复制]

这个问题在这里已经有答案了 Admin js var insertAdminFeed function s id timestamp var admin att new key 12345 var admin att new key2 ab
javascript 使用 unicode 进行排序

有很多按某些属性即标题对某些 JSON 数组进行排序的示例我们正在使用这样的比较函数 function sortComparer a b if a title b title return 0 return a1 gt b1 1 1
Spring 配置：无法找到 Spring NamespaceHandler

配置问题无法找到 XML 模式名称空间的 Spring NamespaceHandler http www springframework org schema tx http www springframework org schema
如何仅使用 CSS 来设置

注意这个问题不是关于制作自定义下拉菜单这只是关于造型的可能性
Jenkins Pipeline - 如何使用“工具”选项来指定自定义工具？

我通过自定义工具插件在 Jenkins 中定义了一个自定义工具如果我创建一个自由式项目Install custom tools选项在执行期间正确找到并使用该工具 Salesforce DX 但是我找不到通过管道文件执行相同操作的方法我
找不到方法：'System.Net.Http.HttpRequestMessage System.Web.Http.Controllers.HttpActionContext.get_Request()'

我创建了一个过滤器属性 public class AuthFilterAttribute System Web Http Filters ActionFilterAttribute public AuthFilterAttribute pu
在 PySpark 中展平动态嵌套结构（结构内的结构）

我正在努力展平结构内有结构的 JSON 模式问题是内部结构名称是动态的因此我无法使用轻松访问它们概念该架构类似于 root A string nullable true Plugins struct nullable true R

在 PySpark 中展平动态嵌套结构（结构内的结构）

在 PySpark 中展平动态嵌套结构（结构内的结构） 的相关文章

随机推荐

热门标签

在 PySpark 中展平动态嵌套结构（结构内的结构）的相关文章