将 JSON 字符串列拆分为多列

2023-11-23

我正在寻找一个通用的解决方案来从 JSON 字符串列中提取所有 json 字段作为列。

df =  spark.read.load(path)
df.show()

“路径”中文件的文件格式是 parquet

样本数据

|id | json_data
| 1 | {"name":"abc", "depts":["dep01", "dep02"]}
| 2 | {"name":"xyz", "depts":["dep03"],"sal":100}
| 3 | {"name":"pqr", "depts":["dep02"], "address":{"city":"SF","state":"CA"}}

预期产出

|id | name    | depts              | sal | address_city | address_state
| 1 | "abc"   | ["dep01", "dep02"] | null| null         | null
| 2 | "xyz"   | ["dep03"]          | 100 | null         | null
| 3 | "pqr"   | ["dep02"]          | null| "SF"         | "CA"

我知道我可以通过创建定义了架构的 StructType 并使用“from_json”方法来提取列。

但这种方法需要手动模式定义。

val myStruct = StructType(
  Seq(
    StructField("name", StringType),
    StructField("depts", ArrayType(StringType)),
    StructField("sal", IntegerType)
  ))

var newDf = df.withColumn("depts", from_json(col("depts"), myStruct))

有没有更好的方法来展平 JSON 列而无需手动定义架构？在提供的示例中，我可以看到可用的 JSON 字段。但实际上，我无法遍历所有行来查找所有字段。

因此，我正在寻找一种解决方案，将所有字段拆分为列，而不指定列的名称或类型。

如果它是一个CSV文件，只有一列作为JSON数据。您可以使用以下解决方案。

val csvDF = spark.read.option("delimiter", "|").option("inferSchema", true).option("header", true).csv("test.csv")
val rdd = csvDF.select(" json_data").rdd.map(_.getString(0))
val ds = rdd.toDS
val jsonDF = spark.read.json(ds)
val jsonDFWithID = jsonDF.withColumn("id", monotonically_increasing_id())
val csvDFWithID = csvDF.select($"id ").withColumn("id", monotonically_increasing_id())
val joinDF = jsonDFWithID.join(csvDFWithID, "id").drop("id")

这就是最终数据框的样子。

scala> joinDF.printSchema()
root
 |-- address: struct (nullable = true)
 |    |-- city: string (nullable = true)
 |    |-- state: string (nullable = true)
 |-- depts: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- name: string (nullable = true)
 |-- sal: long (nullable = true)
 |-- id : double (nullable = true)

如果它是一个，以下解决方案将起作用JSON文件。为我。inferSchema工作得很好。

json文件

~/Downloads ▶ cat test.json
{"id": 1, "name":"abc", "depts":["dep01", "dep02"]},
{"id": 2, "name":"xyz", "depts" :["dep03"],"sal":100}

code

scala> scc.read.format("json").option("inerSchema", true).load("Downloads/test.json").show()
+--------------+---+----+----+
|         depts| id|name| sal|
+--------------+---+----+----+
|[dep01, dep02]|  1| abc|null|
|       [dep03]|  2| xyz| 100|
+--------------+---+----+----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Hadoop

PySpark

将 JSON 字符串列拆分为多列的相关文章

是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
如何找到两个数据帧之间的精确和非精确匹配？

我有两个数据框 df1 id amount fee 1 10 00 5 0 2 20 0 3 0 3 90 130 0 4 120 0 35 0 df2 exId exAmount exFee 1 10 00 5 0 2 20 0 3 0
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何处理 Spark 数据框中外连接的数据倾斜

我有两个数据框正在对 5 列执行外连接下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS

随机推荐

Android 音频：改变音调

SoundPool 的 Android 文档称该应用程序还可以通过实时调整多普勒或合成效果的播放速率来改变音调所以我尝试这样做使用 setRate 方法从一个音符平滑地变化到另一个音符但结果很糟糕声音变化非常参差不齐这是我尝试过
MySQL 使用 CONCAT 条件进行选择

我正在尝试在脑海中编译它我有一个包含名字和姓氏字段的表我有一个像 Bob Jones 或 Bob Michael Jones 这样的字符串以及其他几个字符串问题是例如我有鲍勃的名字以及迈克尔琼斯的姓氏所以我想 SELECT
Java流是否有相当于带有变量赋值的while

是否存在与以下内容等效的流 List
Tensorflow 从元图中打印所有占位符变量名称

我有一个张量流模型其中有 meta 和检查点文件我试图打印模型所需的所有占位符而不查看构建模型的代码以便我可以在不知道模型是如何创建的情况下构建输入 feed dict 作为参考这里是模型构建代码在另一个文件中 def save
优秀的 setjmp/longjmp 教程 [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案你好我想阅读有关 C 语言 setjmp longjmp 的优秀教程如果有真实的而不是人造的示例那就更好了 Thanks 这并不是一个真正的教程而是libpng 文档描述该库
应用程序更新后共享首选项丢失

我一整天都在研究这个问题以下是要点共享首选项should当用户更新应用程序时保持持久性就我而言更新应用程序后它们丢失了这个问题每次都会重现我从 Play 商店安装旧的 APK 然后adb install r new apk使用
色彩校正 MP4/Webm 视频

我有一个大型视频其中一些动画对于其他嵌入方法 gif png 序列等来说太复杂太长并且我们遇到了视频中颜色的问题本质上我们将网页背景作为视频的一部分以防止视频播放时出现任何边缘我们正在尝试使视频上的渐变背景与网页上的渐变背景
Jenkins 的 Github 插件获取提交者和作者姓名

如果我理解得很好 git 插件会将提交者和作者的姓名以及电子邮件暴露给环境变量GIT AUTHOR NAME GIT COMMITTER NAME GIT AUTHOR EMAIL and GIT COMMITTER EMAIL基于git的
Netbeans 等待连接到 XDEBUG

Netbeans 不会连接到 xdebug 我尝试过以下帖子中的建议调试 IDE 与 XDebug 的端口连接等待连接 netbeans 显示正在等待连接 netbeans xdebug 但这并不能解决我的问题 Netbeans 似乎
带分隔符的 Android 列表视图

我想创建一个带有分隔符的列表视图就像在默认联系人应用程序中一样我的应用程序需要对列表进行排序并用分隔符分隔项目如联系人应用程序中的字母顺序排序能够使用分隔符标题进行滚动将是一个额外的优势任何指示都会有帮助谢谢看看这个开源项目
为什么 numpy.dtype('float64') 很特别？

有人可以解释以下脚本输出背后的逻辑吗 import numpy if numpy dtype numpy float64 None print Surprise 谢谢看起来像是一场不幸的事故有人决定dtype None 将默认浮动
如何创建可重用的表单 Vue 组件

假设我想创建一个联系表单在此联系表单中用户可以有多个地址我认为这是使用 Vue 组件的绝佳机会这样我就不必创建冗余的地址表单字段然后我就可以在网站的不同区域使用这个组件比如编辑创建等我将如何创建一个父级可以使用的表单组件并
将参数传递给 Dart Polymer 元素

我能找到的 Dart Polymer 的唯一可靠示例不使用任何参数如何将参数传递给模板是通过构造函数完成的吗我的具体示例是我有一个带有标题的卡片元素我想将卡片的标题作为字符串传递给该元素我看过将数据传递给 Polymer 元素
使用 CLASP 测试 GAS 时如何模拟依赖关系

背景我最近了解到CLASP并对使用的可能性感到兴奋TDD编辑我的谷歌应用脚本天然气本地 NOTE 可能有一种方法可以使用现有的 GAS 编辑器编写测试但如果可能的话我更愿意使用现代编辑器 clasp 效果很好但我无法弄清楚如何
谷歌图表时间线水平滚动

我有一个时间线图表与本页的第一个示例非常相似 https developers google com chart interactive docs gallery timeline 我在 Y 轴上有活动做午餐吃饭等等在 X 轴上我
使用 Django ORM 处理大量大记录

我有一个包含大约 30k 记录的表我正在尝试使用 Django 的 ORM 对其进行迭代和处理每条记录存储几个二进制 blob 每个二进制 blob 的大小可以是几 MB 我需要对其进行处理并将其写入文件然而由于内存限制我在使用
在C中显示颜色数组[关闭]

Closed 这个问题需要细节或清晰度目前不接受答案我的程序既写入又读取颜色数组如下所示 struct Image size t width size t height struct Color data struct Color c
将非 ASCII 字符输入到 scanf("%s")

有没有一种方法可以向使用的 scanf 发出非 ascii 十六进制字符 s 我正在尝试插入十六进制字符例如 x08 xDE xAD等等以演示缓冲区溢出输入不是命令行参数而是程序内的 scanf 我假设您想在标准输入上提供任意数据
从共享库获取枚举定义

我正在使用 ctypes 访问用 C 编写的共享库共享库的 C 源代码包含一个枚举例如 enum invalid 0 type1 1 type2 2 type enum 在Python方面我打算只为各种枚举值定义整数常量例如 INV
将 JSON 字符串列拆分为多列

我正在寻找一个通用的解决方案来从 JSON 字符串列中提取所有 json 字段作为列 df spark read load path df show 路径中文件的文件格式是 parquet 样本数据 id json data 1 name

将 JSON 字符串列拆分为多列

将 JSON 字符串列拆分为多列 的相关文章

随机推荐

热门标签

将 JSON 字符串列拆分为多列的相关文章