Spark中json字符串和DataFrame相互转换

2023-11-10

本文介绍基于Spark（2.0+）的Json字符串和DataFrame相互转换。

json字符串转DataFrame

spark提供了将json字符串解析为DF的接口，如果不指定生成的DF的schema，默认spark会先扫码一遍给的json字符串，然后推断生成DF的schema：

若列数据全为null会用String类型
整数默认会用Long类型
浮点数默认会用Double类型

val json1 = """{"a":null, "b": 23.1, "c": 1}"""
val json2 = """{"a":null, "b": "hello", "d": 1.2}"""

val ds = spark.createDataset(Seq(json1, json2))
val df = spark.read.json(ds)
df.show
df.printSchema

+----+-----+----+----+
|   a|    b|   c|   d|
+----+-----+----+----+
|null| 23.1|   1|null|
|null|hello|null| 1.2|
+----+-----+----+----+

root
 |-- a: string (nullable = true)
 |-- b: string (nullable = true)
 |-- c: long (nullable = true)
 |-- d: double (nullable = true)

若指定schema会按照schema生成DF：

schema中不存在的列会被忽略
可以用两种方法指定schema，StructType和String，具体对应关系看后面
若数据无法匹配schema中类型：若schema中列允许为null会转为null；若不允许为null会转为相应类型的空值（如Double类型为0.0值），若无法转换为值会抛出异常

val schema = StructType(List(
        StructField("a", ByteType, true),
        StructField("b", FloatType, false),
        StructField("c", ShortType, true)
    ))
//或 val schema = "b float, c short"  
val df = spark.read.schema(schema).json(ds)
df.show
df.printSchema

+----+----+----+
|   a|   b|   c|
+----+----+----+
|null|23.1|   1|
|null|   0|null|
+----+----+----+

root
 |-- a: byte (nullable = true)
 |-- b: float (nullable = true)
 |-- c: short (nullable = true)

json解析相关配置参数

primitivesAsString (default false): 把所有列看作string类型
prefersDecimal(default false): 将小数看作decimal，如果不匹配decimal,就看做doubles.
allowComments (default false): 忽略json字符串中Java/C++风格的注释
allowUnquotedFieldNames (default false): 允许不加引号的列名
allowSingleQuotes (default true): 除双引号外，还允许用单引号
allowNumericLeadingZeros (default false): 允许数字中额外的前导0（如0012）
allowBackslashEscapingAnyCharacter (default false): 允许反斜杠机制接受所有字符
allowUnquotedControlChars (default false): 允许JSON字符串包含未加引号的控制字符（值小于32的ASCII字符，包括制表符和换行字符）。

mode (default PERMISSIVE): 允许在解析期间处理损坏记录的模式。

PERMISSIVE :当遇到损坏的记录时，将其他字段设置为null，并将格式错误的字符串放入由columnNameOfCorruptRecord配置的字段中。若指定schema，在schema中设置名为columnNameOfCorruptRecord的字符串类型字段。如果schema中不具有该字段，则会在分析过程中删除损坏的记录。若不指定schema（推断模式），它会在输出模式中隐式添加一个columnNameOfCorruptRecord字段。
DROPMALFORMED : 忽略整条损害记录
FAILFAST : 遇到损坏记录throws an exception
columnNameOfCorruptRecord (默认值为spark.sql.columnNameOfCorruptRecord的值):允许PERMISSIVE mode添加的新字段，会重写spark.sql.columnNameOfCorruptRecord

dateFormat (default yyyy-MM-dd): 自定义日期格式，遵循java.text.SimpleDateFormat格式. 只有日期部分（无详细时间）
timestampFormat (default yyyy-MM-dd’T’HH:mm:ss.SSSXXX): 自定义日期格式，遵循java.text.SimpleDateFormat格式. 可以有详细时间部分（到微秒）
multiLine (default false): 解析一个记录，该记录可能跨越多行，每个文件

以上参数可用option方法配置：

val stringDF = spark.read.option("primitivesAsString", "true").json(ds)
stringDF.show
stringDF.printSchema

+----+-----+----+----+
|   a|    b|   c|   d|
+----+-----+----+----+
|null| 23.1|   1|null|
|null|hello|null| 1.2|
+----+-----+----+----+

root
 |-- a: string (nullable = true)
 |-- b: string (nullable = true)
 |-- c: string (nullable = true)
 |-- d: string (nullable = true)

二进制类型会自动用base64编码方式表示

‘Man’（ascci） base64编码后为：”TWFu”


val byteArr = Array('M'.toByte, 'a'.toByte, 'n'.toByte)
val binaryDs = spark.createDataset(Seq(byteArr))
val dsWithB64 = binaryDs.withColumn("b64", base64(col("value")))

dsWithB64.show(false)
dsWithB64.printSchema

+----------+----+
|value     |b64 |
+----------+----+
|[4D 61 6E]|TWFu|
+----------+----+

root
 |-- value: binary (nullable = true)
 |-- b64: string (nullable = true)

//=================================================

dsWithB64.toJSON.show(false)
+-----------------------------+
|value                        |
+-----------------------------+
|{"value":"TWFu","b64":"TWFu"}|
+-----------------------------+

//=================================================

val json = """{"value":"TWFu"}"""
val jsonDs = spark.createDataset(Seq(json))
val binaryDF = spark.read.schema("value binary").json(jsonDs )

binaryDF.show
binaryDF.printSchema

+----------+
|     value|
+----------+
|[4D 61 6E]|
+----------+

root
 |-- value: binary (nullable = true)

指定schema示例：

以下是Spark SQL支持的所有基本类型：

val json = """{"stringc":"abc", "shortc":1, "integerc":null, "longc":3, "floatc":4.5, "doublec":6.7, "decimalc":8.90, "booleanc":true, "bytec":23, "binaryc":"TWFu", "datec":"2010-01-01", "timestampc":"2012-12-12 11:22:22.123123"}"""
val ds = spark.createDataset(Seq(json))
val schema = "stringc string, shortc short, integerc int, longc long, floatc float, doublec double, decimalc decimal(10, 3), booleanc boolean, bytec byte, binaryc binary, datec date, timestampc timestamp"
val df = spark.read.schema(schema).json(ds)
df.show(false)
df.printSchema

+-------+------+--------+-----+------+-------+--------+--------+-----+----------+----------+-----------------------+
|stringc|shortc|integerc|longc|floatc|doublec|decimalc|booleanc|bytec|binaryc   |datec     |timestampc             |
+-------+------+--------+-----+------+-------+--------+--------+-----+----------+----------+-----------------------+
|abc    |1     |null    |3    |4.5   |6.7    |8.900   |true    |23   |[4D 61 6E]|2010-01-01|2012-12-12 11:22:22.123|
+-------+------+--------+-----+------+-------+--------+--------+-----+----------+----------+-----------------------+

root
 |-- stringc: string (nullable = true)
 |-- shortc: short (nullable = true)
 |-- integerc: integer (nullable = true)
 |-- longc: long (nullable = true)
 |-- floatc: float (nullable = true)
 |-- doublec: double (nullable = true)
 |-- decimalc: decimal(10,3) (nullable = true)
 |-- booleanc: boolean (nullable = true)
 |-- bytec: byte (nullable = true)
 |-- binaryc: binary (nullable = true)
 |-- datec: date (nullable = true)
 |-- timestampc: timestamp (nullable = true)

复合类型：

val json = """
{
  "arrayc" : [ 1, 2, 3 ],
  "structc" : {
    "strc" : "efg",
    "decimalc" : 1.1
  },
  "mapc" : {
    "key1" : 1.2,
    "key2" : 1.1
  }
}
"""
val ds = spark.createDataset(Seq(json))
val schema = "arrayc array<short>, structc struct<strc:string, decimalc:decimal>, mapc map<string, float>"
val df = spark.read.schema(schema).json(ds)
df.show(false)
df.printSchema

+---------+--------+--------------------------+
|arrayc   |structc |mapc                      |
+---------+--------+--------------------------+
|[1, 2, 3]|[efg, 1]|[key1 -> 1.2, key2 -> 1.1]|
+---------+--------+--------------------------+

root
 |-- arrayc: array (nullable = true)
 |    |-- element: short (containsNull = true)
 |-- structc: struct (nullable = true)
 |    |-- strc: string (nullable = true)
 |    |-- decimalc: decimal(10,0) (nullable = true)
 |-- mapc: map (nullable = true)
 |    |-- key: string
 |    |-- value: float (valueContainsNull = true)

SparkSQL数据类型

基本类型：

DataType	simpleString	typeName	sql	defaultSize	catalogString	json
StringType	string	string	STRING	20	string	“string”
ShortType	smallint	short	SMALLINT	2	smallint	“short”
IntegerType	int	integer	INT	4	int	“integer”
LongType	bigint	long	BIGINT	8	bigint	“long”
FloatType	float	float	FLOAT	4	float	“float”
DoubleType	double	double	DOUBLE	8	double	“double”
DecimalType(10,3)	decimal(10,3)	decimal(10,3)	DECIMAL(10,3)	8	decimal(10,3)	“decimal(10,3)”
BooleanType	boolean	boolean	BOOLEAN	1	boolean	“boolean”
ByteType	tinyint	byte	TINYINT	1	tinyint	“byte”
BinaryType	binary	binary	BINARY	100	binary	“binary”
DateType	date	date	DATE	4	date	“date”
TimestampType	timestamp	timestamp	TIMESTAMP	8	timestamp	“timestamp”

三个复合类型：

DataType	simpleString	typeName	sql	defaultSize	catalogString	json
ArrayType(IntegerType, true)	array<int>	array	ARRAY<INT>	4	array<int>	{“type”:”array”,”elementType”:”integer”,”containsNull”:true}
MapType(StringType, LongType, true)	map<string,bigint>	map	MAP<STRING, BIGINT>	28	map<string,bigint>	{“type”:”map”,”keyType”:”string”,”valueType”:”long”,”valueContainsNull”:true}
StructType(StructField(“sf”, DoubleType)::Nil)	struct<sf:double>	struct	STRUCT<`sf`: DOUBLE>	8	struct<sf:double>	{“type”:”struct”,”fields”:[{“name”:”sf”,”type”:”double”,”nullable”:true,”metadata”:{}}]}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据

spark

json

DataFrame

转换

Spark中json字符串和DataFrame相互转换的相关文章

jQuery：评估 ajax 响应中的脚本

来自我的 web 应用程序的 XML 响应既有要添加到页面的 HTML 也有要运行的脚本我正在尝试从我的网络应用程序发回 XML 例如
如何告诉杰克逊在反序列化期间忽略空对象？

在反序列化过程中据我理解是将JSON数据转换为Java对象的过程我如何告诉Jackson 当它读取不包含数据的对象时应该忽略它我正在使用 Jackson 2 6 6 和 Spring 4 2 6 我的控制器收到的JSON数据如下 i
来自 geoJSON 的 Google 地图航点

我想从 geoJSON 文件加载行程目前来说它是有效的但只有两点但我需要添加 4 或 5 个航路点我的代码只读取前两个点并将它们设置为起点和目的地这是我的代码 google maps event addListener map
使用 JSON.NET 反序列化一些 JSON

我对 JSON 非常陌生我需要解析 API 提供的一些内容谷歌快速搜索出现了JSON NET http james newtonking com pages json net aspx 所以我现在尝试使用它将此 JSON 解析为列表对象
如何使用复杂对象或json在ng-table中添加动态列？

我有以下 ng table 代码参见笨蛋 http plnkr co edit oTxkmtAwt22gtO2JDPg4 p preview var app angular module main ngTable controller D
Pandas DataFrame styler - 如何将 pandas dataframe 设置为 Excel 表的样式？

如何将 pandas 数据框设置为 Excel 表格替代行颜色样品样式样本数据 import pandas as pd import seaborn as sns df sns load dataset tips 如果你的最终目标是拯
C#：asp.net 3.5：反序列化 JSON - 如何获取每个对象字符串？

我知道还有其他地方给出了这个答案但我想要实现的目标更复杂这是我的反序列化代码这是 json 数据例如 data ShiftID 2 EmpName dsdsfs Dictionary
PHP：__toString() 和 json_encode() 不能很好地协同工作

我遇到了一个奇怪的问题我不知道如何解决它我有几个类它们都是 JSON 对象的 PHP 实现这是问题的说明 class A protected a public function construct this gt a array n
Swift 4 使用随机密钥解码嵌套 JSON [重复]

这个问题在这里已经有答案了我是 Swift 4 的新手正在尝试从 Wikipedia API 解码此 JSON 我正在努力定义一个结构因为我发现的所有示例教程都仅嵌套 1 2 层深度除此之外当其中一个密钥是随机的时如何解码数据
等待 JavaScript 中 Json 调用完成

我正在使用下面的json调用在我的 javascript 方法中 function go123 var cityName var temp getJSON https abc in api city callback args functi
如何使用基于 Spring MVC 注解的 Portlet 控制器通过 AJAX 呈现 JSON 视图/响应？

在过去的六个小时里我在 Google 和 stackoverflow 上搜索了这个问题的答案我最初是一名 PHP 开发人员所以请耐心等待从 PHP 控制器返回 JSON 数组非常简单我正在使用 Spring MVC 3 0 我只想
嵌套对象的 AJV 模式验证

函数返回的对象看起来像这样 answer vehicle type 1 message Car model VW color red 答案对象始终存在其他字段基于 vehicle type E g 如果vehicle type 1 则有
对数据框的行进行排序

我有以下数据框 adjusted RFC df Node Feature Indicator Scaled Class Direction True False 0 0 km lt 0 181 class 4 0 gt 1 NA 125 1
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
如何使用 JSON 结果更新 Extjs 进度条？

我在让进度条从 Json 结果中检索进度并根据每 10 秒的计时器检查更新进度条时遇到一些困难我可以创建这样的 json 结果 success true progress 0 2 我想总体思路是我需要一个间隔设置为 10 秒的任务并让
如何使用 fs.copyTpl 忽略 Yeoman 中的文件

我怎样才能忽略文件我想排除任何子目录中以开头的所有文件我使用这两种方法没有成功 this fs copyTpl this templatePath basicFiles this destinationPath answers ign
根据随机选择的列生成随机天数

我有一个如下所示的数据框感谢 SO 社区在以下方面提供的帮助 df1 pd DataFrame person id 11 11 12 13 14 date birth 01 01 1961 12 30 1961 05 29 1967 01
根据 pandas 中的条件交换列值

我想按条件重新定位列如果国家地区是日本我需要将姓氏和名字反向重新定位 df pd DataFrame France Kylian Mbappe Japan Hiroyuki Tajima Japan Shiji Kagawa Eng
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
杰克逊.将缺失的属性反序列化为空Optional

假设我有一堂这样的课 public static class Test private Optional

随机推荐

【电气专业知识问答】问：蓄电池组、直流电源系统是由哪几部分组成？

电气专业知识问答问蓄电池组直流电源系统是由哪几部分组成答蓄电池组直流电源系统通常是由直流充电装置及其监控系统蓄电池组及其检测装置直流馈线输出屏直流绝缘监察装置等组成的 1 充电装置直流充电装置当今多采用高频开关电源或相控型
《疯狂Java讲义》读书笔记（四）：Java基础类库

第七章 Java基础类库使用Scanner获取键盘输入 Scanner类提供了多个构造器不同构造器可以接收文件输入流字符串作为数据源主要提供了2个方法 hasNextXXX 是否还有下一个输入项 XXX可以表示Int Long等
记录SQL Server数据库中如何指定用户查看指定的视图

exec sp addrole seeview 创建了一个数据库角色名称为 seeview 分配视图权限 GRANT SELECT ON veiw TO 角色指定视图列表指定seeview这个角色可以查看的视图表名称也就是这个角色可
QuickCam Gev 2.0 开发

安装 QuickCam Gev2 0 版本比较老了是2012 年还没被Dalsa收购时候的产品因为项目需要开发了其驱动安装QuickCam Gev2 0的时候Ebus卡住安装不上但是不能cancel了打开QuickCamGev
spyder_console窗口错误_An error ocurred while starting the kernel

按照上面的要求安装spyder kernels 但是依然出错通过观察右下角发现spyder选用的python版本是python3 9 16 而自己通过python版本查看发现默认的3 9 13 所以安装好的是base环境3 9 13 切换
java中JVM的原理

看过JVM讲解最好的一 Java虚拟机的生命周期 Java虚拟机的生命周期一个运行中的Java虚拟机有着一个清晰的任务执行Java程序程序开始执行时他才运行程序结束时他就停止你在同一台机器上运行三个程序就会有三个运行中的Jav
erpadmin答疑为什么企业有很多“不上ERP等死，上了ERP找死”

不上ERP等死上了ERP找死如何破除这个魔咒希望erpadmin总结的如何做好ERP系统实施工作的方法对你有所启发 ERP是建立在信息技术基础上整合了企业管理理念业务流程基础数据人力物力财力计算机硬件和软件于一体的企业资源
使用B站API:http://api.bilibili.com/x/space/upstat?mid=2026561407获取播放量、点赞量的返回报文中data数据缺失问题排查（已解决）

背景想要用ESP32获取一些b站上的数据粉丝量播放量等数据获取粉丝数的API http api bilibili com x relation stat vmid 2026561407 获取播放量的API http api bilibi
script 标签 async 属性

script 标签 async 属性普通script 文档解析的过程中如果遇到script脚本就会停止页面的解析进行下载但是Chrome会做一个优化如果遇到script脚本会快速的查看后边有没有需要下载其他资源的如果有的话会
python-django的JsonResponse返回中文数据编码问题

JsonResponse res 方法1 直接加这一句即可 json dumps params ensure ascii False return JsonResponse user 王 password 123456 json dumps
一文读懂卷积神经网络CNN（学习笔记）

来源机器学习算法与自然语言处理作者白雪峰本文为图文结合建议阅读10分钟本文为大家解读如何简单明了的解释卷积并且分享了学习中的一些方法案例首先文章的提纲为 CNN栗子镇楼 What is CNN
期货交易大神的分享，有用的策略

1 每天只做一次开盘后行情形成后开仓 2 在价格走势很慢的时候进入开完仓价格朝着不利方向走就无条件平仓当天不再做第二次 3 开完仓价格朝着有利的一侧运行后确认后在开仓价设好止损通过条件单或闪电手自动止损功能不再关注行情收盘之
#pragma once用法总结，及与 #ifndef方式的区别

1 pragmaonce这个宏有什么作用为了避免同一个头文件被包含 include 多次 C C 中有两种宏实现方式一种是 ifndef方式另一种是 pragma once方式在能够支持这两种方式的编译器上二者并没有太大的区别但
MATLAB 学习笔记（3）MATLAB 矩阵的进阶操作

目录 MATLAB 矩阵标量操作实际例子 MATLAB 矩阵的转置实际例子 MATLAB 串联矩阵实际例子 MATLAB 矩阵的行列式 MATLAB 逆矩阵详细例子 MATLAB 矩阵标量操作标量指的是只有大小没有方向的数与之相
大学数学竞赛常用不等式_第三届全国大学生数学竞赛初赛（专业组）

系列传送门陆艺第一届全国大学生数学竞赛初赛专业组陆艺第二届全国大学生数学竞赛初赛专业组陆艺第三届全国大学生数学竞赛初赛专业组陆艺第四届全国大学生数学竞赛初赛专业组陆艺第五届全国大学生数学竞赛初赛专业组陆艺第
SpringBoot+MyBatis:解决前端上传文件并将url保存到数据库

前言最近也是遇到了这个问题最后成功解决前期在网上搜索了很多内容发现都很复杂而且都不尽相同况且不同的开发软件不同的配置都会增加我们参考时的麻烦这里为大家放上了更加简便的方法开发软件 SpringToolSuite4 个人认为比
Allegro如何取消网络高亮

有时PCB里面不知道为什么有很多网络和焊盘高亮看着很不协调想要取消高亮的方法为先点击Dehilight 然后在Options的Dehighligh all里面选择all 如下图高亮取消高亮
关于单片机头文件的使用方法

在单片机的使用中我们经常会在文件的开始部分进行头文件的定义即使我们在编写十分简单的LED驱动程序时往往也引用了头文件 include
AttributeError: module ‘time‘ has no attribute ‘clock‘

报错 AttributeError module time has no attribute clock 原因是 Python3 8 不再支持time clock 但在调用时非本工程文件CBTaggingDecoder依然包含该方法修改
Spark中json字符串和DataFrame相互转换

本文介绍基于Spark 2 0 的Json字符串和DataFrame相互转换 json字符串转DataFrame spark提供了将json字符串解析为DF的接口如果不指定生成的DF的schema 默认spark会先扫码一遍给的json字