Pyspark：从涉及数组列的 Json 架构创建架构

2024-01-03

我在 json 文件中定义了 df 的架构，如下所示：

{
    "table1":{
        "fields":[
            {"metadata":{}, "name":"first_name", "type":"string", "nullable":false},
            {"metadata":{}, "name":"last_name", "type":"string", "nullable":false},
            {"metadata":{}, "name":"subjects", "type":"array","items":{"type":["string", "string"]}, "nullable":false},
            {"metadata":{}, "name":"marks", "type":"array","items":{"type":["integer", "integer"]}, "nullable":false},
            {"metadata":{}, "name":"dept", "type":"string", "nullable":false}       
        ]
    }

}

EG JSON 数据：

{
    "table1": [
        {
            "first_name":"john",
            "last_name":"doe",
            "subjects":["maths","science"],
            "marks":[90,67],
            "dept":"abc"        
        },
        {
            "first_name":"dan",
            "last_name":"steyn",
            "subjects":["maths","science"],
            "marks":[90,67],
            "dept":"abc"        
        },
        {
            "first_name":"rose",
            "last_name":"wayne",
            "subjects":["maths","science"],
            "marks":[90,67],
            "dept":"abc"            
        },
        {
            "first_name":"nat",
            "last_name":"lee",
            "subjects":["maths","science"],
            "marks":[90,67],
            "dept":"abc"        
        },
        {
            "first_name":"jim",
            "last_name":"lim",
            "subjects":["maths","science"],
            "marks":[90,67],
            "dept":"abc"        
        }       
    ]
}

我想从这个 json 文件创建等效的 Spark 模式。下面是我的代码：（参考：从 json 模式表示创建 Spark 数据帧模式 https://stackoverflow.com/questions/40957585/create-spark-dataframe-schema-from-json-schema-representation)

with open(schemaFile) as s:
 schema = json.load(s)["table1"]
 source_schema = StructType.fromJson(schema)

如果我没有任何数组列，上面的代码可以正常工作。但如果我的架构中有数组列，则会抛出以下错误。

“无法解析数据类型：数组” （“无法解析数据类型：%s”json_value）

在您的情况下，数组的表示存在问题。正确的语法是：

{ "metadata": {}, "name": "marks", "nullable": true, "type": {"containsNull": true, "elementType": "long", "type": "array" } }.

为了从 json 检索模式，您可以编写下一个 pyspark 片段：

jsonData = """{
    "table1": [{
            "first_name": "john",
            "last_name": "doe",
            "subjects": ["maths", "science"],
            "marks": [90, 67],
            "dept": "abc"
        },
        {
            "first_name": "dan",
            "last_name": "steyn",
            "subjects": ["maths", "science"],
            "marks": [90, 67],
            "dept": "abc"
        },
        {
            "first_name": "rose",
            "last_name": "wayne",
            "subjects": ["maths", "science"],
            "marks": [90, 67],
            "dept": "abc"
        },
        {
            "first_name": "nat",
            "last_name": "lee",
            "subjects": ["maths", "science"],
            "marks": [90, 67],
            "dept": "abc"
        },
        {
            "first_name": "jim",
            "last_name": "lim",
            "subjects": ["maths", "science"],
            "marks": [90, 67],
            "dept": "abc"
        }
    ]
}"""

df = spark.read.json(sc.parallelize([jsonData]))

df.schema.json()

这应该输出：

{
    "fields": [{
        "metadata": {},
        "name": "table1",
        "nullable": true,
        "type": {
            "containsNull": true,
            "elementType": {
                "fields": [{
                    "metadata": {},
                    "name": "dept",
                    "nullable": true,
                    "type": "string"
                }, {
                    "metadata": {},
                    "name": "first_name",
                    "nullable": true,
                    "type": "string"
                }, {
                    "metadata": {},
                    "name": "last_name",
                    "nullable": true,
                    "type": "string"
                }, {
                    "metadata": {},
                    "name": "marks",
                    "nullable": true,
                    "type": {
                        "containsNull": true,
                        "elementType": "long",
                        "type": "array"
                    }
                }, {
                    "metadata": {},
                    "name": "subjects",
                    "nullable": true,
                    "type": {
                        "containsNull": true,
                        "elementType": "string",
                        "type": "array"
                    }
                }],
                "type": "struct"
            },
            "type": "array"
        }
    }],
    "type": "struct"
}

或者，您可以使用df.schema.simpleString()这将返回一个相对简单的模式格式：

struct<table1:array<struct<dept:string,first_name:string,last_name:string,marks:array<bigint>,subjects:array<string>>>>

最后，您可以将上面的模式存储到一个文件中，并稍后使用以下命令加载它：

import json
new_schema = StructType.fromJson(json.loads(schema_json))

正如你已经做的那样。Remember您也可以针对任何 json 数据动态实现所描述的过程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

DataFrame

PySpark

schema

Pyspark：从涉及数组列的 Json 架构创建架构的相关文章

pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
无法解析 JSON 文件中的 TAB

我在加载 JSON 文件时遇到解析问题这些文件似乎具有TAB他们身上的性格当我去http jsonlint com http jsonlint com 然后我输入带有 TAB 字符的部分 My String Foo bar Bar fo
pandas 使用日期时间对象重新索引 DataFrame

是否可以重新索引 pandasDataFrame使用由日期时间对象组成的列我有一个数据框df包含以下列 Int64Index 19610 entries 0 to 19609 Data columns cntr 19610 non nul
在嵌套 tibbles 上应用 ntile

我正在尝试申请ntile在一些嵌套的小标题上但我似乎无法让它工作你能看出我错在哪里吗 data iris iris gt group by Species gt mutate quintile ntile Petal Length 5
如何使用重复的键动态生成 JSON 对象？

我知道这听起来不可能但我的老板告诉我我必须使用 jQuery 通过 AJAX 后调用发送 JSON 并且必须具有重复的键问题是如果我写这样的东西 post someurl key1 value1 key2 value2 key2 v
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Rails：format.js 或 format.json，或两者？

可能很明显但我仍然缺乏基本知识那么在控制器内部两者都可以使用还是总是 Javascript 所以两者是相同的 json and js是两种不同类型的响应它们在 Rails 中被定义为不同的 MIME 类型 Mime Type re
OSError: [Errno 22] 当我尝试 .read() json 文件时

我只是想用 Python 读取我的 json 文件当我这样做时我位于正确的文件夹中我在下载中我的文件名为 Books 5 json 但是当我尝试使用 read 函数时出现错误 OSError Errno 22 Invalid
无法加载文件或程序集“Newtonsoft.Json”或其依赖项之一

首先它不仅仅是重复的以下问题的答案都不适合我 http goo gl tS40cn http goo gl tS40cn http goo gl pH6v2T http goo gl pH6v2T 我刚刚使用 Nuget 包管理器更新了
使用管道语法处理模型列表

我经常喜欢拟合和检查与 R 数据框中的两个变量相关的多个模型我可以使用如下语法来做到这一点 require tidyverse require broom models lt list hp exp cyl hp cyl map df m
使用 ActiveAndroid 库存储 HashMap

我有一堂课 Table name Control public class Control extends Model Column private String name Column private Map
按值对 JSON 进行排序

我有一个非常简单的 JSON 对象如下所示 people f name john l name doe sequence 0 title president url google com color 333333 f name micha
如何从 pandas 数据框中的列中删除字符串值

我正在尝试编写一些代码以逗号分隔数据帧列中的字符串因此它成为一个列表并从该列表中删除某个字符串如果存在删除不需要的字符串后我想再次以逗号加入列表元素我的数据框如下所示 df Column1 Column2 0 a a b c
根据 R 数据框中的名称对列进行平均

我想知道是否有一种有效的方法来获取每组的平均值类似命名的列谁的名字结尾为 1S and 2S ex ex1S ex2S at time 1并取每组的平均值类似命名的列谁的名字结尾为 1C or 2C ex ex1C ex2C at time
更改 JSON.NET 序列化属性名称的方式

如何更改 Newtonsoft JSON NET 序列化对象属性名称的方式有几种方法 You can manually control how it serializes using the JsonTextWriter class ht
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
JSONP 使用 JQuery 从 HTTPS 协议获取 JSON

我正在尝试获取从 https 安全站点发送的 JSON 客户端希望不要使用任何服务器端语言全部都是 Javascript 我读到当使用 Jquery 中的 ajax 函数时我必须使用 JSONP 才能从安全站点加载 JSON 我的第一
使用 Express.js 和 NodeJS，您可以通过响应正文中的重定向发送 JSON

我正在尝试通过 302 重定向发送 JSON 在 ExpressJS 中这可能吗 API 声明可以添加主体res json 例如 res json 302 name larry 在接收端重定向的目的地主体是空的这是一些示例代码发送应

随机推荐

如何以编程方式授权用户进入phpMyAdmin？

为了在 phpMyAdmin 中授权用户当我们的应用程序中满足特定条件时我们创建一个隐藏表单带有预先填写的用户名和密码并自动使用 JavaScript 提交该表单因此我们正在执行此技巧 if condition
Firestore 规则：当数据为数字时，条件检查失败

以下是当条件中使用的文档字段的数据类型为 number 时失败的示例规则 match message box user id inbox allow read if get users request auth uid data user
iOS：如何在 Swift 中创建可扩展的 TableView，而不使用第三方库或 pod

我已经用 swift 实现了 Tableview 但我想制作一个可扩展的 TableView 请给我一个想法这是Tableview的代码 MARK TableView Delegate and Datasource func tableV
在Android中设置ViewPager的默认页面

我使用以下代码 MAX 是 2 页默认位置为 0 并在右侧添加新页面我膨胀了两个布局文件如何在应用程序启动时显示 page1 并在左侧添加新页面谢谢 main xml
.NET：考虑夏令时

我有一个创建 UTC 的方法DateTime根据用户输入使用其地理位置的 GMT 偏移量 public static DateTime LocalToUtc int year int month int day int hour deci
底部按钮栏与 Listview 的最后一个元素重叠！

我有一个列表视图它是活动的一部分我希望用户可以选择批量删除列表视图中的项目因此当他从菜单中选择相应的选项时每个列表项旁边都会有一个复选框当用户单击任何复选框时按钮栏将从底部向上滑动如在 Gmail 应用程序中单击删除按钮将删
你什么时候想在 R 中设置新环境

根据 R 编程风格的讨论我看到有人曾经说过他将所有自定义函数放入一个新环境中并附加它我还记得 R 环境可能用作哈希表这样的风格好吗您什么时候想将数据功能放入新环境或者只是使用 GlobalEnv 等等 EDIT把我问题的第二部分
/usr/include/linux 和 Linux 内核源代码中的 include 文件夹有什么区别？

在新安装的 Ubuntu 上我在两个文件中都找到了内核头文件 usr include linux and usr src kernel version headers include linux 它们彼此相同吗 They are very
如何在 Liquid 的 for 循环中创建数组？

我正在尝试使用 Liquid 语法从对象列表创建一个数组 for operation in menuItems assign words1 operation Title split assign controllerName words1
从 C# 代码加密/解密连接字符串

有什么方法可以从我的 C 代码中实现连接字符串的加密和解密吗就像我们一样 aspnet regiis pe 连接字符串 aspnet regiis pd 连接字符串 Thanks static public void ProtectSec
如何显示/隐藏ReactJS组件

尝试学习 ReactJS 但令我困惑的是组件的渲染我见过的每个例子都定义了一个 React 组件类最后有类似的内容 React renderComponent
Pandas 系列到 json 并返回

我在将简单的 Pandas Series 转换为 json 字符串并返回时遇到一些问题这是我的尝试 import pandas as pd f pd Series data 1 0 2 0 3 0 index 10 20 30 x f t
在reactJS中每X秒发出一次API请求

进入时货币页面我试图从数据库获取currencyConversionRates 列表然后设置一个间隔以每6 秒不断获取新更新的currencyConversionRates 列表到目前为止一切正常但是我无法将 setInterv
网站项目与 Web 应用程序 - 哪个更好？

我刚刚开始使用cms N2 它有一个模板基本实现使用vs2008中的网站项目模板我注意到编译它比使用我更习惯的 Web 应用程序项目花费的时间要长得多我的问题是为什么编译似乎需要更长的时间使用哪个更好我应该将其转换为网络应用程序
从 javac 或 JRE 获取没有编译类的 java 类版本

Java 类版本可以使用以下命令从类二进制文件中获取javap javap verbose Test grep minor major minor version 0 major version 55 是否可以提前知道 JDK 将生成哪个类
您可以在代码中导入“devDependency”吗？

Mobx DevTool 的自述文件 https github com mobxjs mobx react devtools指导您将其安装为开发依赖项然后将其导入到您的代码中这对我来说似乎是一个问题因为 devDependencies
如何从给定的字符串中获取日期部分？

我有这样的字符串 Mon 14 May 2012 13 56 38 GMT 现在我只想约会即14 May 2012 为此我需要做什么正确的方法是将其解析为Date对象并按照您想要的方式格式化该日期对象 DateFormat inputD
将对象从 Java 传递到 Oracle 过程

要将数组传递给 oracle 过程我们使用ArrayDiscriptor and ARRAY 对象我必须使用什么对象来将对象传递给存储过程 ArrayDescriptor 和 ARRAY 类以及 StructDescriptor 和
如何在脚本中的多个文件中使用多个类？

我需要制作一个独立的 Groovy 脚本该脚本不需要编译并且无需安装 Groovy 即可运行它运行良好但无法识别除主脚本之外的任何其他脚本我的文件夹结构如下 libs groovy all 2 4 3 jar ivy 2 4 0 j
Pyspark：从涉及数组列的 Json 架构创建架构

我在 json 文件中定义了 df 的架构如下所示 table1 fields metadata name first name type string nullable false metadata name last name typ

Pyspark：从涉及数组列的 Json 架构创建架构

Pyspark：从涉及数组列的 Json 架构创建架构 的相关文章

随机推荐

热门标签

Pyspark：从涉及数组列的 Json 架构创建架构的相关文章