Spark - 当数据框中不存在列时设置 null

2024-03-05

我正在加载许多版本的 JSON 文件来激发 DataFrame。一些文件包含 A、B 列还有一些 A、B、C 或 A、C..

如果我运行这个命令

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

df = sqlContext.sql("SELECT A,B,C FROM table")

加载几个后，我会收到错误“列不存在”，我只加载了不包含 C 列的文件。如何设置这个值null而不是得到错误？

DataFrameReader.json https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.json方法提供了可选的模式参数，您可以在此处使用。如果您的模式很复杂，最简单的解决方案是重用从包含所有字段的文件中推断出的模式：

df_complete = spark.read.json("complete_file")
schema = df_complete.schema

df_with_missing = spark.read.json("df_with_missing", schema)
# or
# spark.read.schema(schema).("df_with_missing")

如果您知道架构，但由于某种原因无法使用上面的架构，则必须从头开始创建它。

schema = StructType([
    StructField("A", LongType(), True), ..., StructField("C", LongType(), True)])

与往常一样，请务必在加载数据后执行一些质量检查。

Example（请注意，所有字段都是nullable):

from pyspark.sql.types import *

schema = StructType([
    StructField("x1", FloatType()),
    StructField("x2", StructType([
        StructField("y1", DoubleType()),
        StructField("y2", StructType([
            StructField("z1", StringType()),
            StructField("z2", StringType())
        ]))
    ])),
    StructField("x3", StringType()),
    StructField("x4", IntegerType())
])

spark.read.json(sc.parallelize(["""{"x4": 1}"""]), schema).printSchema()
## root
##  |-- x1: float (nullable = true)
##  |-- x2: struct (nullable = true)
##  |    |-- y1: double (nullable = true)
##  |    |-- y2: struct (nullable = true)
##  |    |    |-- z1: string (nullable = true)
##  |    |    |-- z2: string (nullable = true)
##  |-- x3: string (nullable = true)
##  |-- x4: integer (nullable = true)

spark.read.json(sc.parallelize(["""{"x4": 1}"""]), schema).first()
## Row(x1=None, x2=None, x3=None, x4=1)

spark.read.json(sc.parallelize(["""{"x3": "foo", "x1": 1.0}"""]), schema).first()
## Row(x1=1.0, x2=None, x3='foo', x4=None)

spark.read.json(sc.parallelize(["""{"x2": {"y2": {"z2": "bar"}}}"""]), schema).first()
## Row(x1=None, x2=Row(y1=None, y2=Row(z1=None, z2='bar')), x3=None, x4=None)

重要的:

此方法仅适用于 JSON 源，具体取决于实现细节。不要将其用于 Parquet 等来源。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

apachesparksql

PySpark

Spark - 当数据框中不存在列时设置 null 的相关文章

用于在 Windows 中自动执行桌面活动的 Python 代码

我想使用 Python 在 Windows 环境中自动化桌面活动怎样才能做到呢一些例子也会有帮助我所说的桌面活动是指控制鼠标和键盘访问活动窗口属性双击桌面上的图标最小化和最大化窗口通过键盘向输入弹出窗口输入数据等操作看一下S
AttributeError：模块“pandas”没有属性“read_csv”Python3.5

我已经成功使用pandas read csv很久以来当我尝试读取 csv 文件时突然开始出现错误 df pd read csv file csv encoding utf 8 错误是 AttributeError module pand
当图例位于轴之外时选择 matplotlib 图例

当我修改 legend picking py 示例时我遇到了一个有趣的怪癖其中图例位于轴之外如下所示 leg ax legend loc upper left fancybox True shadow True leg ax lege
动态添加jinja模板

我有一个 jinja 模板它是一组 div 标签内的唯一内容 div include temppage html div 当我按下按钮时我想用其他内容替换标签之间的所有内容我希望用另一个 jinja 模板 include realpa
通过 SSH 的 Pygame 不注册击键（Raspberry Pi 3）

所以我得到了 raspi 3 和简单的 8x8 LED 矩阵在玩了一些之后我决定用 pygame 的事件制作一个简单的蛇游戏显示在该矩阵上我之前没有 pygame 的经验除了 LED 矩阵之外没有连接任何屏幕显示器所以最初的
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
尽管 Matplotlib FuncAnimation(...,repeat=False) 保存的动画图不断循环

我想使用制作动画matplotlib进行 Powerpoint 演示动画应该只播放一次在我的代码中参数repeat of FuncAnimation 被设置为 false 因为我需要将图导入到powerpoint中所以我使用保存它a
根据Python中两行之间的匹配创建一个带有[0,1]的新列

我正在尝试将多个列表或数据帧与一个大型基础数据帧进行比较然后对于任何匹配我想附加一个存储 1 匹配或 0 不匹配的列 df pd DataFrame Name A B C D ID 5 6 6 7 8 9 7 list1 5 6 8 9
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
如何在 VS Code 宏中将焦点返回到编辑器，将 Python 文本发送到调试控制台？

我尝试按键绑定宏以将 python 文本发送到调试控制台并将焦点返回到 Visual Studio Code 中的编辑器这是我尝试过的安装了vscode python https marketplace visualstudio com
Unpivot Pandas 数据

我目前有一个DataFrame布置为 Jan Feb Mar Apr 2001 1 12 12 19 2002 9 2003 我想将数据逆透视使其看起来像 Date Value Jan 2001 1 Feb 2001 1 Mar 200
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de

随机推荐

条形图/折线图 - 仅显示最后一个数据点的标签

我无法获得条形图或折线图来显示 X 轴上的所有标签正如您在提供的打印屏幕中看到的只有最新的数据点显示其标签这是使用场景生成器时的情况我是否必须有一个带有用于 CategoriesAxis 的字符串的 ObservableList 我
PyQt 从 GUI 获取值

我使用构建了一个用户界面QtDesigner然后转换 ui to py 用户界面有不同comboBox and textBox单击运行按钮后我想从中读取值运行函数然后在计算完成后填充用户界面的其他文本框但是当我改变的值comboB
如何解决“重定向已被 CORS 策略阻止：没有“Access-Control-Allow-Origin”标头”？

我正在开发一个应用程序使用Vue js 根据我的设置当设置更改时我需要将变量传递给我的 URL get http 172 16 1 157 8002 firstcolumn c1v c1b function data some cod
STS 报告的动态 Web 模块版本错误

我使用 Spring 3 0 6 和 Maven 3 0 3 在 STS 2 9 2 中创建了一个 Web 项目我创建了一些页面和代码没有任何错误我已在项目的 pom xml 中将 Spring 库版本从 3 0 6 升级到 3 1
单击更改 div 的颜色和数字

我想在单击 div 时更改 html 元素的颜色和数量例如当您单击up arrow数字从 4 变为 5 颜色也变化也发生变化 initial state 4 upvoted 5 down voted 3 这是我到目前为止所拥有的我知
PHP导出rtf包含css文件

我想用php导出rtf文件但不知道为什么涉及到css文件当我打开一个带有扩展名的文件时 Rtf 与 Microsoft Office 2007 它说加载过程中以下区域出现了问题丢失文件 C Users 用户电脑 Downloads
sys.path 包括 py.test rootdir 以使测试相对于项目根目录导入

我在 pytest 中遇到问题未将我的项目 rootdir 包含在 sys path 列表中相反它包含默认情况下测试所在的目录这是我的项目结构 proj setup py mypackage init py a py tests t
计算机科学理论中该问题描述的正确问题名称/算法是什么？

问题是我有 X 个不同权重值的物品必须放入 Y 个容器中容器具有不同的尺寸例如容纳不同的最大重量每个集装箱的总装载量必须大致等于其他集装箱的装载量但集装箱不需要装满或最小化必须使用所有容器这让我想起了背包问题但是我有多个不
Serde 内部标记带有公共字段的枚举

我的 JSON 大致是这样的 commonA 1 commonB 2 type Foo fooSpecificA 3 fooSpecificB 4 commonA 5 commonB 6 type Bar barSpecificA 7 ba
如何克隆多个特定子模块？

我需要编写一个脚本来克隆升压库 https www boost org 但不幸的是存储库非常大之后我只需要使用一些子模块我想将它们存储在一个字符串变量中如下所示 MODULES tools build libs system 然后将
Window 中的 CommandBinding 无法捕获 ContextMenu 中命令的执行

一个非常简单明了的例子我有一扇窗户它设置了 CommandBindings 以捕获 RoutedUICommand 执行
Maven + FindBugs - 高优先级警告失败

我在一个大型项目中使用 Maven 和 FindBugs 如果 FindBugs 产生任何结果我想导致 Maven 构建失败high优先级错误可以在 pom xml 中设置一个简单的参数来失败errors但我需要它在高优先级警告上失败
我可以使用控制台应用程序进行屏幕截图或打印屏幕而不需要过多引用吗

我想知道是否有一种方法可以使用控制台应用程序对桌面进行屏幕截图而无需调用Windows窗体并致电SendKeys class 因为我刚刚创建了一个编译器它只能编译纯 C 控制台应用程序所以如果您添加引用它就不起作用因为它会抛出一些
将 hyperjaxb 采购订单导入 Eclipse 教程

我想从以下位置导入示例应用程序本教程 http confluence highsource org display HJ3 Purchase Order Tutorial进入日食我不断收到与文件放置位置相关的错误当我创建 Main 类来
对父窗体或目标控件使用 Invoke 有什么区别吗？

支票有什么区别InvokeRequired并打电话Invoke控制方法对于父窗体如果我想处理来自另一个线程的控件 if theForm InvokeRequired Invoke Or if myControl InvokeRequir
如何在 Eclipse 工作区中解决从一个 gradle 项目到另一 gradle 项目的依赖关系？

我的 Eclipse 工作区中有两个 gradle 项目我们称它们为 A 和 B 其中 A 取决于 B 项目 A 在其 build gradle 文件中声明了对 B 的依赖如下所示 dependencies compile some g
在课堂上保存文件或频道的好习惯

在下面的代码中我试图创建一个类当通过方法询问时它可以将一些内容写入日志文件在这里我想知道这是否是用于此目的的惯用方法或者可能有更推荐的方法例如保留一个单独的字段file类型出于某种原因换句话说即使我只持有一个实际上也
Highcharts 带线的堆叠柱形图

我想要这个堆积柱形图演示栏堆积 http jsfiddle net gh get jquery 1 9 1 highslide software highcharts com tree master samples highcharts d
实体框架：“存储更新、插入或删除语句影响了意外数量的行 (0)。” [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我正在使用实体框架来填充网格控件有时当我进行更新时我会收到以下错误存储更新插入或删除语句影响了意外数量的行 0
Spark - 当数据框中不存在列时设置 null

我正在加载许多版本的 JSON 文件来激发 DataFrame 一些文件包含 A B 列还有一些 A B C 或 A C 如果我运行这个命令 from pyspark sql import SQLContext sqlContext SQ

Spark - 当数据框中不存在列时设置 null

Spark - 当数据框中不存在列时设置 null 的相关文章

随机推荐

热门标签