Spark DataFrame 架构可为空字段

2024-02-11

我在 Scala 和 Python 中编写了以下代码，但是返回的 DataFrame 似乎没有应用我正在应用的架构中的非空字段。italianVotes.csv是一个 csv 文件，以“~”作为分隔符和四个字段。我正在使用火花2.1.0.

意大利投票.csv

2657~135~2~2013-11-22 00:00:00.0
2658~142~2~2013-11-22 00:00:00.0
2659~142~1~2013-11-22 00:00:00.0
2660~140~2~2013-11-22 00:00:00.0
2661~140~1~2013-11-22 00:00:00.0
2662~1354~2~2013-11-22 00:00:00.0
2663~1356~2~2013-11-22 00:00:00.0
2664~1353~2~2013-11-22 00:00:00.0
2665~1351~2~2013-11-22 00:00:00.0
2667~1357~2~2013-11-22 00:00:00.0

Scala

import org.apache.spark.sql.types._
val schema =  StructType(
StructField("id", IntegerType, false) ::
StructField("postId", IntegerType, false) ::
StructField("voteType", IntegerType, true) ::
StructField("time", TimestampType, true) :: Nil)

val fileName = "italianVotes.csv"

val italianDF = spark.read.schema(schema).option("sep", "~").csv(fileName)

italianDF.printSchema()

// output
root
 |-- id: integer (nullable = true)
 |-- postId: integer (nullable = true)
 |-- voteType: integer (nullable = true)
 |-- time: timestamp (nullable = true)

Python

from pyspark.sql.types import *

schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("postId", IntegerType(), False),
    StructField("voteType", IntegerType(), True),
    StructField("time", TimestampType(), True),
])

file_name = "italianVotes.csv"

italian_df = spark.read.csv(file_name, schema = schema, sep = "~")

# print schema
italian_df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- postId: integer (nullable = true)
 |-- voteType: integer (nullable = true)
 |-- time: timestamp (nullable = true)

我的主要问题是，当我在架构中将前两个字段设置为不可为空时，为什么它们可以为空？

一般情况下火花Datasets要么继承nullable来自其父级的属性，或根据外部数据类型进行推断。

你可以争论这是否是一个好方法，但最终它是明智的。如果数据源的语义不支持可为空性约束，那么模式的应用程序也不支持。归根结底，假设事情可以解决总是更好null，如果相反的假设被证明是不正确的，那么运行时就会失败。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

Spark DataFrame 架构可为空字段的相关文章

在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
Spark：有没有办法打印出spark-shell和spark的类路径？

我可以在 Spark shell 中成功运行 Spark 作业但是当它打包并通过 Spark submit 运行时我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配有没有办法可以比较两个类路径某种日志记录语句
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的

随机推荐

错误：stdClass 类的对象无法转换为字符串

当我运行下面的代码时 id Input get branch id retailer code DB table branches gt select retailer code gt where id id gt first user n
Azure 上的 Web Api 使用“return InternalServerError(ex)”不显示错误详细信息

我的 Web Api 在本地运行时在发布模式下将返回以下格式的任何错误 Message An error has occurred ExceptionMessage No text specified ExceptionType Sys
如何在 PrimeFaces 中的 CommandButton 上定义带有闭包的 oncomplete 事件？

我正在使用一些 JavaScript 交互性扩展 PrimeFaces 应用程序的一部分一切都始于CommandButton它从 bean 获取一些数据并调用 JavaScript 目前它看起来像这样
如何显示xml文件中的视频？

您好我使用下面给出的 xml 文件如何从 xml 文件获取视频
使用CMD在Mysql中导入压缩文件

我正在尝试使用命令提示符将压缩数据库文件导入 Mysql 使用以下命令 7z lt backup sql 7z mysql u root test The root user don t有什么password与之相关 test是我的目标空白
WinForm应用程序数据持久化（C#）

我相信 ASP NET 应用程序中可变短期持久性的最佳方法是会话变量会话范围应用变量应用范围页面视图页面范围应用设置应用范围 Windows 窗体应用程序中可变短期持久性的最佳方法是什么表格范围用户会话范围应用
如何将数据转换为非等列？

我有一个事件数据集按以下分组let像这样 set seed 3 events lt data frame let rep LETTERS 1 2 each 3 age c 0 sample 1 20 size 2 0 sample 1 2
使用 boost 的 async_write 的异步 tcp 服务器会导致错误的文件描述符

首先我不是以英语为母语的人所以我可能会犯一些语法错误对此感到抱歉我正在尝试使用 C 和 Boost 创建一个异步 TCP 服务器我已经成功接受客户并收到他们的消息但我无法回复他们的消息我想要实现的是在 TCPServer 类上
从 Xamarin / C# 中的 URL 加载 UIImage

已经过去4年了这个问题 https stackoverflow com questions 2095635 load an image from a url已得到答复这篇博文 http escoz com blog displaying w
使用 PHP 从 Microsoft Teams 自定义机器人验证 HMAC

我正在尝试使用 PHP 验证 Microsoft Teams 自定义机器人遵循 Microsoft指示 https learn microsoft com en us microsoftteams platform concepts cu
CUDA 确定每个块的线程、每个网格的块

我是 CUDA 范式的新手我的问题是确定每个块的线程数和每个网格的块数这是否需要一些艺术和尝试我发现许多例子似乎为这些事情选择了任意的数字我正在考虑一个问题我可以将任意大小的矩阵传递给乘法方法这样 C 的每个元素如 C A B
Java 8 中流的笛卡尔积作为流（仅使用流）

我想创建一种方法该方法创建一个元素流这些元素是多个给定流的笛卡尔积最后由二元运算符聚合为相同类型请注意参数和结果都是流 not收藏例如对于两个流 A B and X Y 我希望它产生价值流 AX AY BX BY 简单的串联用
Docx4j 字符串中的换行符

我有这个字符串 Prueba Lista li1 li2 li3 li4 Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Ta
dplyr 中的 substr %>% mutate

pcd lt data frame tripNo c 618 618 610 610 610 619 procDate as Date c 2016 03 02 2016 03 03 2016 03 02 2016 03 03 2016 0
手动调用按钮上的 click() ，我可以传递任何参数吗？

我在 jquery javascript 代码中手动调用页面上的按钮上的 click 我需要传递一个参数来单击然后我可以在响应单击事件的函数上读取该参数这可能吗你需要调用 trigger 您可以在那里传递任意数量的参数 element
将尾部输出通过管道传输到另一个脚本中

我正在尝试将 tail 命令的输出通过管道传输到另一个 bash 脚本中进行处理 tail n 1 f your log file myscript sh 但是当我运行它时永远不会到达 1 参数在 myscript sh 内我缺少什
ORA-38104: ON 子句中引用的列无法更新

我有一个带有删除标志的简单表记录应在此列中更新而不是删除 create table PSEUDODELETETABLE ID NUMBER 8 not null PKEY NAME VARCHAR2 50 not null ISDELET
为订阅优惠生成签名 - Xcode - Swift

我想问是否有人已经实现了 inapp 订阅自动续订的新优惠如果可能的话在服务器端创建系统以使用 p8 密钥和 php 创建此签名的难度我在苹果文档中找到了这个我不确定是否理解它 https developer apple com
Jquery 无法检测 IE 11

刚刚偶然发现一个问题当尝试使用 Jquery 检测 IE 11 当前正在播出的测试版时结果是 firefox 相同的代码检测 IE 10 我需要知道用户正在使用什么浏览器才能显示不同的指令我正在 Oracle VirtualBox
Spark DataFrame 架构可为空字段

我在 Scala 和 Python 中编写了以下代码但是返回的 DataFrame 似乎没有应用我正在应用的架构中的非空字段 italianVotes csv是一个 csv 文件以作为分隔符和四个字段我正在使用火花2 1 0 意大利