Spark 2数据集空值异常

2023-12-24

在 Spark Dataset.filter 中出现此 null 错误

输入 CSV：

name,age,stat
abc,22,m
xyz,,s

工作代码：

case class Person(name: String, age: Long, stat: String)

val peopleDS = spark.read.option("inferSchema","true")
  .option("header", "true").option("delimiter", ",")
  .csv("./people.csv").as[Person]
peopleDS.show()
peopleDS.createOrReplaceTempView("people")
spark.sql("select * from people where age > 30").show()

失败代码（添加以下行返回错误):

val filteredDS = peopleDS.filter(_.age > 30)
filteredDS.show()

返回空错误

java.lang.RuntimeException: Null value appeared in non-nullable field:
- field (class: "scala.Long", name: "age")
- root class: "com.gcp.model.Person"
If the schema is inferred from a Scala tuple/case class, or a Java bean, please try to use scala.Option[_] or other nullable types (e.g. java.lang.Integer instead of int/scala.Int).

你得到的异常应该可以解释一切，但让我们一步一步地进行：

当使用加载数据时csv数据源所有字段都标记为nullable:

val path: String = ???

val peopleDF = spark.read
  .option("inferSchema","true")
  .option("header", "true")
  .option("delimiter", ",")
  .csv(path)

peopleDF.printSchema

root
|-- name: string (nullable = true)
|-- age: integer (nullable = true)
|-- stat: string (nullable = true)

缺失字段表示为 SQLNULL

peopleDF.where($"age".isNull).show

+----+----+----+
|name| age|stat|
+----+----+----+
| xyz|null|   s|
+----+----+----+

接下来你转换Dataset[Row] to Dataset[Person]它使用Long编码age field. Long在 Scala 中不能null。因为输入模式是nullable，输出模式保持不变nullable尽管如此：
```
val peopleDS = peopleDF.as[Person]

peopleDS.printSchema
```
```
root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- stat: string (nullable = true)
```
请注意，它as[T]根本不影响架构。
当你查询时Dataset使用 SQL（在注册表上）或DataFrameSpark API 不会反序列化该对象。由于架构仍然是nullable我们可以执行：
```
peopleDS.where($"age" > 30).show
```
```
+----+---+----+
|name|age|stat|
+----+---+----+
+----+---+----+
```
没有任何问题。这只是一个简单的 SQL 逻辑NULL是一个有效值。
当我们使用静态类型时Dataset API:
```
peopleDS.filter(_.age > 30)
```
Spark 必须反序列化该对象。因为Long不可能是null (SQL NULL）它失败了，但你已经看到了异常。

如果不是因为这个，你就会得到 NPE。
应使用正确的数据静态类型表示Optional types:
```
case class Person(name: String, age: Option[Long], stat: String)
```
具有调节过滤功能：
```
peopleDS.filter(_.age.map(_ > 30).getOrElse(false))
```
```
+----+---+----+
|name|age|stat|
+----+---+----+
+----+---+----+
```
如果您愿意，可以使用模式匹配：
```
peopleDS.filter {
  case Some(age) => age > 30
  case _         => false     // or case None => false
}
```
请注意，您不必（但无论如何建议）使用可选类型name and stat。因为斯卡拉String只是一个JavaString有可能null。当然，如果您采用这种方法，您必须显式检查访问的值是否是null or not.

Related Spark 2.0 数据集与 DataFrame https://stackoverflow.com/q/40596638/6910411

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

apachesparkdataset

Spark 2数据集空值异常的相关文章

如何使用scala获取elasticsearch中_delete_by_query api的状态

我正在 scala 中向 elasticsearch 发送 HTTP post Http s http elkIp 5051 indexName delete by query postData s query terms zip id k
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
Scala 的“神奇”函数列表

在哪里可以找到 Scala 的神奇函数列表例如apply unapply update etc 魔法函数是指编译器的某些语法糖使用的函数例如 o update x y lt gt o x y 我用谷歌搜索了一些组合scala mag
在没有匹配器的情况下如何跳过specs2中的测试？

我正在尝试使用 scala 中的 specs2 测试一些与数据库相关的内容目标是测试 db running 然后执行测试我发现如果数据库关闭我可以使用 Matcher 类中的 orSkip 问题是我正在获取一个匹配条件的输出作为
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
sbt 找不到启动器 jar：./bin/sbt-launch.jar

我已经成功地使用 sbt 进行基本的 Scala 编译好几年了但有一天它由于某种原因停止工作我在自己的帐户中使用它但我决定让我的系统管理员在我们的本地网络上安装最新版本当我尝试运行它时我得到找不到启动器 jar bin sbt
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
在泛型方法中返回原始集合类型

假设我们想要创建一个像这样的函数minBy返回集合中同等极简主义的所有元素 def multiMinBy A B Ordering xs Traversable A f A gt B val minVal f xs minBy f xs f
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练

随机推荐

加密/解密大文件 (.NET)

我必须加密存储然后解密大文件最好的方法是什么我听说 RSA 加密很昂贵建议使用 RSA 加密 AES 密钥然后使用 AES 密钥加密大文件任何带有示例的建议都会很棒一种有机体很大另一种有机体很小尽管我们看到它时都知道它很昂
MySQL 中复杂的 COUNT 查询

我正在尝试查找特定用户拥有的视频积分数量以下是相关的三个表 CREATE TABLE userprofile userprofile id int 11 NOT NULL AUTO INCREMENT full name varchar
pandas 绘图值以降序计数 barplot [重复]

这个问题在这里已经有答案了我有一个数据框我试图计算每个值的出现次数我将其绘制为水平条但无法对其进行排序 df pd DataFrame A A A B B C columns letters df value counts A 3
当某些后台进程仍在运行时，命令“exit”不起作用

退出命令不适用于我的情况我不明白为什么 ssh user mysever lt lt HEREDOC echo 1 Running PM2 log pm2 log echo 2 PM2 log is now in background
如何在applozic中列出我的联系人列表并发送消息

Context context getApplicationContext AppContactService appContactService new AppContactService context if appContactSer
尽管实际和预期相同，但 JUnit 给出 ComparisonFailure

我正在尝试使用 Jsoup 解析网站中的字符串并编写以下测试来验证解析这是我的测试 Test public void extractBookData throws Exception String bookLink some addre
将“$(VAR)”回显到文件

我的 Makefile 中的一行遇到以下问题 echo include BASE Makefile base gt file 如果我直接将其写入控制台它实际上会将 include BASE Makefile base 打印到文件中但是当
C++11 观察者模式（信号、槽、事件、更改广播器/侦听器或任何您想要的名称）

随着 C 11 中所做的更改例如包含std bind 是否有推荐的方法来实现简单的单线程观察者模式而不依赖于核心语言或标准库外部的任何内容例如boost signal EDIT 如果有人可以发布一些代码来显示如何依赖boost sig
TypeError：无法使用 ReactJs 读取 webpack-cli 中未定义的属性“presetToOptions”

我正在开发 ReactJS 应用程序并配置 webpack 2 7 0 webpack cli 2 0 9 但是从 cmd 运行 webpack 时出现以下错误 const statsPresetToOptions require webp
延迟 Javascript 中的默认事件

我希望能够延迟事件的默认操作直到采取其他操作为止它的用途我正在尝试构建一种可重用的不引人注目的方式来通过模态类型对话确认操作关键的愿望清单项目是任何 Javascript 处理程序都由脚本附加而不是直接内联编写为了使其真正可重
为什么我收到关于隐藏基类方法的属性的警告 CS0108 [重复]

这个问题在这里已经有答案了鉴于以下类 C 编译器会向我发出此警告 CS0108 B Example 隐藏继承的成员 A Example string 如果打算隐藏请使用 new 关键字 class A public string Exa
防止隐藏属性被序列化

这是对这个问题的一种利用 ASP NET 阴影问题 https stackoverflow com questions 5560278 asp net shadowing issues 我发现问题实际上并不是属性没有被序列化而是阴影属性
mongo 地理位置数据的 Meteor 简单模式

我想为我的流星应用程序创建一个管理表单在从头开始构建 Ogno Admin 之前我打算尝试一下 Ogno Admin 但我不确定它是否可以支持我需要的格式的数据我当前的应用程序数据像这样进入 mongo Beaches insert
const 成员函数可以返回指向数据成员的非常量指针吗？

代码先行 class A public int foo const return px private int px 成员函数foo返回一个非常量指针private member px 我认为这为修改成员打开了一扇门 px right Is
bison/flex 中的简单 XML 解析器

我想创建简单的 xml 解析器使用野牛弯曲我不需要验证评论争论只需要
如何在firebase中获取同步数据？

有什么方法可以使这个函数同步或者添加一个回调函数以在完成时运行 var fbGetLeagues function fb var leagues fb child leagues once value function snapshot
NSKeyedArchiver 在 Swift 3 (Xcode 8) 中不起作用

我已将我的项目迁移到 Swift 3 并且NSKeyedArchiver不起作用实际上当尝试像这样解码对象时我遇到了运行时错误 let startDayTime aDecoder decodeObject forKey Key sta
在 travis yml 文件上配置 gradle.properties android.enableAapt=false

在我的安卓系统中gradle properties我有以下内容 android enableAapt2 false My gradle properties位于我的 gradle gradle properties在我的本地机器上我想知道
如何使用 JQuery Ajax 将 JSON 对象传递给 web2py

我用过这个方法 http encosia com 2008 03 27 using jquery to consume aspnet json web services 在 NET 中使用 JSON 对象两种方式在客户端和服务器之间来回
Spark 2数据集空值异常

在 Spark Dataset filter 中出现此 null 错误输入 CSV name age stat abc 22 m xyz s 工作代码 case class Person name String age Long stat

Spark 2数据集空值异常

Spark 2数据集空值异常 的相关文章

随机推荐

热门标签

Spark 2数据集空值异常的相关文章