字段中的空值会生成 MatchError

2024-03-10

下面的内容很有趣：

val rddSTG = sc.parallelize(
      List ( ("RTD","ANT","SOYA BEANS", "20161123", "20161123", 4000, "docid11", null, 5) , 
             ("RTD","ANT","SOYA BEANS", "20161124", "20161123", 6000, "docid11",  null, 4) ,
             ("RTD","ANT","BANANAS", "20161124", "20161123", 7000, "docid11", null, 9) ,    
             ("HAM","ANT","CORN", "20161123", "20161123", 1000, "docid22", null, 33),
             ("LIS","PAR","BARLEY", "20161123", "20161123", 11111, "docid33", null, 44)
           )
                          )

val dataframe = rddSTG.toDF("ORIG", "DEST", "PROD", "PLDEPDATE", "PLARRDATE", "PLCOST", "docid", "ACTARRDATE", "mutationseq")
dataframe.createOrReplaceTempView("STG")
spark.sql("SELECT * FROM STG ORDER BY PLDEPDATE DESC").show()

它会产生如下错误：

scala.MatchError: Null (of class scala.reflect.internal.Types$TypeRef$$anon$6)

一旦我将其中一个空值更改为非空值，它就会起作用。我想我明白了，因为在球场上无法做出任何推论，但这确实看起来很奇怪。有想法吗？

问题是 -Anyscala 中的类型太泛型了。在你的情况下NULL被视为ANY type.

Spark 只是不知道如何序列化NULL.

我们应该明确提供一些特定的类型。

由于不能将 null 分配给 Scala 中的基本类型，因此您可以使用 String 来匹配列其他值的数据类型。

所以试试这个：

case class Record(id: Int, name: String, score: Int, flag: String)
val sampleRdd = spark.sparkContext.parallelize(
  Seq(
    (1, null.asInstanceOf[String], 100, "YES"),
    (2, "RAKTOTPAL", 200, "NO"),
    (3, "BORDOLOI", 300, "YES"),
    (4, null.asInstanceOf[String], 400, "YES")))

sampleRdd.toDF("ID", "NAME", "SCORE","FLAG")

这样，df将保留空值。

另一种方式

with case class

case class Record(id: Int, name: String, score: Int, flag: String)

val sampleRdd = spark.sparkContext.parallelize(
  Seq(
    Record(1, null.asInstanceOf[String], 100, "YES"),
    Record(2, "RAKTOTPAL", 200, "NO"),
    Record(3, "BORDOLOI", 300, "YES"),
    Record(4, null.asInstanceOf[String], 400, "YES")))
sampleRdd.toDF()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

字段中的空值会生成 MatchError 的相关文章

scala 提供类似 C++ 模板的东西吗？

我来自 C 并试图了解 scala 的类型系统考虑以下 C 模板类 template
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
为什么自类型类可以声明类

我知道 Scala 只能混合特征这对于依赖注入和蛋糕模式是有意义的我的问题是为什么我仍然可以声明一个需要另一个类但不需要特征的类 Code class C class D self C gt 这仍然编译成功我认为它应该编译失败因
获取SettingKey[T]的值

我正在开发一个用于文档生成的插件我想将所有生成的文件输出到我选择的目录中该目录可以是SBT的子目录target目录如下 val newTargetDirectory SettingKey File document target di
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
XML 创建 - 错误：带有替代方案的重载方法构造函数 UnprefixedAttribute

scala gt val count 7 count Int 7 将其放入 XML 属性中会出现错误 scala gt val x
如何将 Java 地图转换为在 Scala 中使用？

我正在开发一个 Scala 程序该程序调用 Java 库中的函数处理结果并生成 CSV 有问题的 Java 函数如下所示 Map
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
Scala 和 Python 的通行证

我想知道是否有相当于 python 的 pass 表达式这个想法是编写没有实现的方法签名并编译它们只是为了对某些库原型的这些签名进行类型检查我能够使用以下方法模拟这种行为 def pass A A throw new Excepti
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
如何调用 Scala 抽象类型的构造函数？

我试图弄清楚如何调用 Scala 抽象类型的构造函数 class Journey val length Int class PlaneJourney length Int extends Journey length class BoatJ
在 scala 宏中使用 LabelDef (2.10)

我正在尝试 scala 2 10 宏功能我使用时遇到问题LabelDef但在某些情况下在某种程度上我偷看了编译器的代码阅读了摘录米格尔加西亚的论文 http lampwww epfl ch magarcia但我还是卡住了如果我的
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org

随机推荐

使用函数而不调用模块[重复]

这个问题在这里已经有答案了我将 Canopy 与 Jupyter 笔记本一起使用我想知道是否有一种方法可以使用模块中的函数而无需调用模块例如如果我有 import numpy as np print np sin 2 我希望能够只输
可可移动鼠标

我正在 Snow Leopard 上编写 Mac OS X 应用程序我有一个由 NSTimer 定期触发的步骤方法在这种方法中我想将鼠标移动到屏幕中央不按下或释放任何按钮这是我所拥有的 void step NSTimer time
Python 的 os.system() 是否等待进程结束？

The Python手册 http docs python org library os html os system没有提及是否os system cmd 等待或不等待进程结束引用手册在子 shell 中执行命令字符串看起来它确实
明天的 Wiki 应包含哪些功能？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案明天的 wiki 应该包含哪些功能他们如何整合 AJAX 等 Web 2 0 功能他们目前还缺少哪些其他功能做什么you想查看您最喜欢的 Wik
TextView 上的 OnClick 事件停止 CardView 上的 RippleEffect

我在 CardView 中有一个 TextView 通过添加 OnClick 事件并添加属性来在 CardView 上启用 Lollipop 的涟漪效果时 android foreground android attr selectable
如何使用FastAPI返回JSON格式的数据？

我在两者中编写了具有相同功能的相同 API 应用程序FastAPI and Flask 但是当返回 JSON 时两个框架之间的数据格式不同两者使用相同的json库甚至相同的代码 import json from google clo
为什么 PyLint 会警告没有 __init__ ？

我们有许多似乎不需要的Python类 init 将它们初始化为空是完全可以接受的甚至是更好的选择 PyLint 似乎认为这是一件坏事我是否错过了一些关于为什么没有的见解 init 是难闻的气味吗或者我应该压制这些警告并克服它你用这些
如何进行C++对齐数组分配？

我想修改数组分配 float a new float n 使用对齐的分配器我倾向于尝试使用placement new 和 posix memalign 或新的 c 11 等效项但请注意数组的新放置对于数组分配来说是有问题的 https
相机意图/活动 - 避免保存到图库

我正在使用相机活动捕捉照片我用MediaStore EXTRA OUTPUT额外参数图像正确保存到提供的路径也将其保存到图库文件夹这样我就可以在图库应用程序中查看图像我可以避免这种情况吗 File file new File
哪些 Git 分支模型适合您？

我们公司目前正在使用简单的主干发布修补程序分支模型并且希望了解哪些分支模型最适合您的公司或开发流程工作流程分支模型以下是我所看到的三个主要描述但它们部分相互矛盾或者不足以解决我们遇到的后续问题如下所述因此我们的团队到目
AVAudioRecorder - 正确的 MPEG4 AAC 录制设置

我有一个实时应用程序估计有 15 的用户报告记录功能不起作用我们的测试设备上没有发生这种情况但报告显示问题在于prepareToRecord 返回否我无法找到 AAC 格式的示例设置我的任何设置是否已关闭应用程序需要 iOS5
如何将 og:Title og:Image og:Description og:url 信息从 C# 发送到 Facebook

我的页面上有一个赞按钮单击按钮后我尝试在 facebook 中发送以下标签信息以下是我的赞按钮框架
如何仅使用音频编解码器制作 iOS VOIP/SIP 应用程序 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案任何人都可以帮助我消除我的疑虑我正在尝试实现 SIP 应用程序我已经设置了 sip 服务器并且我有我的 sip 帐户的用户名和密码
在 Eclipse 中从 jar 或 war 中排除文件

有没有办法告诉 Eclipse 不要在 JAR 或 WAR 中包含指定的文件目录或模式 You can specify includes and excludes by opening the Project Properties alt
如何在不使用 strip_tags 的情况下从变量中删除
标签？

这是我的代码 str div this is the variable div 我想删除它的 html 标签 div 不使用 strip tags 我需要 str this is the variable 因为我的服务器不支持 strip
您能否指定与 Sinatra 重定向一起使用的 HTTP 方法？

我有这样的事情 post login do end get login do end post register do redirect login I would like to redirect to get login instead
使用 AAD 在 Application Insights REST API 上进行身份验证

到目前为止我成功使用 Application Insights REST API 来获取带有 X Api Key 标头的指标然而通过我们的新仪表板抓取多个指标我们严重达到了 1500 个请求 API 密钥的限制有些人建议尝试使用
Jenkins 中的 WorkflowScript.with

我在 jenkins 共享库中有一个类它存储来自 jenkins 管道脚本的 WorkflowScript 类的实例如下所示 def myTools new my org MyTools this MyTools 的构造函数只是存储 W
如何在 Spring MVC 中将集合属性绑定到表单

我正在尝试使用 Spring MVC 将我的模型对象之一绑定到表单的字段一切工作正常除了模型对象的属性之一是无序集合做类似的事情
字段中的空值会生成 MatchError

下面的内容很有趣 val rddSTG sc parallelize List RTD ANT SOYA BEANS 20161123 20161123 4000 docid11 null 5 RTD ANT SOYA BEANS 2016

字段中的空值会生成 MatchError

另一种方式

字段中的空值会生成 MatchError 的相关文章

随机推荐

热门标签