如何处理spark sql中缺失的列

2024-02-12

我们正在处理无架构的 JSON 数据，有时 Spark 作业会失败，因为我们在 Spark SQL 中引用的某些列在一天中的某些时间不可用。在这些时间内，Spark 作业会失败，因为所引用的列在数据框中不可用。如何处理这种情况？我已经尝试过 UDF，但缺少太多列，因此无法真正检查每一列的可用性。我还尝试在更大的数据集上推断模式，并将其应用到数据帧上，期望缺失的列将填充空值，但模式应用程序失败并出现奇怪的错误。

请建议

这对我有用。创建了一个函数来检查所有预期的列并将列添加到数据帧（如果缺少）

def checkAvailableColumns(df: DataFrame, expectedColumnsInput: List[String]) : DataFrame = {
    expectedColumnsInput.foldLeft(df) {
        (df,column) => {
            if(df.columns.contains(column) == false) {
                df.withColumn(column,lit(null).cast(StringType))
            }
            else (df)
        }
    }
}

val expectedColumns = List("newcol1","newcol2","newcol3")

val finalDf = checkAvailableColumns(castedDateSessions,expectedColumns)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何处理spark sql中缺失的列的相关文章

为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
帮助我理解这段 Scala 代码：scalaz IO Monad 和隐式

这是后续this https stackoverflow com questions 7404495 help me understand this scala code scalaz io monad问题这是我试图理解的代码它来自ht
自动将通配符导入重构为 IntelliJ 中的显式导入（适用于 Scala/Java）

考虑下面的代码是否可以让 IntelliJ 自动将每个通配符导入重构为显式导入无论范围内使用什么例如import scalatags JsDom all into import scalatags JsDom all ol li di
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
有没有好的 Clojure 基准测试？

Edit Clojure 基准测试已达到基准游戏 http benchmarksgame alioth debian org u64q clojure html 我已经制作了这个问题社区维基并邀请其他人保持更新有人知道 Clojure 性
Scala：如何定义带有变量参数列表的匿名函数？

在 Scala 中如何定义接受可变数量参数的匿名函数 scala gt def foo blah Int gt 3
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
scala 中的模拟案例类：Mockito

在我的游戏应用程序中我打算模拟一个案例类我可以这样做但它创建了一个所有成员变量都为空的对象有没有办法创建案例类的模拟对象以便该对象可以初始化一些成员 case class User name String address Stri
为什么我不能将 Scala 的 Function1 隐式转换为 java.util.function.Function？

我正在尝试创建 Scala Function1 到 java util function Function 的隐式转换这是我的代码 object Java8ToScala extends App implicit def javaFunc
从会话中读取数据时如何发出加特林捕获请求？

根据加特林文档 http gatling io docs 2 1 7 session session api html 我可以在执行场景时使用会话属性但是每次我在场景中使用函数文字访问会话时都会遇到以下异常 error java la
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
Scala 'null' 是否算作另一种类型的实例？

我有这个代码 class MyLinkedList T h T tail MyLinkedList T def prepend v T MyLinkedList T new MyLinkedList v this 我想知道我如何可以将第二个
Play框架：读取包含空值的Json

我正在尝试在 Play Scala 程序中读取 Json 数据 Json 的某些字段可能包含空值因此我定义 Reads 对象的方式如下 implicit val readObj Reads ApplyRequest JsPath a re
用 HashMap[Int, Vector[Int]] (Scala) 表示图（邻接列表）？

我想知道如何如果可能的话我可以通过以下方式制作可变图的邻接列表表示HashMap Int Vector Int HashMap当然是可变的目前我将其设置为HashMap Int ArrayBuffer Int 但我可以更改 Arr
使用无形类型不等式时如何自定义 Scala 模糊隐式错误

def typeSafeSum T lt Nat W lt Nat R lt Nat x T y W implicit sum Sum Aux T W R error R 7 x typeSafeSum 3 4 compilation er
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
[json4s]：提取不同对象的数组

我正在使用 facebook graph API 响应看起来与此类似 data id 311620272349920 311718615673419 from id 1456046457993048 name Richard Ettinso
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

VSTS Nuget 安装程序无法使用包源进行身份验证

我有一个关于 VSTS 的包提要提供了我在一个也在 VSTS 上构建的解决方案中引用的几个包构建在包恢复阶段突然开始失败日志表明它找不到 nuget 应该恢复的 dll 正在恢复 NuGet 包 Basd Diagnostics 0
为什么微软不想用 NaN 来修复 Equals 和 GetHashCode 的错误实现？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
无法从 Spark SQL 使用现有的 Hive 永久 UDF

我之前已经向 hive 注册了一个 UDF 是永久的不是TEMPORARY 它直线工作 CREATE FUNCTION normaliseURL AS com example hive udfs NormaliseURL USING JAR
使用 linq 检查一个数组中的值是否存在于另一个数组中

我有一个列表其中 myclass 定义了一些属性 List
我们如何在reactjs中简单地上传文件夹？

我正在此处寻找reactjs中的上传文件夹我在该doc和docx文件中有文件夹我只想在用户单击浏览按钮时上传文件夹其中我必须不允许用户选择单个文件有人可以给我文件夹上传或文件夹选择的简单示例其中用户只能选择文件夹而不是文件实际上
正则表达式对某些字符给出错误

我碰到这支笔在 codePen http codepen io tmrDevelops pen NxaQmo 并发现了一个错误如果您在搜索框中输入以下字符我收到以下错误我分别输入了每个字符我认为问题出在正则表达式部分 19号线 va
如何避免PHP内存耗尽？

致命错误第 166 行 home alien Desktop 1 scanner php 中允许的内存大小 33554432 字节已耗尽尝试分配 136753 字节这是 PHP 代码的 166 行 text i curl multi
如何解决类似以下错误：TypeError：无法读取角度 nvd3 离散条形图中未定义的属性“长度”？

我正在使用 Angular nvd3 离散条形图我从 http 获取值并显示在离散条形图中图表正确显示了我的值但我收到了类似的错误类型错误无法读取未定义的属性长度我该如何解决这个错误下面是我的代码
C++中无效的语句有什么用？ [复制]

这个问题在这里已经有答案了在我正在使用的一个库中我看到了这段代码 template
使用故事板时重用 UIViewController 实例

我决定在我当前的 iPhone 应用程序中尝试使用故事板我面临着一些问题我真的需要重用我的 UIViewController 实例我这么说是什么意思好吧例如我有一个表视图控制器当我点击一个单元格时另一个视图控制器将从故事板加载
Google + 环聊按钮

我正在尝试将 google Hangout 按钮添加到我的 html 文件中如下所示但是当我运行 html 页面时该按钮不显示 div div
在 Vim 中，文件名的制表符补全不起作用

当我尝试在 Vim Linux 中打开文件进行编辑时当我按 TAB 时 Vim 仅使用当前目录中的文件名自动补全文件名然而在网上搜索后我认为从版本 7 开始 Vim 应该支持使用搜索路径中所有目录中的文件名进行类似 bash 的文件
提升灵气属性传播

我的 Boost Spirit Qi 语法有问题该语法发出不需要的类型导致此编译错误 error C2664 std basic string lt Elem Traits Ax gt std basic string lt Elem
媒体编解码器 4.1 问题

根据我的测试除了 Nexus5 moto G 之外它在大多数设备上都能正常工作在这些设备上应用程序生成仅包含两帧的视频并且还收到以下错误日志 OMX qcom video encoder avc storeMetaDataInB
从 VBA 搜索 Outlook 电子邮件

给定的代码成功运行它在 Outlook 的已发送邮件文件夹中搜索电子邮件主题搜索基于特定时间段内的特定日期进行例如下面的代码查找 2018 年 7 月 20 日中午 12 00 到晚上 11 59 之间发送的标题为周五发送的测
我如何知道 Eclipse 插件使用了多少内存（单独）

有没有办法知道每个 Eclipse 插件分别消耗了多少内存进行堆转储并使用例如进行分析这Eclipse 内存分析器 http eclipse org mat 有关更多信息请参阅使用内存分析器分析 Equinox 捆绑包依赖性 http
如何检查pandas数据框中的布尔条件

I have Alcohol df数据框其中资格是一列我创建了一个列表如下所示 Graduate list B tech b tech b tech Btech BE B E b e BACHELOR bachelor BSc Bsc
如何使用“PerformanceNavigationTiming” API 获取页面加载时间？

我正在尝试使用PerformanceNavigationTiming API https developer mozilla org en US docs Web API PerformanceNavigationTiming生成页面加载指
从 travis CI 获取作业 ID 的日志文件

如何从作业 ID 和项目名称下载构建日志文件我知道 travis ci 有 API 项目名称 eclipse jetty project 职位编号 6073028 访问日志文件的链接 https travis ci org eclipse
如何处理spark sql中缺失的列

我们正在处理无架构的 JSON 数据有时 Spark 作业会失败因为我们在 Spark SQL 中引用的某些列在一天中的某些时间不可用在这些时间内 Spark 作业会失败因为所引用的列在数据框中不可用如何处理这种情况我已经尝试过

如何处理spark sql中缺失的列

如何处理spark sql中缺失的列 的相关文章

随机推荐

热门标签

如何处理spark sql中缺失的列的相关文章