Spark：强制读取模式时 Parquet DataFrame 操作失败

2024-03-17

（火花2.0.2）

当您拥有具有不同架构的镶木地板文件并在读取期间强制使用该架构时，就会出现此问题。即使您可以打印架构并运行show()好的，您无法对缺失的列应用任何过滤逻辑。

以下是两个示例架构：

// assuming you are running this code in a spark REPL
import spark.implicits._

case class Foo(i: Int)
case class Bar(i: Int, j: Int)

So Bar包括所有领域Foo并添加一个（j）。在现实生活中，当您从模式开始时就会出现这种情况Foo后来决定您需要更多字段并最终得到模式Bar.

让我们模拟两个不同的镶木地板文件。

// assuming you are on a Mac or Linux OS
spark.createDataFrame(Foo(1)::Nil).write.parquet("/tmp/foo")
spark.createDataFrame(Bar(1,2)::Nil).write.parquet("/tmp/bar")

我们想要的是始终使用更通用的模式读取数据Bar。也就是说，在模式上写入的行Foo应该有j为空。

案例 1：我们混合读取两种模式

spark.read.option("mergeSchema", "true").parquet("/tmp/foo", "/tmp/bar").show()
+---+----+
|  i|   j|
+---+----+
|  1|   2|
|  1|null|
+---+----+


spark.read.option("mergeSchema", "true").parquet("/tmp/foo", "/tmp/bar").filter($"j".isNotNull).show()
+---+---+
|  i|  j|
+---+---+
|  1|  2|
+---+---+

情况 2：我们只有 Bar 数据

spark.read.parquet("/tmp/bar").show()
+---+---+
|  i|  j|
+---+---+
|  1|  2|
+---+---+

情况 3：我们只有 Foo 数据

scala> spark.read.parquet("/tmp/foo").show()
+---+
|  i|
+---+
|  1|
+---+

有问题的情况是 3，我们生成的模式是类型Foo而不是Bar。由于我们迁移到架构Bar，我们希望始终获得模式Bar根据我们的数据（旧的和新的）。

建议的解决方案是以编程方式定义模式以始终Bar。让我们看看如何做到这一点：

val barSchema = org.apache.spark.sql.Encoders.product[Bar].schema
//barSchema: org.apache.spark.sql.types.StructType = StructType(StructField(i,IntegerType,false), StructField(j,IntegerType,false))

运行 show() 效果很好：

scala> spark.read.schema(barSchema).parquet("/tmp/foo").show()
+---+----+
|  i|   j|
+---+----+
|  1|null|
+---+----+

但是，如果您尝试过滤缺失的列 j，则会失败。

scala> spark.read.schema(barSchema).parquet("/tmp/foo").filter($"j".isNotNull).show()
17/09/07 18:13:50 ERROR Executor: Exception in task 0.0 in stage 230.0 (TID 481)
java.lang.IllegalArgumentException: Column [j] was not found in schema!
    at org.apache.parquet.Preconditions.checkArgument(Preconditions.java:55)
    at org.apache.parquet.filter2.predicate.SchemaCompatibilityValidator.getColumnDescriptor(SchemaCompatibilityValidator.java:181)
    at org.apache.parquet.filter2.predicate.SchemaCompatibilityValidator.validateColumn(SchemaCompatibilityValidator.java:169)
    at org.apache.parquet.filter2.predicate.SchemaCompatibilityValidator.validateColumnFilterPredicate(SchemaCompatibilityValidator.java:151)
    at org.apache.parquet.filter2.predicate.SchemaCompatibilityValidator.visit(SchemaCompatibilityValidator.java:91)
    at org.apache.parquet.filter2.predicate.SchemaCompatibilityValidator.visit(SchemaCompatibilityValidator.java:58)
    at org.apache.parquet.filter2.predicate.Operators$NotEq.accept(Operators.java:194)
    at org.apache.parquet.filter2.predicate.SchemaCompatibilityValidator.validate(SchemaCompatibilityValidator.java:63)
    at org.apache.parquet.filter2.compat.RowGroupFilter.visit(RowGroupFilter.java:59)
    at org.apache.parquet.filter2.compat.RowGroupFilter.visit(RowGroupFilter.java:40)
    at org.apache.parquet.filter2.compat.FilterCompat$FilterPredicateCompat.accept(FilterCompat.java:126)
    at org.apache.parquet.filter2.compat.RowGroupFilter.filterRowGroups(RowGroupFilter.java:46)
    at org.apache.spark.sql.execution.datasources.parquet.SpecificParquetRecordReaderBase.initialize(SpecificParquetRecordReaderBase.java:110)
    at org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.initialize(VectorizedParquetRecordReader.java:109)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anonfun$buildReader$1.apply(ParquetFileFormat.scala:381)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anonfun$buildReader$1.apply(ParquetFileFormat.scala:355)
    at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:168)
    at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:109)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.scan_nextBatch$(Unknown Source)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:231)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:225)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:99)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

问题是由于 parquet 过滤器下推造成的，在 parquet-mr 版本

你可以检查https://issues.apache.org/jira/browse/PARQUET-389 https://issues.apache.org/jira/browse/PARQUET-389更多细节。

您可以升级 parquet-mr 版本或添加新列并基于新列进行过滤。

For eg.

dfNew = df.withColumn("new_j", when($"j".isNotNull, $"j").otherwise(lit(null))) dfNew.filter($"new_j".isNotNull)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

schema

parquet

Spark：强制读取模式时 Parquet DataFrame 操作失败的相关文章

如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
如何计算分类值（包括零出现）？

我想按月计算代码数量这是我的示例数据框 id month code 0 sally 0 s A 1 sally 0 s B 2 sally 0 s C 3 sally 0 s D 4 sally 0 s E 5 sally 0 s A 6
sbt 找不到启动器 jar：./bin/sbt-launch.jar

我已经成功地使用 sbt 进行基本的 Scala 编译好几年了但有一天它由于某种原因停止工作我在自己的帐户中使用它但我决定让我的系统管理员在我们的本地网络上安装最新版本当我尝试运行它时我得到找不到启动器 jar bin sbt
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
使用什么框架来引导我的第一个生产 scala 项目？

我正在第一次涉足 scala 的生产应用程序该应用程序当前打包为 war 文件我的计划是创建 scala 编译工件的 jar 文件并将其添加到 war 文件的 lib 文件夹中我的增强功能是通过 Jersey 公开的 mysql 支
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
在 Scala 中扩展函数1

在几个例子中我看到一个对象或一个类扩展Function1 E g object Cash extends CashProduct gt String in Scala 的隐藏功能 https stackoverflow com quest
MySQL 中 INDEX、PRIMARY、UNIQUE、FULLTEXT 之间的区别？

创建MySQL表时PRIMARY UNIQUE INDEX和FULLTEXT有什么区别我将如何使用它们差异 KEY or INDEX指的是普通的非唯一索引索引的非不同值是允许的因此索引may索引的所有列中包含具有相同值的行这些索引
函数式 Scala 中的选择排序

我正在学习 Scala 编程并编写了选择排序算法的快速实现然而由于我对函数式编程还不太了解所以在转换为更 Scala 风格时遇到了困难对于 Scala 程序员来说如何使用 Lists 和 vals 来做到这一点而不是回到我的命
Java时间转正常格式

我有 Java 时间1380822000000 我想转换为我可以阅读的内容 import java util Date object Ws1 val a new Date 1380822000000 toString 导致异常 warnin
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg
对于 Scala，“无全局类型推断”是什么意思？

我读过 Scala 的类型推断不是全局的因此人们必须在方法上放置类型注释这会是本地类型推断吗我只知道一点点原因是它面向对象的本质但我不清楚是否有全局类型推断的解释以及为什么 Scala 不能让初学者可以理解 The pr
如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

这个问题在这里已经有答案了我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做

随机推荐

为什么这个简单的连接查询使用子查询会明显更快？

我有两张桌子 order details这是 100 000 行并且outbound即 10 000 行我需要加入他们的专栏order number 两者都是 VARCHAR 50 order number 在出站表中不唯一 CREAT
如何根据返回值执行不同的查询？

我有一个足球比赛列表定义如下 id datetime status gameweek round id home team id 1 2019 03 31 00 00 00 1 29 12696 1243 2 2019 03 31 00
如何在Python中获取所有直接子目录

我正在尝试编写一个简单的Python脚本它将所有子目录中的index tpl复制到index html 有一些例外我因尝试获取子目录列表而陷入困境 import os def get immediate subdirectories a
在两个不同的头文件中的两个结构中包含循环依赖项是否错误？

我有一个非常大的程序无法编译我怀疑它与跨结构的循环依赖关系有关当我像下面这样编码时它不会编译 foo h ifndef FOO define FOO include bar h typedef struct foo Foo struc
创建模型时用 laravel 返回模型

我需要将保存为 json 的新模型发送到前面但我看不到响应中的列organizationid 这是我的模型 class Organization extends Model protected table core organizatio
强制纵向模式

好吧由于没有人回答我之前的问题我开始相信可能没有简单的方法可以做到这一点但我很乐观这是我的问题在我的应用程序中我使用常规 UIButton 从 ViewControllerOne 切换到 ViewControllerTwo Vi
用于动态创建元素的 jQuery CSS()

我正在使用 jQuery CSS 函数来设置一些元素的样式 element css style 这是可行的但部分元素是在页面加载后动态创建的这应该是 element live created function this css styl
Code First 一对多关系的多个外键

我在使用 Entity Framework 6 Code First Fluent API 时遇到了一些不符合惯例的问题一个典型的例子是我有一个名为软件的实体我不希望数据库表被称为 Softwares 它应该被称为软件但也有一些其他的
将 ${my.property} 计算为 @Value 注释中的 SpEL 表达式

长话短说有没有办法解释由以下结果产生的字符串 my property 作为一个 SpEL 表达式 Value不使用转换器的注释例如就像是 Value my property 我有一个抽象工厂简化的可以让我构建一些公共对象这些对象是
如何在Android即时应用程序中存储数据并在已安装的应用程序中恢复它

据谷歌称开发即时应用程序受到迷药最佳实践 is 安装应用程序后保留用户状态 https developer android com topic instant apps ux best practices html keep user
在 PowerShell 中通过引用传递/更新哈希表和数组

当我了解 Perl 和 PowerShell 的不同之处时我试图通过引用确定传递列表和更新列表之间的差异我think我现在明白了 PowerShell 方面的通过引用传递哈希表调用函数时不需要在表名前添加 ref 在函数内表的名
有什么方法可以获取模块中定义的函数列表？

是否有任何内省的魔法可以给我一个模块中定义的函数列表 module Foo function foo foo end function bar bar end end 一些神话般的功能例如 functions in Foo 这将返回 fo
仅查看当前用户对象的列表，Django REST

我有 2 个视图 notes 和 notes 在注释模型中models py我有所有者变量用于存储所有者的登录信息因为我想要有很多用户我不想让他们看到别人的笔记所以我创建了权限 class IsOwner permissions B
删除 python 列表中的重复项但记住索引

如何删除列表中的重复项保留项目的原始顺序并记住列表中任何项目的第一个索引例如删除重复项 1 1 2 3 yields 1 2 3 但我需要记住索引 0 2 3 我正在使用Python 2 7 我会以不同的方式解决这个问题并使用Orde
获取调用C#方法的实例

我正在寻找一种算法可以在该方法中获取调用该方法的对象例如 public class Class1 public void Method the question object a the object that called the m
SVN与外部通用代码

目前我正在尝试使用相同的代码为多个产品设置存储库最好的解决方案是创建共享代码的真正库并以这种方式使用它们然而目前这需要很长时间这个想法是拥有一个具有以下树的单个存储库 trunk Project1 Project2 Shared
在android中比较两个日期是否在同一周内

我有两个约会他们是从 Calendar c Calendar getInstance year c get c YEAR month c get c MONTH month date c get c DATE 其他数据分为日期月份 2
在 Curl 请求中禁用 Javascript (PHP)

有没有办法在 PHP 的 Curl 请求中禁用 Javascript 尝试模仿浏览器请求来自禁用 Javascript 的浏览器这可以通过标头用户代理 cookie 来完成吗 Thanks 有没有办法在 PHP 的 Curl 请求中禁
在php中将tiff转换为jpg？

我有一台保存 TIFF 图像的服务器大多数客户端都可以读取和显示 TIFF 图像因此没有问题但是某些客户端无法处理此格式但可以处理 JPG 我想到使用 PHP 的 GD 库为没有 TIFF 读取能力的客户端进行服务器端转换但我注
Spark：强制读取模式时 Parquet DataFrame 操作失败

火花2 0 2 当您拥有具有不同架构的镶木地板文件并在读取期间强制使用该架构时就会出现此问题即使您可以打印架构并运行show 好的您无法对缺失的列应用任何过滤逻辑以下是两个示例架构 assuming you are running

Spark：强制读取模式时 Parquet DataFrame 操作失败

Spark：强制读取模式时 Parquet DataFrame 操作失败 的相关文章

随机推荐

热门标签

Spark：强制读取模式时 Parquet DataFrame 操作失败的相关文章