Spark错误：parquet.column.values.dictionary.PlainValuesDictionary$PlainIntegerDictionary

2024-03-14

我在从配置单元表读取 Spark 数据帧时遇到问题。我将数据框存储为：

dataframe.coalesce(n_files).write.option("mergeSchema", "true").mode("overwrite").parquet(table_path)

当我尝试读取此数据框并执行操作时.show()在它上面，它会因以下错误而中断：

java.lang.UnsupportedOperationException: parquet.column.values.dictionary.PlainValuesDictionary$PlainIntegerDictionary
at parquet.column.Dictionary.decodeToLong(Dictionary.java:52)

如何找到哪一列是此错误的根本原因？我试图遵循答案here https://stackoverflow.com/questions/53149457/java-lang-unsupportedoperationexception-error-in-spark-when-writing。但我能够完全加载 df 并读取镶木地板文件，即：

df = spark.read.option("mergeSchema", "True").parquet("/hdfs path to parquets")

所述hive表是外部表。我猜这与表属性有关？但我应该看什么？
我无法使用saveAsTable。由于以下原因，我需要直接写入路径一定的要求 https://stackoverflow.com/questions/38964736/multiple-spark-jobs-appending-parquet-data-to-same-base-path-with-partitioning

找到了我的问题的根本原因。在这里发布我的发现，以便有需要的人可以检查他们的情况是否相同。

我遇到这个问题是因为配置单元表元数据和镶木地板中的数据类型不同。问题是当你做一个saveAsTable如果有任何差异，spark 将在保存时对您的数据进行类型转换。但是当你做一个df.write.parquet(path)您正在将镶木地板直接写入路径，因此如果表元数据和镶木地板之间存在不匹配，df.show会抛出错误。

例如，如果您的表元数据具有 dtype'bigint'对于 A 列，但您尝试保存的 df 具有 dtypeIntegerType对于同一列（而不是LongType，这是正确的解释bigint), a saveAsTable会打字IntegerType to LongType but df.write.parquet(path) won't.

解决方案是将有问题的列类型转换为与表的元数据匹配的数据类型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark错误：parquet.column.values.dictionary.PlainValuesDictionary$PlainIntegerDictionary 的相关文章

为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用

随机推荐

Bootstrap 导航栏通知徽章

我正在建立一个网站允许用户互相发送消息我使用 AJAX 收到了许多新消息因此我只需要找到一种方法来显示badge在用户的导航栏中这是我想要实现的目标我想要badge将使用创建 span class badge badge pil
ng-bootstrap 日期选择器不工作

我正在尝试在我的 angular2 项目中使用 ng bootstrap 日期选择器但出现以下错误 There is no directive with exportAs set to ngbDatepicker 这是我的代码
从 URL 插入图像

以下代码适用于大多数图像 URL 但对于此特定 URL 我收到错误 Sub test Sheets 1 Shapes AddPicture https images na ssl images amazon com images M MV5
如何将侦听器附加到列表视图？

我有一个ListView每行都有一个自定义布局TextView和三个EditText 当我单击其中的单个行时ListView一项活动启动后会将您带到另一页面我写了一些代码但它不起作用代码如下所示在适配器类 getView 方法中我
Picasso 从其 URI 加载可绘制资源

我必须展示一个drawable from res进入一个ImageView 在此应用程序中出于某些原因我使用毕加索在这种情况下我需要加载drawable使用它的 URI 而不是它的 id 为此这是我的代码 uri Uri parse
如何将多个文件作为单独的数据帧读取并在列上执行计算？

我计算单个股票的回报如下 data pd read csv r file csv data index data Date data Return data AAPL pct change 1 100 data out put Date A
接收 gcm 推送通知时刷新活动

Update GCM https developers google com cloud messaging 已弃用请使用FCM https firebase google com docs cloud messaging How to
如何覆盖温莎城堡中注册的组件？

我刚刚开始使用 Windsor 所以请温柔点我有一个场景我希望能够覆盖替换放置在 Windsor 容器内的组件继续阅读在我的产品代码中我希望能够注册一个实现基类的组件并使用容器来解析实现者到目前为止使用 container
如何在 cypress 中测试错误请求

我正在使用不正确的凭据测试 cypress 中的 POST 方法的日志记录这会返回 400 个错误请求我需要对其进行测试这就是我所拥有的 describe Login API Test Correct user login gt it
如何使用 pandas.assign 从 pandas DataFrame 索引创建新列

我正在尝试使用 pandas 分配方法创建一个新列该列从 Dataframe 索引中派生其值我真的很想使用分配函数来实现所需的输出我该怎么做呢提前致谢 import pandas as pd df pd DataFrame 1 2
新的 WPF 窗口仅显示在原始窗口下方

在我的 WPF 应用程序中主窗体上有一个 ListView 用于显示数据集中的绑定数据当用户双击 ListView 中的一行时会打开一个详细信息窗口在我的 XAML 中我使用了一种样式在列表视图上创建双击处理程序
从 php 向 ajax 发送错误消息

我正在尝试从 php 向 ajax 发送通知或错误消息我正在努力实现这样的目标 php if myString Send stringIsEmpty error to ajax else if myString foo Send st
Google API：使用 oauth2client.client 从刷新令牌获取凭据

我正在使用google官方oauth2client client来访问google 加上API 我有一个存储在数据库中的刷新令牌不会过期并且需要从中重新创建临时凭据访问令牌但我无法找到一种方法来使用谷歌提供的官方库来做到这一点
Scalaz 7 - 为什么使用类型别名会导致 Reader 的类型类解析不明确

用于测试的代码 import scalaz Reader Applicative class ReaderInstanceTest type IntReader A Reader Int A val a Applicative type l
JFileChooser 中的 UIManager 颜色

我正在使用 Nimbus 外观和感觉其颜色仅发生 3 处变化 UIManager put nimbusSelection new Color 164 164 164 UIManager put nimbusSelectionBackgro
如何解决ajax和php中JSON数据的SyntaxError：JSON.parse：第1行第1列的意外字符

如何解决这个错误 SyntaxError JSON parse unexpected character at line 1 column 1 of the JSON data 我正在向 ajax 和 php 发送一些数据这是我的ajax
DrawerLayout 必须使用 MeasureSpec.EXACTLY 错误进行测量

我正在尝试实现导航抽屉但我不断收到此错误我看到了类似的问题但对我不起作用我有以下布局activity main2 xml
TensorFlow“模块”对象没有属性“global_variables_initializer”

我是张量流新手我正在 iPython 笔记本上运行 Udacity 的深度学习作业 link https github com tensorflow tensorflow blob master tensorflow examples u
pandas加入DataFrame强制后缀？

如何在合并或连接上强制使用后缀我知道如果发生冲突可以提供一个但在我的情况下我将 df1 与 df2 合并这不会导致任何冲突但然后在使用后缀的 df2 上再次合并但我希望每次合并都有一个后缀因为如果我按照你的想象进行不同的组合
Spark错误：parquet.column.values.dictionary.PlainValuesDictionary$PlainIntegerDictionary

我在从配置单元表读取 Spark 数据帧时遇到问题我将数据框存储为 dataframe coalesce n files write option mergeSchema true mode overwrite parquet table

Spark错误：parquet.column.values.dictionary.PlainValuesDictionary$PlainIntegerDictionary

Spark错误：parquet.column.values.dictionary.PlainValuesDictionary$PlainIntegerDictionary 的相关文章

随机推荐

热门标签