从 Spark 保存分区 parquet HIVE 表时出现问题

2023-12-30

火花1.6.0 蜂巢1.1.0-cdh5.8.0

我在将数据帧从 Spark 保存到镶木地板支持的分区 Hive 表中时遇到一些问题。

这是我的代码：

val df = sqlContext.createDataFrame(rowRDD, schema)
df.write
  .mode(SaveMode.Append)
  .format("parquet")
  .partitionBy("year")
  .saveAsTable(output)

实际上没有什么特别的，但是当它生成时我无法从表中读取任何数据。

关键点在于分区 - 没有它一切都可以正常工作。以下是我解决问题的步骤：

首先，简单的 select hive 返回表未分区。 - 好吧，Spark 似乎忘记提及 DDL 中的分区方案。我修复了手动创建表格的问题
尝试 #2 - 仍然没有任何结果，实际上发生的是 hive 元存储不知道该表在 dwh 中有任何分区。通过以下方式修复它： hive> msck 修复表
尝试＃3 - 不，现在蜂巢爆发异常，类似：java.io.IOException：ort.apache.hadoop.hive.serde2.SerDeException：java.lang.NullPointerException。好吧，spark 定义了错误的序列化器。修复了它的设置STORED AS PARQUET
没有。不记得它是什么，但我意识到 Spark 用单列替换了我的方案：col数组 COMMENT '来自反序列化器' 我用正确的替换了它 - 又出现了一些问题。

到这里我就完成了。对我来说，spark 似乎生成了完全错误的 ddl 试图在 hive 中创建不存在的表。但是当我删除分区语句时，一切都工作得很好。

那么我错在哪里，或者也许有一个快速解决该问题的方法？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hive

partitioning

parquet

从 Spark 保存分区 parquet HIVE 表时出现问题的相关文章

如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计

随机推荐

如何预览 Java 应用程序中的任何文件？

我正在使用 JTree 浏览文件夹的内容我希望当用户单击文件时软件显示它的预览其第一页的屏幕截图文件主要是Office文档和PDF 我设法使用从 Sun 下载的模块来对 PDF 文件执行此操作但我想知道是否有办法使用任何软件最好
按列的子字符串对 Pandas Dataframe 进行排序

给定一个数据框 name email 0 Carl email protected cdn cgi l email protection 1 Bob email protected cdn cgi l email protection 2
使用 .NET 互操作编译 VB6 应用程序，仅在我的计算机上编译时运行

我最近在 NET 中开发了一个互操作用户控件 Visual Studio 2008 项目目标为 NET 2 0 以便在 VB6 应用程序中使用该程序集公开 1 个控件 1 个类以及一些枚举和结构我使用 C 翻译开发了它项目模板在这里找到
解析具有二元和一元运算符、保留字且不带括号的表达式

我正在尝试解析由二元运算符组成的表达式一元运算符not标识符可以是任何非字母字符串not from pyparsing import CaselessKeyword Combine Word alphas opAssoc infixNot
为什么 Postgres 的计划时间和执行时间如此不同？

我提出这样的查询 EXPLAIN ANALYZE BUFFERS SELECT COUNT id q day FROM my table WHERE role id ARRAY 15 17 GROUP BY day ORDER BY day
使用 Python-Selenium 自动登录 GMAIL

我正在尝试使用 Python 的 Selenium 包自动登录 GMail 但是我无法完成任务并收到以下错误 Traceback most recent call last File C Users Surojit Desktop Pyt
StretchDIBits 失败，有时什么也画不出来，

我正在使用 gdi c 如果我绘制大图像例如 7000 5000 StretchDIBits 功能有时会失败它什么也没画 GetLastError 表示系统资源不足任何人都可以解释为什么即使 DC 已成功准备 StretchDIBit
java中如何从另一个正在运行的线程访问方法

我是 Java 线程的新手我想做的是从 ThreadB 对象获取当前正在运行的线程 ThreadA 的实例的访问权限并调用其名为 setSomething 的方法 1 我认为我比实际情况更加努力 2 我有一个空指针异常所以我在访问该方
在 C# 循环中使用 ThreadPool

我对线程不太了解但以下代码是否可以接受我更担心在循环中使用线程池 string filePaths GetFilePaths foreach string filePath in filePaths ThreadPool QueueUs
如何在codeigniter活动记录中使用select插入记录

我想使用 CodeIgniter Active Record 类实现 sql 查询查询看起来像这样 INSERT california authors au id au lname au fname SELECT au id au lna
如何将 HTML5 拖放与 KnockoutJS 结合使用？

我似乎无法绑定到 html5 拖放事件以下是来自模板的示例
根据公共后缀列表从 URL 中提取注册域

给定一个 URL 如何使用以下命令提取注册域公共后缀列表 http publicsuffix org list 有效 TLD 列表例如这个清单 http mxr mozilla org mozilla central source net
如何将 PHP DateTime 对象转换为 ISO 字符串？

我收到了一个 MS 格式的 JSON 日期日期它看起来像这样 Date 1365004652303 我可以通过执行以下操作将其转换为 PHP DateTime 对象 timestamp round int originalMSdate 1
SQL 子查询返回超过 1 个值

我的查询导致以下错误消息 512 级别 16 状态 1 过程 Item insupd 第 17 行子查询返回超过 1 个值当子查询跟在 gt 后面或子查询用作表达式时这是不允许的 Query INSERT INTO Total Dat
将数据附加到已存在的 AudioBuffer 对象

我正在寻找将数据附加到already现存的音频缓冲区 https developer mozilla org en US docs Web API AudioContext createBuffer正在使用网络音频播放收到要播放的音频数据
在 gdb-multiarch 中指定架构

如果我使用任何arm编译器编译C程序例如arm none eabi gcc 然后调用gdb multiarch使用二进制文件作为第二个参数它将正确确定机器类型并且我可以调试我的远程应用程序然而如果我打电话gdb multiarch就
Linux 中以百分比形式准确计算 CPU 使用率？

这是一个已经被问过很多次的问题但是我找不到得到充分支持的答案许多人建议使用 top 命令但如果您运行 top 一次因为您有一个脚本例如每 1 秒收集一次 Cpu 使用情况它将始终给出相同的 Cpu 使用结果示例1 https
“COM”、“USB”、“串口”有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我对这3个概念很困惑我的理解是 Serial Port通常表示 RS 232 兼容端口 RS 推荐标准 USB代表Universal S
如何使用 $.getJSON 从博主提要获取数据

我想从博主提要中获取数据使用 getJSON 函数我使用此代码来获取版本但它不起作用
从 Spark 保存分区 parquet HIVE 表时出现问题

火花1 6 0 蜂巢1 1 0 cdh5 8 0 我在将数据帧从 Spark 保存到镶木地板支持的分区 Hive 表中时遇到一些问题这是我的代码 val df sqlContext createDataFrame rowRDD schem

从 Spark 保存分区 parquet HIVE 表时出现问题

从 Spark 保存分区 parquet HIVE 表时出现问题 的相关文章

随机推荐

热门标签

从 Spark 保存分区 parquet HIVE 表时出现问题的相关文章