尝试覆盖 Hive 分区时写入 __HIVE_DEFAULT_PARTITION__ 的行已损坏

2024-03-18

当尝试使用 Spark 2.3 覆盖 Hive 表中的分区时，我看到一些非常奇怪的行为

首先，我在构建 SparkSession 时设置以下设置：

.config("spark.sql.sources.partitionOverwriteMode", "dynamic")

然后，我将一些数据复制到新表中，并按 date_id 列进行分区。

ds
  .write
  .format("parquet")
  .option("compression", "snappy")
  .option("auto.purge", "true")
  .mode(saveMode)
  .partitionBy("date_id")
  .saveAsTable("tbl_copy")

我可以在HDFS中看到相关的date_id目录已经创建。

然后，我创建一个 DataSet，其中包含我希望覆盖的分区的数据，其中包含单个 date_id 的数据，并将其插入到 Hive 中，如下所示：

  ds
    .write
    .mode(SaveMode.Overwrite)
    .insertInto("tbl_copy")

作为完整性检查，我将相同的数据集写入新表。

      ds
        .write
        .format("parquet")
        .option("compression", "snappy")
        .option("auto.purge", "true")
        .mode(SaveMode.Overwrite)
        .saveAsTable("tmp_tbl")

tmp_tbl 中的数据与预期完全一致。

然而，当我查看 tbl_copy 时，我看到一个新的 HDFS 目录 `date_id=HIVE_DEFAULT_PARTITION

查询 tbl_cpy

SELECT * from tbl_copy WHERE date_id IS NULL

我看到应该插入分区 date_id=20180523 的行，但是 date_id 列为空，并且不相关的 row_changed 列已填充值 20180523。

看来插入 Hive 不知何故导致我的数据被破坏。将相同的数据集写入新表不会导致任何问题。

有人能解释一下吗？

因此看来分区列必须是数据集中的最后一个。

我通过将以下方法添加到 Dataset[T] 上解决了这个问题。

def partitionsTail(partitionColumns: Seq[String]) = {
  val columns = dataset.schema.collect{ case s if !partitionColumns.contains(s.name) => s.name} ++ partitionColumns

  dataset.select(columns.head, columns.tail: _*).as[T]
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hive

apachesparksql

尝试覆盖 Hive 分区时写入 __HIVE_DEFAULT_PARTITION__ 的行已损坏的相关文章

使用 zeppelin 在 kubernetes 上 Spark

我按照本指南在使用 minikube 设置的本地 kubernetes 集群中运行 zeppelin 容器 https zeppelin apache org docs 0 9 0 SNAPSHOT quickstart kubernete
Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

我正在尝试从大文本文档集合 TF IDF 向量在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送稀疏向量由 HashingTF transform 函数创建无论我使用的并行程度如何通过合并函数 KMea
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
了解 mesos 上 Spark 作业的资源分配

我正在 Spark 中开发一个项目最近从使用 Spark Standalone 切换到使用 Mesos 进行集群管理我现在发现自己对新系统下提交作业时如何分配资源感到困惑在独立模式下我使用了类似的东西遵循一些建议这篇 Cloude
如何找到两个数组列之间的共同元素？

我有两个以逗号分隔的字符串列 sourceAuthors and targetAuthors val df Seq Author1 Author2 Author3 Author2 Author3 Author1 toDF source ta
Spark Dataframe 列可为 null 的属性更改

我想更改 Spark Dataframe 中特定列的可为空属性如果我当前打印数据框的模式它看起来如下所示 col1 string nullable false col2 string nullable true col3 string
PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
Pyspark 将多个列合并为一个 json 列

我不久前问过 python 的问题但现在我需要在 PySpark 中做同样的事情我有一个像这样的数据框 df cust id address store id email sales channel category 1234567 1
Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化

给定一个表格设计不可为 null 的 uuid列和a可为空的 uuid列如何使用 python 3 7 9 与 Pyspark 2 4 3 数据帧和 postgresql 42 2 18 jar 驱动程序进行插入 table df spa
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
scala.collection.Seq 不适用于 Java

Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org

随机推荐

具有不同 uv 坐标的 OpenGL ES 1 多重纹理

我需要使用多重纹理渲染一个对象但两个纹理对于同一对象具有不同的 uv 坐标一张是法线贴图另一张是光照贴图请提供与此相关的任何有用材料在 OpenGL ES 2 中无论如何你都会使用着色器因此您可以完全自由地使用您喜欢的任何纹
为 RDBMS（MySQL 数据库）创建 SPARQL 端点的最佳方法

我正在想做一些链接开放数据集的实验特别是政府推出的实验我有一个 RDBMS 更具体地说是 MySQL 我设计它时考虑了语义网络的想法即我将信息存储为对象谓词和定义对象的类反过来所有对象通过主语 gt 谓词 gt 宾语形式的语
OpenId + 记住我/保持登录状态

我有一个问题关于如何什么是使用 OpenId 并提供保持登录状态的最佳方法例如如果我查看 Stackoverflow 我已经使用 Google 登录如果我关闭浏览器并返回它仍然显示我已登录 However 我没有登录谷歌而且我
Rails 引擎存在外键问题

我正在开发一个 Rails 引擎这是我的gem gemspec s required ruby version gt 2 0 0 s add dependency rails gt 4 2 0 s add dependency enume
angularjs - 在范围或 ng-model 上使用“字符串”名称

在普通的 JavaScript 中你可以像这样声明变量 var obj obj item text obj item text 这里给出的例子 http jsbin com petafu 1 edit http jsbin com pet
Google Play 排行榜 UI 颜色更改

在我刚刚开发的游戏中直到一周前排行榜 UI 颜色还是深半透明的绿色这看起来感觉很好至少对眼睛不刺激突然之间它变成了明亮的半透明红色并且从那时起就一直保持这种颜色这种颜色与我游戏的任何阶段的任何屏幕都不匹配这是我的排行榜屏幕
如何在 Dart 中创建 HTML 链接？

我想用 Dart 创建一个 HTML 链接在 HTML 中我会写 You can click a href url 1 here a and a href url 2 there a 我不知道如何在 Dart 中做到这一点我尝试过类似的
Python xlwt 创建错误的 Excel 书

我正在尝试使用xlwt创建具有多个选项卡的输出文件 xlsx 格式我的Python版本号是2 7 我使用Aptana Studio 3作为IDE 我用过xlwt包之前具有相同的环境执行相同的任务效果很好但这一次一开始运行良好然
将 gcc libs .data 放在特定部分？

我正在尝试为我们的嵌入式系统切换到 GNU GCC 编译器但由于我们芯片的内存布局被分割我在链接该项目时遇到了问题 RAM section 1 0x10000 0x12FFF RAM section 2 0x18000 0x1BFFF
Express js中通过id删除mongodb文档

我正在为此抓狂尝试通过 id 删除文档 router delete api menu delete id function req res var id req params id db get collection menu funct
如何在自定义验证属性中获取/注入服务

我们使用 NET Core 3 1 5 这是一个 Blazor 服务器应用程序我们有一个 ValidationAttribute 并需要访问外部服务来验证对象 ValidationAttribute 有 IsValid 方法 protec
有没有办法在 C# 中修改进程 DACL

我有更改进程 DACL 的遗留 C 代码并尝试使用 NET 3 5 中的托管代码类我在网上找到了代码其中有人创建了一个 SetAclOnServices 类该类扩展了服务的 NativeObjectSecurity 类我认为我可以
jQuery 数据表中的列排序

我已经了解了 jQuery 数据表插件中的列排序以及控制它的各种方法我有一个查询是否可以通过单击上箭头图标将按升序和下箭头图标进行排序的方式控制排序会按降序排序吗有两种方法可以做到这一点具体取决于datatables版本编辑数据表版
如何在Python中将一个对象的所有属性复制到另一个对象？

在Python中是否有一个库方法可以复制同一类的两个已经存在的实例之间的所有属性我的意思是类似 Apache Commons 的东西PropertyUtilsBean copyProperties Try destination
ActiveRecord 查询比直接 SQL 慢得多？

我一直致力于优化项目的数据库调用我注意到下面两个相同的调用之间的性能存在显着差异 connection ActiveRecord Base connection pgresult connection execute SELECT S
当我“推”到 Bitbucket 时，可以从 VPS 中“拉”一个钩子

我正在 Bitbucket 中管理我的 WordPress 模板每次我push主题我必须登录我的 VPS 服务器并且pull回购协议我想自动完成如果我自己运行 git daemon 我找到了一个解决方案推送到服务器后执行自动拉取请
基于现有模板生成Word文档的最佳方法是什么

TL DR 我可以使用 NET 生成 Word 文档如 XAML ItemTemplates 吗我发现很难找到一个满足我所有要求的解决方案所以我想我会把它扔到 stackoverflow 希望有人能指导我非常感谢简单来说我需要根
如何根据条目的长度过滤 pandas 数据框

在 pandas 数据框中我有一个字段 amp 应由长度为 495 的列表填充是否有一种 pandas ic 方法可以快速过滤此长度使得具有字段 amp 的所有行不等于 495被丢弃 I tried df len df amp 495
如何将 SQL 查询与不同的表达式结合起来？

我的三个查询已经达到了我的 SQL 知识的顶峰 Microsoft SQL 2005 如果这很重要现在我需要将它们组合成一个查询并将所有值放在一行上我的实际查询如下但我认为如果我在这里提供一个简单的版本会更容易查询一 Provid
尝试覆盖 Hive 分区时写入 __HIVE_DEFAULT_PARTITION__ 的行已损坏

当尝试使用 Spark 2 3 覆盖 Hive 表中的分区时我看到一些非常奇怪的行为首先我在构建 SparkSession 时设置以下设置 config spark sql sources partitionOverwriteMode

尝试覆盖 Hive 分区时写入 __HIVE_DEFAULT_PARTITION__ 的行已损坏

尝试覆盖 Hive 分区时写入 __HIVE_DEFAULT_PARTITION__ 的行已损坏 的相关文章

随机推荐

热门标签

尝试覆盖 Hive 分区时写入 __HIVE_DEFAULT_PARTITION__ 的行已损坏的相关文章