Hive分区表修改(增删)列

2023-05-16

文章目录

  • 一、环境及测试数据
  • 二、 删除列
    • 2.1 测试表test2
    • 2.2 DDL删除列?
    • 2.3 代码连接Hive Metastore删除列
      • 2.3.1 同时更新表与分区元数据
  • 三、添加列
  • 结论
  • 参考链接

一、环境及测试数据

环境:CDH6.3.0,Hive 2.1.1-cdh6.3.0

基础数据分区表test1,包含a,b,c,d共4列加分区列p_day,向其中插入两行数据

create table test1(a int,b bigint,c float,d string) partitioned by(p_day string) stored as parquet;

insert into test1 partition(p_day) values(1,11,1.1,'str1','2022-11-19'),(2,22,2.2,'str2','2022-11-19');

表中数据及parquet文件信息如下:

0: jdbc:hive2://dev-master1:10000 > select * from test1;
+----------+----------+----------+----------+--------------+
| test1.a  | test1.b  | test1.c  | test1.d  | test1.p_day  |
+----------+----------+----------+----------+--------------+
| 1        | 11       | 1.1      | str1     | 2022-11-19   |
| 2        | 22       | 2.2      | str2     | 2022-11-19   |
+----------+----------+----------+----------+--------------+
[hive@dev-master1 tmp]$ hdfs dfs -get /user/hive/warehouse/debug_test.db/test1/p_day=2022-11-19/000000_0 ./
[hive@dev-master1 tmp]$ parquet-tools schema 000000_0
message hive_schema {
  optional int32 a;
  optional int64 b;
  optional float c;
  optional binary d (STRING);
}

[hive@dev-master1 tmp]$ parquet-tools cat 000000_0
a = 1
b = 11
c = 1.1
d = str1

a = 2
b = 22
c = 2.2
d = str2

二、 删除列

2.1 测试表test2

create table test2(b bigint,a int,c float) partitioned by(p_day string) stored as parquet;

test2表直接使用test1表的文件:

[hive@dev-master1 tmp]$ hdfs dfs -mkdir /user/hive/warehouse/debug_test.db/test2/p_day=2022-11-19
[hive@dev-master1 tmp]$ hdfs dfs -cp /user/hive/warehouse/debug_test.db/test1/p_day=2022-11-19/000000_0 /user/hive/warehouse/debug_test.db/test2/p_day=2022-11-19/

修复分区并查询数据

msck repair table test2;
select * from test2;
+----------+----------+----------+--------------+
| test2.b  | test2.a  | test2.c  | test2.p_day  |
+----------+----------+----------+--------------+
| 11       | 1        | 1.1      | 2022-11-19   |
| 22       | 2        | 2.2      | 2022-11-19   |
+----------+----------+----------+--------------+

2.2 DDL删除列?

删除test2表的a列,看起来只有通过replace columns实现,但是运行报错,根据官方文档,只有表的序列化方式为native SerDe(DynamicSerDe, MetadataTypedColumnsetSerDe, LazySimpleSerDe and ColumnarSerDe)才能执行。

0: jdbc:hive2://dev-master1:10000> alter table test2 replace columns(b bigint,c float);
INFO  : Compiling command(queryId=hive_20221119180121_23e7971f-7b2f-4693-90b9-469ec44a97bd): alter table test2 replace columns(b bigint,c float)
INFO  : Semantic Analysis Completed
INFO  : Returning Hive schema: Schema(fieldSchemas:null, properties:null)
INFO  : Completed compiling command(queryId=hive_20221119180121_23e7971f-7b2f-4693-90b9-469ec44a97bd); Time taken: 1.479 seconds
INFO  : Executing command(queryId=hive_20221119180121_23e7971f-7b2f-4693-90b9-469ec44a97bd): alter table test2 replace columns(b bigint,c float)
INFO  : Starting task [Stage-0:DDL] in serial mode
ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Replacing columns cannot drop columns for table debug_test.test2. SerDe may be incompatible
INFO  : Completed executing command(queryId=hive_20221119180121_23e7971f-7b2f-4693-90b9-469ec44a97bd); Time taken: 0.018 seconds
Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Replacing columns cannot drop columns for table debug_test.test2. SerDe may be incompatible (state=42000,code=1)

2.3 代码连接Hive Metastore删除列

主要Maven依赖:

用代码连接Hive MetaStore修改可以成功:

package com.bigdata.databasetest.hive.metastore;

import org.apache.hadoop.hive.conf.HiveConf;
import org.apache.hadoop.hive.metastore.HiveMetaStoreClient;
import org.apache.hadoop.hive.metastore.api.FieldSchema;
import org.apache.hadoop.hive.metastore.api.Table;
import org.apache.thrift.TException;

import java.util.List;
import java.util.stream.Collectors;


/**
 * ClassName: HiveMetaStoreClientTest
 * Description:
 *
 * @author 0x3E6
 * @version 1.0.0
 * @date 2022/11/19 17:12
 */
public class HiveMetaStoreClientTest {

    public static void main(String[] args) throws TException {
        HiveConf hiveConf = new HiveConf();
        System.setProperty("HADOOP_USER_NAME", "hive");
        hiveConf.set(HiveConf.ConfVars.METASTOREURIS.varname, "thrift://dev-master1:9083");
        try (HiveMetaStoreClient client = new HiveMetaStoreClient(hiveConf)) {
            Table table = client.getTable("debug_test", "test2");
            List<FieldSchema> cols = table.getSd().getCols();
            cols = cols.stream().filter(fieldSchema -> !"a".equalsIgnoreCase(fieldSchema.getName())).collect(Collectors.toList());
            table.getSd().setCols(cols);
            client.alter_table("debug_test", "test2", table);
        }
    }
}

这样查询数据有问题,不论sql是否带分区:

select * from test2;
select * from test2 where p_day='2022-11-19';

查询结果为:

+----------+----------+--------------+
| test2.b  | test2.c  | test2.p_day  |
+----------+----------+--------------+
| 11       | NULL     | 2022-11-19   |
| 22       | NULL     | 2022-11-19   |
+----------+----------+--------------+

因为只改了表的元数据,而未改分区的元数据。

0: jdbc:hive2://dev-master1:10000> desc test2;
+--------------------------+-----------------------+-----------------------+
|         col_name         |       data_type       |        comment        |
+--------------------------+-----------------------+-----------------------+
| b                        | bigint                |                       |
| c                        | float                 |                       |
| p_day                    | string                |                       |
|                          | NULL                  | NULL                  |
| # Partition Information  | NULL                  | NULL                  |
| # col_name               | data_type             | comment               |
|                          | NULL                  | NULL                  |
| p_day                    | string                |                       |
+--------------------------+-----------------------+-----------------------+
0: jdbc:hive2://dev-master1:10000> desc test2 partition(p_day='2022-11-19');
+--------------------------+-----------------------+-----------------------+
|         col_name         |       data_type       |        comment        |
+--------------------------+-----------------------+-----------------------+
| b                        | bigint                |                       |
| a                        | int                   |                       |
| c                        | float                 |                       |
| p_day                    | string                |                       |
|                          | NULL                  | NULL                  |
| # Partition Information  | NULL                  | NULL                  |
| # col_name               | data_type             | comment               |
|                          | NULL                  | NULL                  |
| p_day                    | string                |                       |
+--------------------------+-----------------------+-----------------------+

具体原理及原因还未分析,但可以修复,只需要保持分区的列与表的列顺序一致,无法执行REPLACE COLUMNS语句,通过CHANGE COLUMNS语句将c列移动到a列之前:

alter table test2 partition(p_day='2022-11-19') change column c c float after b;
select * from test2 where p_day='2022-11-19';
+----------+----------+--------------+
| test2.b  | test2.c  | test2.p_day  |
+----------+----------+--------------+
| 11       | 1.1      | 2022-11-19   |
| 22       | 2.2      | 2022-11-19   |
+----------+----------+--------------+

2.3.1 同时更新表与分区元数据

ALTER TABLE语句可以添加CASCADE,更新表元数据的同时级联更新分区元数据,Hive MetaStoreClient API也可以使用带CASCADE的方法,前面的代码调用的HiveMetaStoreClient的alter_table(String dbname, String tbl_name, Table new_tbl)方法,可以调用alter_table(String defaultDatabaseName, String tblName, Table table, boolean cascade)方法,新建表test3与test2结构一致,也同样把test1的数据拷贝到表test3,再通过代码删除表test3的列a:

package com.bigdata.databasetest.hive.metastore;

import org.apache.hadoop.hive.conf.HiveConf;
import org.apache.hadoop.hive.metastore.HiveMetaStoreClient;
import org.apache.hadoop.hive.metastore.api.FieldSchema;
import org.apache.hadoop.hive.metastore.api.Table;
import org.apache.thrift.TException;

import java.util.List;
import java.util.stream.Collectors;


/**
 * ClassName: HiveMetaStoreClientTest
 * Description:
 *
 * @author 0x3E6
 * @version 1.0.0
 * @date 2022/11/19 17:12
 */
public class HiveMetaStoreClientTest {

    public static void main(String[] args) throws TException {
        HiveConf hiveConf = new HiveConf();
        System.setProperty("HADOOP_USER_NAME", "hive");
        hiveConf.set(HiveConf.ConfVars.METASTOREURIS.varname, "thrift://dev-master1:9083");
        try (HiveMetaStoreClient client = new HiveMetaStoreClient(hiveConf)) {
            Table table = client.getTable("debug_test", "test3");
            List<FieldSchema> cols = table.getSd().getCols();
            cols = cols.stream().filter(fieldSchema -> !"a".equalsIgnoreCase(fieldSchema.getName())).collect(Collectors.toList());
            table.getSd().setCols(cols);
//            client.alter_table("debug_test", "test2", table);
            client.alter_table("debug_test", "test3", table, true);
        }
    }
}

更新后表test3可正常查询:

0: jdbc:hive2://dev-master1:10000> select * from test3;
+----------+----------+--------------+
| test3.b  | test3.c  | test3.p_day  |
+----------+----------+--------------+
| 11       | 1.1      | 2022-11-19   |
| 22       | 2.2      | 2022-11-19   |
+----------+----------+--------------+

表与分区元数据也相同:

0: jdbc:hive2://dev-master1:10000> desc test3;
+--------------------------+-----------------------+-----------------------+
|         col_name         |       data_type       |        comment        |
+--------------------------+-----------------------+-----------------------+
| b                        | bigint                |                       |
| c                        | float                 |                       |
| p_day                    | string                |                       |
|                          | NULL                  | NULL                  |
| # Partition Information  | NULL                  | NULL                  |
| # col_name               | data_type             | comment               |
|                          | NULL                  | NULL                  |
| p_day                    | string                |                       |
+--------------------------+-----------------------+-----------------------+
0: jdbc:hive2://dev-master1:10000> desc test3 partition(p_day='2022-11-19');
+--------------------------+-----------------------+-----------------------+
|         col_name         |       data_type       |        comment        |
+--------------------------+-----------------------+-----------------------+
| b                        | bigint                |                       |
| c                        | float                 |                       |
| p_day                    | string                |                       |
|                          | NULL                  | NULL                  |
| # Partition Information  | NULL                  | NULL                  |
| # col_name               | data_type             | comment               |
|                          | NULL                  | NULL                  |
| p_day                    | string                |                       |
+--------------------------+-----------------------+-----------------------+

三、添加列

根据Hive文档,可通过ADD COLUMNS语句添加列,ADD COLUMNS语句会将指定的列添加到(除分区列外)其他列后面。

ALTER TABLE table_name 
  [PARTITION partition_spec]                 -- (Note: Hive 0.14.0 and later)
  ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
  [CASCADE|RESTRICT]                         -- (Note: Hive 1.1.0 and later)

如果使用Hive MetaStoreClient API不小心将列加到了(除分区列)外其他列之间,且造成了表与分区列顺序不同,也可结合CHANGE COLUMNS语句修改表或分区的列顺序恢复即可:

ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type
  [COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT];

结论

可以通过Hive MetaStoreClient API增删Hive列,但必须保持Hive表与各分区元数据的列顺序一致。

参考链接

  • Hive LanguageManual DDL
  • Parquet格式表重命名列名后Hive查询列数据显示NULL异常分析
  • Java调用Hive-metastore接口
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hive分区表修改(增删)列 的相关文章

  • k8s的dashboard无法正常访问

    本场景为使用google浏览器访问vmware搭建的虚拟机 建议使用google浏览器的无痕模式 网页提示信息Client sent an HTTP request to an HTTPS server 原因 xff1a 因为直接使用ip
  • k8s删除pod失败,一直处于deleted的界面

    我们在删除pod的时候出现以下情况 xff1a span class token comment 删除pod span span class token punctuation span root 64 master1 yaml span
  • journalctl命令

    journalctl简介 journalctl命令是Systemd的 个命令 xff0c 是用来管理查看日志信息的 因为日志的信息多 xff0c 复杂 xff0c journalctl命令用参数的方式来帮助用户更快地定位日志 注释 xff1
  • 如何在微信小程序里使用Lottie动画库

    先看效果图 xff1a 前言 xff1a 微信小程序的lottie动画库是按照lottie web动画库改造而来 参考lottie web xff1a https github com airbnb lottie web xff0c 以及官
  • mysql中grant all privileges on赋给用户远程权限

    mysql中grant all privileges on赋给用户远程权限 改表法 当你的帐号不允许从远程登陆 xff0c 只能在localhost连接时 这个时候只要在mysql服务器上 xff0c 更改 mysql 数据库里的 user
  • Shell之function函数的定义及调用

    文章目录 96 function 96 函数的定义及调用 96 function 96 函数的定义 96 function 96 函数的调用 位置传参 函数使用return返回值 位置传参 函数的调用 数组传参 function函数的定义及
  • springboot集成activeMQ实现Queue队列

    1 首先下载 activeMQ地址 xff1a https activemq apache org 下载完成以后 xff0c 进行启动 启动步骤很简单 xff0c 就tomcat差不多 这里要注意 xff0c 看你电脑是32位还是64位 x
  • Docker Desktop Vmmem内存占用过高问题解决方案

    Docker Desktop Vmmem内存占用过高问题解决方案 内存占用过高原因 主要原因是docker desktop的实现及基于wsl Windows子系统 相当于在Windows上同时开了一个虚拟机 如果不对wsl的资源进行限制 它
  • spring mvc 预习

    spring mvc 概述 Web 框架 xff0c 是目前最主流的 MVC 框架之一 Spring3 0 后全面超越 Struts2 xff0c 成为最优秀的 MVC 框架 Spring MVC 通过一套 MVC 注解 xff0c 让 P
  • windows server 2012 进程 出现大量桌面窗口管理器的 解决方法

    windows server 2012 进程 出现 桌面窗口管理器 打开运行 打Cmd xff0c 执行 taskkill f im winlogon exe t 记住 这个命令会让远程桌面黑屏 xff0c 不要着急 xff0c 远程按下C
  • 在线医疗系统(毕设)

    小白的成长之路从自己写毕设开始 从整个设计说明书中截取了一部分 相关技术 Springboot VUE MySQL数据库 Bootstrap AJAX 融云 shiro等总体设计 数据库相关表设计 数据库截图了一张图 详细设计与实现 系统整
  • Android 终极推送方案(结束应用进程依然可以接收通知)

    开发中总会遇到产品经理需求是 xff1a 结束掉应用依然想接收到通知 xff0c iOS轻而易举就可以实现 xff0c 但Android一直都是杀掉应用后就无法接收到通知 xff01 网上给的结果大概是 xff1a 1 集成各大厂商的推送s
  • error: resource android:attr/lStar not found完美解决

    今天突然项目出现如下错误 xff0c 编译就报错 D AndroidProjects XXXXX app build intermediates incremental mergeDebugResources merged dir valu
  • android 动态引用含占位符的字符串时,出现红波浪线如何解决

    现象 xff1a 在开发时 xff0c 想动态引用含占位符的字符串 xff0c 发现有红色波浪线警告 xff0c 项目可以正常运行 xff0c 既然是警告 xff0c 肯定就是我们代码有问题 将鼠标放上去提示警告 xff1a Format
  • Mac电脑安装apktool工具包

    开发中少不了想看看别人怎么实现某个功能 xff0c 于是会用到apktool反编译apk xff0c apktool工具包是一个压缩包 xff0c 下载后无需安装 xff0c 简单配置下执行命令就能反编译apk了 xff0c 下面我们看一下
  • 查看 AndroidManifest.xml 文件内容,解决全是二进制代码问题

    想查看打包后apk的AndroidManifest xml文件内容 xff0c 之前都是将后缀apk改为zip xff0c 直接解压查看 xff0c 有时会遇到都是二进制代码 xff0c 给出集中查看明文的方法 xff1a 方法一 通过an
  • unknown error (Sqlite code 14): Could not open database解决方案

    今天在运行之前一个项目是突然一运行就崩溃 xff0c 感觉甚是奇怪 xff0c 查看log日志发现 Caused by android database sqlite SQLiteCantOpenDatabaseException unkn
  • Android RecyclerView Item点击事件

    RecyclerView控件出来后可以代替ListView xff0c 功能更强大 xff0c 但是RecyclerView却没有ListView的setOnItemClickListener和setOnLongClickListener方
  • GitHub上README.md编写教程(基本语法)

    今天在编写github中的readme md文档时 xff0c 发现自己写的和别人写的样式完全不一样 xff0c 自己的好难看 xff0c 于是百度了一番 xff0c 很多都是转载的别人13年的博客 xff0c 其中还发现一片17年写的原创
  • android 平板适配

    首次进行平板开发 xff0c 从一开始就在琢磨适配是怎么弄的 xff0c 百度 google 群一大圈 xff0c 还是没人告诉具体是怎么做的 xff0c 都是基本的概念性的讲述怎么适配 xff0c 写了一个界面发现存在很大适配问题 xff

随机推荐

  • Linux下常用的优秀软件

    Linux下优秀软件介绍 常用软件工具软件美化图像视频相关音频播放器下载工具科研利器终端Windows下常用软件运行 常用软件 下面的软件均是本人使用过的 xff0c 如果大家有自己觉得很好的软件 xff0c 欢迎留言 xff0c 好的软件
  • Charles抓包遇到的坑,看这一篇就够了

    Android 7 0 xff08 API 24 xff09 以下 xff0c 你可以直接使用 Charles 安装相关证书配置好代理后实现抓包功能 xff0c 本文主要讲android7 0以后如何实现抓包功能 xff1a 首先下载安装C
  • Bad notification posted from: Couldn't expand RemoteViews for: StatusBarNotification

    自定义通知栏有些机型报下面的错 xff1a android app RemoteServiceException Bad notification posted from package xxx Couldn 39 t expand Rem
  • SCP不用密码传输文件

    SCP不用密码传输文件 方法一 xff1a 使用sshpass yum install sshpass sshpass p password scp data scripts data log root 64 X X X X data da
  • 新版Unity里面怎么使用Post Process

  • 在Unity中使用.NET 4.x和在Unity项目添加外部程序集

    2019版本已经没有4 x等效运行选项了 xff1a 应该是只能选择4 x等效Api 然后API等级选择有两种选择 xff1a NET Standard 2 0 此配置文件与 NET Foundation发布的 NET Standard 2
  • Unity使用.NET4.x新的语法和语言功能

  • UE4设置 只修改蓝图节点的语言为英文

    原因 因为在查找需要的节点时 xff0c 输入英文更符合命名法 xff0c 为了更好的查找节点 xff0c 把节点的名字改成英文当然更好 xff01 操作步骤 取消下面的勾选即可 结果
  • Unity的InputSystem使用实践

    如何使用 首先得有一个PlayerInput在场景中 xff0c 每一个PlayerInput表示一个玩家 在Actions里面选择自己的Actions xff0c 可以新建 xff1a 比如在PlayerMaps中的MoveActions
  • 虚幻4C++编程入门(搬运1)

    首先我们将使用虚幻编辑器中的类向导生成基础 C 43 43 类 xff0c 以便蓝图稍后进行延展 下图展示了向导的第一步 新建一个 Actor 这里根据对character pawn和actor的描述 xff0c 知道了pawn是actor
  • 虚幻4C++编程入门深入了解

    这部分我们将讨论基础构建块以及它们之间相互关联的方式 在此我们将了解虚幻引擎如何使用 继承和合成构建自定义游戏性功能 游戏性类 xff1a 对象 Actor 和组件 多数游戏性类派生自 4 个主要类型 它们是 UObject AActor
  • 窗口焦点丢失问题分析

    从slog中的systemlog可以看出如下信息 xff1a 01 01 08 29 03 732 633 936 I WindowManager Relayout invis Window 42244420 u0 Keyguard mEx
  • ubuntu不能挂载U盘问题

    插上U盘一个弹窗显示不能挂载系统 就不附图了 自己也是在到处找了问题 xff0c 试了很多教程 xff0c 要么看不懂要么没用要么瞎写的 最后实测一个有用的 因为ubuntu默认不能识别U盘 解决方法 xff1a 安装exfat磁盘格式工具
  • unity3d个人版怎么改变主题=>黑色

    是有很多文章都有介绍如何使用操作 xff0c 我就不再多说 xff0c 主要是那个软件的问题 xff08 在下面我会附上winhex的下载地址和详细教程 xff09 一般会出问题的地方是试用版会出很多问题 xff0c 比如什么200k以上不
  • 【正则表达式】基础应用(匹配matches(regex))(转)

    正则表达式基础应用 匹配 字符 x 字符 x 反斜线字符 字符类 abc a b 或 c xff08 简单类 xff09 abc 任何字符 xff0c 除了 a b 或 c xff08 否定 xff09 a zA Z a 到 z 或 A 到
  • 一种动态更新flink任务配置的方法

    文章目录 1 原理2 例 xff0c 整数过滤2 1 并行度为12 2 并行度大于12 3 完整代码 参考链接 1 原理 参考Flink Spark 如何实现动态更新作业配置 xff0c 讲得比较详细 xff0c 这篇的文章的参考参考文献也
  • 一种Hudi on Flink动态同步元数据变化的方法

    文章目录 一 背景二 官方Schema Evolution例子三 Flink 43 Hudi实现Schema Evolution四 96 HoodieFlinkStreamer 96 流程浅析及扩展方法4 1 FlinkKafkaConsu
  • 一种处理Hive元数据与文件类型不同时SQL查询失败的方法

    文章目录 一 背景二 分析过程2 1 环境及测试数据2 1 1 环境2 1 2 测试数据 2 2 select语句异常分析2 2 1 异常分析2 2 2 捕获异常位置 2 3 insert overwrite语句异常分析2 3 1 异常分析
  • 一种处理Hive元数据与文件类型不同时SQL查询失败的方法(二)

    文章目录 一 异常触发SQL二 异常处理三 Hive on Spark依赖的Hive jar包部署 继上一篇之后 xff0c 又发现了一种新的报错位置 本篇对这种情况进行处理 xff0c 并验证这种处理方式是否适用于Hive on Spar
  • Hive分区表修改(增删)列

    文章目录 一 环境及测试数据二 删除列2 1 测试表test22 2 DDL删除列 xff1f 2 3 代码连接Hive Metastore删除列2 3 1 同时更新表与分区元数据 三 添加列结论参考链接 一 环境及测试数据 环境 xff1