Hive表的分区与分桶

2023-11-03

1.Hive分区表

Hive使用select语句进行查询的时候一般会扫描整个表内容，会消耗很多时间做没必要的工作。Hive可以在创建表的时候指定分区空间，这样在做查询的时候就可以很好的提高查询的效率。

创建分区表的语法：

create table tablename(
       name string
)partitioned by(key,type...);

示例

drop table if exists employees;
create table  if not exists employees(
       name string,
       salary float,
       subordinate array<string>,
       deductions map<string,float>,
       address struct<street:string,city:string,num:int>
) partitioned by (date_time string,type string)
row format delimited fields terminated by '\t'
collection items terminated by ','
map keys terminated by ':'
lines terminated by '\n'
stored as textfile
location '/hive/inner';

附：上述语句表示在建表时划分了date_time和type两个分区也叫双分区，一个分区的话就叫单分区，上述语句执行完以后我们查看表的结果会发现多了分区的两个字段。

desc employees;

结果如下：

注：在文件系统中的表现为date_time为一个文件夹，type为date_time的子文件夹。

向分区表中插入数据(要指定分区)

hive> load data local inpath '/usr/local/src/employee_data' into table employees partition(date_time='2015-01_24',type='userInfo');
Copying data from file:/usr/local/src/employee_data
Copying file: file:/usr/local/src/employee_data
Loading data to table default.employees partition (date_time=2015-01_24, type=userInfo)
OK
Time taken: 0.22 seconds
hive>

数据插入后在文件系统中显示为：

注：从上图中我们就可以发现type分区是作为子文件夹的形式存在的。

添加分区：

alter table employees add if not exists partition(date_time='2088-08-18',type='liaozhongmin');

注：我们可以先添加分区，再向对应的分区中添加数据。

查看分区：

show partitions employees;

附：employees在这里表示表名。

删除不想要的分区

alter table employees drop if exists partition(date_time='2015-01_24',type='userInfo');

再次查看分区：

2.Hive桶表

对于每一个表或者是分区，Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive是针对某一列进行分桶。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶中。分桶的好处是可以获得更高的查询处理效率。使取样更高效。

示例：

create table bucketed_user(
  id int,
  name string
)
clustered by(id) sorted by(name) into 4 buckets
row format delimited fields terminated by '\t'
stored as textfile;

我们使用用户id来确定如何划分桶(Hive使用对值进行哈希并将结果除于桶的个数取余数的方式进行分桶)

另外一个要注意的问题是使用桶表的时候我们要开启桶表：

set hive.enforce.bucketing = true;

现在我们将表employees中name和salary查询出来再插入到这张表中：

insert overwrite table bucketed_user select salary,name from employees;

我们通过查询语句可以查看插进来的数据：

数据在文件中的表现形式如下，分成了四个桶：

当从桶表中进行查询时，hive会根据分桶的字段进行计算分析出数据存放的桶中，然后直接到对应的桶中去取数据，这样做就很好的提高了效率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

Hive分区表

Hive桶表

Hive分区

Hive分桶

Hive表的分区与分桶的相关文章

尝试覆盖 Hive 分区时写入 __HIVE_DEFAULT_PARTITION__ 的行已损坏

当尝试使用 Spark 2 3 覆盖 Hive 表中的分区时我看到一些非常奇怪的行为首先我在构建 SparkSession 时设置以下设置 config spark sql sources partitionOverwriteMode
Hive“ANALYZE TABLE”如何从java执行

我需要计算配置单元表中的行数为此我正在使用查询 ANALYZE TABLE p 7 COMPUTE STATISTICS noscan 我想通过java获取结果我正在尝试以下操作代码并没有运气我得到的错误是 Exception i
如何从 hive cli 运行 hive 脚本

我现在有 hive 脚本 custsales hql 我想从 hive cli 运行它 hive pract5 gt run user training hdfs location custsales hql 但它不执行请指导我知道我们
根据列删除配置单元中的重复行

我有一个包含 10 列的 HIVE 表其中前 9 列将有重复的行而第 10 列则不会因为 CREATE DATE 将具有创建日期例子如果我今天在表中插入 10 行它将具有 CREATE DATE 作为今天的日期如果我明天再次插
在 HIVE 中查找函数

我想检查一个字段是否包含字符串我想要一个如下所示的函数 FIND string to find field to search 我的数据如下所示 field to search no match in this string record
如何通过Spark Thrift Server访问自定义UDF？

我正在 EMR 上运行 Spark Thrift 服务器我通过以下方式启动 Spark Thrift 服务器 sudo u spark usr lib spark sbin start thriftserver sh queue inte
Presto/Athena 中嵌套日期分区的比较查询

我将 parquet 数据存储在 S3 上以 Hive 理解的格式进行分区 s3
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
如何在 hive 中创建一个空的结构数组？

我有一个观点Hive 1 1 0 根据条件它应该返回一个空数组或一个数组struct
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918

随机推荐

[算法整理]可能是最全的无监督/自监督单目深度估计方法汇总 - Part2:双目图像篇

算法整理可能是最全的自监督无监督单目深度估计方法汇总 Part2 双目图像篇背景借着最近开题写开题报告的机会比较细致地整理了一下之前看过的自监督单目深度估计相关的论文合计了一下感觉写篇综述有点太耗时耗力干脆就在这里分享出来好
python 找出list列表中相同元素（指定元素）的所有索引

有时需要获取列表中某一元素的所有索引而获取列表元素索引的函数index只能返回第一个满足条件的元素的索引此时我们可以通过两种方式获取其所有索引 1 将list转为array 对于array对象可以使用如下方式获取某个元素的所有索引 n
background-position的使用方法

这是在学习了阮一峰先生的博客后写的一篇解释笔记附上原链接 CSS中背景图片的定位方法 CSS中的背景图片定位方法有三种 1 关键字定位 background position top left 2 像素定位 background posi
Unity Debug的简单封装

对Unity Debug的简单封装使用前提 Project Settings Player Other Settings Script Define Symbols添加 EnableLog 点击Apply 测试代码 using MTool
visual studio：C#工程项目生成项目时，默认将资源文件复制到输出目录

参考 vs生成项目时默认将资源文件复制到输出目录总结使用情况通常是需要外部dll 不直接拷贝到运行目录而是放到工程项目下两种方式 1 生成事件里编写命令行 2 添加dll到项目目录设置文件属性复制到输出目录
分布式搜索引擎Elasticsearch基础入门学习

Elasticsearch介绍 Elasticsearh 是 elastic co 公司开发的分布式搜索引擎 Elasticsearch 简称ES 是一个开源的分布式高度可扩展的全文搜索和分析引擎它能够快速近乎实时的存储搜索和分析大
uni-app使用uView

uni app使用uView 三配置前提先安装uview 1 使用HBuilder创建uni app项目这步过后就可以使用npm安装第三方组件了 cmd进入当前根目录执行 npm init y 执行后项目中会生成package json
游戏开发unity插件Magica Cloth：学习贴汇总（持续更新）

插件说明高效的布料系统支持jobs 开源官方下载地址 https assetstore unity com packages tools physics magica cloth 160144 unity插件初步配置 BoneSpri
linux下载出现：Failed to connect to raw.githubusercontent.com port 443: Connection refused

linux下载出现 Failed to connect to raw githubusercontent com port 443 Connection refused 原因 github域名被污染解决方式打开网站 https www
【patchwork++】——PCA主成分分析法

降维算法 gt 保留最大有用值信息 gt 换坐标轴找坐标系首先去中心化把坐标原点放在数据中心然后找坐标系找到方差最大方向数据线性变换拉伸旋转注意离群点对PCA影响较大参考视频用最直观的方式告诉你什么是主成分分析
一串首尾相连的珠子（m个），有n种颜色（n<=10）设计一种算法去除其中一段，要求包含所有的N种颜色

继续上代码 include
Hadoop3.2.1版本的环境搭建

最近有人提出能不能发一些大数据相关的知识 No problem 今天先从安装环境说起搭建起自己的学习环境 Hadoop的三种搭建方式以及使用环境单机版适合开发调试伪分布式适合模拟集群学习完全分布式适用生产环境这篇文件介绍如何搭建完
java xrunjdwp_Java远程断点调式 -Xdebug

前言我们在开发的过程中难免会遇到调用别人机器上的代码或者测试服务器上的代码再调用过程中难免会用到断点调式的功能但是运行的不是本地的代码怎么办呢现在我们就来了解下Java远程断点调用需要本地必须有源码才能进行远程断点一
Instant-ngp Windows11安装、使用记录

Instant NeRF Study Debug 本机配置 Y9000P RTX3060 Win11 Instant NeRF Study Debug 1 Git 2 Cmake 3 instant ngp 示例数据自定义数据注意事项
一次composer错误使用引发的思考

一次composer错误使用引发的思考 2019 03 05 12 19 by 轩脉刃阅读评论收藏编辑一次composer错误使用引发的思考这个思考源自于一个事故让我对版本依赖重新思考了一下事故现象一个线上的管理后台一个
LeetCode题解——42.连续子数组的最大和（动态规划思想）

题目地址剑指 Offer 42 连续子数组的最大和力扣 LeetCode 一解题思路在这道题中数组连续是一个很重要的信息我们可以创建一个数组用于记录每一位对应的最大值所谓每一位的最大值意思就是以这一位为结尾的数组的最大值那
面试过程中会遇到的机器学习教科书中 7 大经典问题

如果希望了解机器学习或者已经决定投身机器学习你会第一时间找到各种教材进行充电同时在心中默认书里讲的是牛人大神的毕生智慧是正确无误的行动指南认真学习就能获得快速提升但实际情况是你很可能已经在走弯路科技发展很快数据在指数级增
SQL Server 基础语法2(超详细!)

文章目录选择数据库school 查询所有学生的学号姓名和年龄查询结果列项是中文名查询计算机系的所有学生的基本信息查询所有女同学的姓名及所在的系显示结果不允许重复出现查询课程号不为 1 4 或 7 的课程的信息查询课程号不
处理Matlab Coder之后, Compiler can't find "tmwtypes.h"问题

作为一个强大的科学计算软件 matlab广泛应用于较多领域以其简单的编程风格便利的调试环境等众多优点在编写算法与测试的时候通常用到然而很多的实际运用上matlab毕竟还不是很普及相反还是c与c 更多同时正版matlab这样一个昂
Hive表的分区与分桶

1 Hive分区表 Hive使用select语句进行查询的时候一般会扫描整个表内容会消耗很多时间做没必要的工作 Hive可以在创建表的时候指定分区空间这样在做查询的时候就可以很好的提高查询的效率创建分区表的语法 create tabl

Hive表的分区与分桶

Hive表的分区与分桶 的相关文章

随机推荐

热门标签

Hive表的分区与分桶的相关文章