Hive调优方式

2023-05-16

文章目录

一、建表注意事项
- 1、分区、分桶
- 2、一般使用外部表，避免数据误删
- 3、选择适当的文件储存格式及压缩格式
- 4、命名要规范
- 5、数据分层，表分离，但是不要分的太散
二、查询优化
- 1、分区裁剪 where过滤，先过滤，后join
- 2、分区分桶，合并小文件
- 3、适当的子查询
- 4、排序方式
三、Hive数据倾斜优化
- 数据倾斜出现原因
- 表现
- 数据倾斜解决
- - 具体解决
四、作业优化

一、建表注意事项

1、分区、分桶

一般按照业务日期进行分区，每天的数据放在一个分区里，这样可以查询每一天的数据，避免了全局扫描，提高效率

2、一般使用外部表，避免数据误删

3、选择适当的文件储存格式及压缩格式

常用的格式有：①TextFile 默认的存储格式
②ORCFile：列式文件存储格式，具有很强的压缩

4、命名要规范

5、数据分层，表分离，但是不要分的太散

二、查询优化

1、分区裁剪 where过滤，先过滤，后join

2、分区分桶，合并小文件

3、适当的子查询

mapjoin（1.2以后自动默认启动mapjoin）
select /+mapjoin(b)/ a.xx,b.xxx from a left outer join b on a.id=b.id
左连的时候，大表在左边，小表在右边。

4、排序方式

order by 语句：是全局排序
sort by 语句：是单reduce排序
distribute by语句：是分区字段;
cluster by语句：
可以确保类似的数据的分发到同一个reduce task中，并且保证数据有序防止所有的数据分发到同一个reduce上，导致整体的job时间延长
cluster by语句的等价语句：
distribute by Word sort by Word ASC

三、Hive数据倾斜优化

数据倾斜出现原因

1、key分布不均匀（实际上还是重复）比如 group by 或者 distinct的时候
2、数据重复，join 笛卡尔积数据膨胀

表现

任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。

数据倾斜解决

看下key的分布
处理集中的key

具体解决

1，看下业务上，数据源头能否对数据进行过滤，比如 key为 null的，业务层面进行优化。
2，找到key重复的具体值，进行拆分，hash。异步求和。

四、作业优化

调整mapper和reducer的数量
太多map导致启动产生过多开销
按照输入数据量大小确定reducer数目
set mapred.reduce.tasks= 默认3
dfs -count /分区目录/*
hive.exec.reducers.max设置阻止资源过度消耗

参数调节
set hive.map.aggr = true （hive2默认开启）
Map 端部分聚合，相当于Combiner
hive.groupby.skewindata=true

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

调优方式