Hive中如何定位数据倾斜

2023-11-16

1、概述

在hive中执行sql任务时，当任务在reduce阶段一直卡在99%时，很有可能出现了数据倾斜，这个时候如果我们
的sql很长，需要判断出是哪段sql导致的数据倾斜，才便于我们解决问题。

2、定位数据倾斜

下面以一条sql为例子，记录如何定位数据倾斜

2.1、表结构

2.1.1、第一张表：user_info(用户基本信息)

字段名	字段含义
userkey	用户标识
idno	用户身份证号
phone	用户的手机号
name	用户姓名

2.1.2、第二张表：user_active（用户活跃）

字段名	字段含义
userkey	用户标识
user_active_at	用户最后活跃日期

2.1.3、第三张表：user_intend（用户意向表）

字段名	含义
phone	用户的手机号
intend_commodity	用户意向次数最多的商品
intend_rank	用户意向等级

2.1.4、第四张表：user_order（用户订单表）

字段名	字段含义
idno	用户的身份证号
order_num	用户的订单次数
order_amount	用户的订单总金额

2.1.5、代码

将以上四张表相互关联，组成一张大宽表，sql如下

select
  a.userkey,
  a.idno,
  a.phone,
  a.name,
  b.user_active_at,
  c.intend_commodity,
  c.intend_rank,
  d.order_num,
  d.order_amount
from user_info a
left join user_active b on a.userkey = b.userkey
left join user_intend c on a.phone = c.phone
left join user_order d on a.idno = d.idno;

执行本条sql后，任务在reduce阶段一直卡顿在99%，如图：
出现这种情况，我们便需要考虑数据倾斜。当然，还有一种情况是任务执行超时，当Reduce 处理的数据量巨大，在做 full gc 的时候，stop the world。导致响应超时，超出默认的 600 秒，任务被杀掉。报错信息一般如下：

2.1.6、数据倾斜排查

在本条sql中，如果出现数据倾斜，那一定是由大key导致的，那就需要判断是哪一步的关联出现了大key（确定到底是不是大key导致的数据倾斜）
- 1、通过UI查看reduce的执行时间，如图所示，当其中某一个reduce的执行时间远超过其它的reduce执行时间
  - 1、如果所有的reduce的执行时间都很长，可能是reduce数量较少导致的
  - 2、某个 task 执行的节点可能有问题，导致任务跑的特别慢。这个时候，mapreduce 的推测执行，会重启一个任务。如果新的任务在很短时间内能完成，通常则是由于 task 执行节点问题导致的个别 task 慢。但是如果推测执行后的 task 执行任务也特别慢，那更说明该 task 可能会有倾斜问题。
  - 3、通过job中task输入的记录数判断，如图，其余task输入的记录数只有13亿多，但时间较长的task输入的记录数是230多亿
- 2、确定任务卡住的stage：
  - 1、通过jobname确定stage：一般 Hive 默认的 jobname 名称会带上 stage 阶段，如下通过 jobname 看到任务卡住的为 Stage-4
  - 2、如果jobname是自定义的，那么需要通过task执行日志来确定stage，如图，图中的关键信息是：struct<_col0:string, _col1:string, _col3:string>
  - 3、同时需要查看sql的执行计划，通过对照参数信息确定stage，如图：
  - 4、确定了执行阶段，再通过表的别名判断出在哪个阶段产生了数据倾斜，如图，在这个stage中进行连接的表别名是d
  - 5、确定了表名，再对照sql，可以确定是图中关联的地方产生了数据倾斜
  - 6、倾斜原因:产生倾斜的地方是用户基本信息表和用户订单表使用身份证号进行关联，查询用户基本信息表后发现idno字段为null的数据比较多，所以关联的时候导致了数据倾斜

3、解决数据倾斜

1、可以将用户基本信息表中idno字段为空的数据过滤之后再进行关联，此处可以直接在表关联条件直接添加where条件进行过滤，因为hive会进行谓词下推，即先进行条件判断再进行关联

select
  a.userkey,
  a.idno,
  a.phone,
  a.name,
  b.user_active_at,
  c.intend_commodity,
  c.intend_rank,
  d.order_num,
  d.order_amount
from user_info a
left join user_active b on a.userkey = b.userkey
left join user_intend c on a.phone = c.phone
left join user_order d on a.idno = d.idno where a.idno is not null;

2、对基本信息表中的idno字段进行随机赋值，但随机值不能和表中的数据相同

4、其它解决数据倾斜的方案

1、如果导致数据倾斜的大key是一些无意义的数据，可以直接进行过滤，但在本例中的idno字段具有实际意义，不能直接过滤
2、数据预处理：对产生数据倾斜的字段进行随机赋值，尽量保证为同一个值的key不要出现太多
3、增加reduce数量：如果一条sql中出现了多个大key，可以适当增加reduce数量，这样会尽可能的降低大key落在同一个reduce的概率
4、转换为mapjoin：如果是小表和大表进行关联，可以启用map join
- 启用map join：

set hive.auto.convert.join = true;  是否开启自动mapjoin，默认是true
set hive.mapjoin.smalltable.filesize=100000000;   mapjoin的表size大小

5、启用倾斜连接优化：hive中可以通过调整参数，将超过设置数量的key认定为倾斜连接，然后将sql分为两个job进行处理。设置skewjoin.key时需要先对业务中的数据两进行计算，设置一个合适的值进行倾斜化判断

set hive.optimize.skewjoin=true; 启用倾斜连接优化
set hive.skewjoin.key=200000; 超过20万行就认为该键是偏斜连接键

6、调整内存设置：某些时候，因为数据量较大的原因，sql运行需要的内存较大，会因为内存超限被kill掉，这个时候需要调整内存设置，保证任务能够正常跑起来。这个设置不能保证明显降低job运行时间

set mapreduce.reduce.memory.mb=5120; 设置reduce内存大小
set mapreduce.reduce.java.opts=-Xmx5000m -XX:MaxPermSize=128m;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

大数据

数据仓库

Hive中如何定位数据倾斜的相关文章

VM cloudera - 用户cloudera和权限？

我下载并安装了 VM Cloudera 4 4 来使用 Hadoop 我已经在我的工作平台上建立了一个集群所以我知道一点 hadoop 是如何工作的所以我认为我的问题来自于我对linux以及他的用户和群体的误解使用蜂巢我尝试使用 s
将 Spark 设置为 Hive 的默认执行引擎

Hadoop 2 7 3 Spark 2 1 0 和 Hive 2 1 1 我正在尝试将 Spark 设置为配置单元的默认执行引擎我将 SPARK HOME jars 中的所有 jar 上传到 hdfs 文件夹并将 scala libr
Hive 将字符串转换为字符数组

例如如何将字符串转换为字符数组 abcd gt a b c d 我知道分割方法 SELECT split abcd a b c d 最后一个空格有错误吗或任何其他想法这实际上不是一个错误蜂巢分割功能 https github com
无法使用 beeline 连接到 hive，用户 root 无法冒充匿名

我正在尝试使用 beeline 连接到配置单元 connect jdbc hive2 localhost 10000我被要求提供用户名和密码 Connecting to jdbc hive2 localhost 10000 Enter us
Hive 命令行如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确

我正在运行配置单元查询如下所示 Select count group name from table name group by group name 状态正在运行在应用程序 ID XXXX 的 YARN 集群上执行 VERTICES
java.lang.RuntimeException：无法实例化 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

我在 ubuntu 14 0 上安装了 Hadoop 2 7 1 和 apache hive 1 2 1 版本为什么会出现这个错误是否需要安装任何元存储当我们在终端上输入 hive 命令时 xml 的内部是如何调用的这些 xml 的
在 HIVE 中选择该月的第一天

我正在使用 Hive 它与 SQL 类似但对于 SQL 用户来说语法可能略有不同我看过其他的stackoverflow 但它们似乎在SQL中具有不同的语法我试图通过此查询获取该月的第一天这给了我今天的一天例如如果今天是 2015
Hive 安装问题：Hive Metastore 数据库未初始化

我尝试在树莓派 2 上安装 Hive 我通过解压缩压缩的 Hive 包安装 Hive 并在我创建的 hduser 用户组下手动配置 HADOOP HOME 和 HIVE HOME 运行 hive 时出现以下错误消息蜂巢错误 Statu
Apache Hive regEx serde：数据类型

对于处理日志我想使用 Apache Hive regEx serde 但我只找到使用 String 作为表列的数据类型的示例现在我的问题是是否支持基于日期的类型整数和数组还是只是字符串此示例和其他示例仅使用字符串 CREAT
如何从 Hive 中的 json 字符串中提取选定的值

我在 Hive 中运行一个简单的查询生成以下输出以及一些其他附加列 col1 col2 A variable1 123 variable2 456 variable3 789
如何将键值对加载到hive表中？

以下是我的数据集 Jun name balaji id 101 Mar name kumar id 102 创建的表 create table sample month string name string id int row forma
向将数组作为字段之一的 Hive 表插入行时出现错误 10293

我使用以下查询创建了一个配置单元表 create table arraytbl id string model string cost int colors array
在 HIVE 中查找函数

我想检查一个字段是否包含字符串我想要一个如下所示的函数 FIND string to find field to search 我的数据如下所示 field to search no match in this string record
hive 查询特定联合类型的记录

我创建了一个示例配置单元表 CREATE TABLE union test foo UNIONTYPE
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
如何在 hive 中创建一个空的结构数组？

我有一个观点Hive 1 1 0 根据条件它应该返回一个空数组或一个数组struct
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee

随机推荐

filco蓝牙键盘配对流程_码字体验飞起的矮轴机械键盘打字主力键盘妥妥的

上篇文章给我的 Macbook Pro 找一个好键盘最后有小干货最终决定买 Filco 蓝牙双模红轴 87 键位的键盘可现实情况是被我退货了并不是我改主意了而是当时那个键盘确实有连键问题还有空格嘎嘎响连键指的是按 W 的时候
蓝牙（二）蓝牙搜索、配对、连接

1 搜索从上一节我们可以知道蓝牙状态发生了改变并发生了回调咱们就从回调开始 DevicePickerFragment java 用于蓝牙设置界面的蓝牙配置和管理 Override public void onBluetoothSta
谷雪梅 Google中国

转自 http tech qq com a 20060930 000109 htm 相关报道郭去疾本地化对Google来说是个伪命题谷雪梅 Google中国第一位本土女工程师 2005年1月加盟Google 2006年2月调任Goog
有关so-vits-svc-4.0数据处理时out of memory问题

有关so vits svc 4 0数据处理时out of memory问题今天使用so vits svc 4 0处理音频数据时碰到网页报错 out of memory 查看一下代码报错 ImportError DLL load fail
RTOS专栏（一） —— rt-thread简单介绍和qemu使用

本期主题简单介绍rt thread 介绍qemu和rt thread怎么配合使用 qemu的简单例子 rt thread qemu 1 rt thread介绍 2 qemu介绍 3 搭建rt thread和qemu开发环境 4 简单例子
从零开始学习OpenCL开发（一）架构

1 Hello OpenCL 这里编写一个最简单的示例程序演示OpenCl的基本使用方法 1 首先可以从Nvdia或者Amd或者Intel或者所有OpenCl成员的开发者网站上下载一份他们实现的OpenCL的SDK 虽然不同公司支持了不同
Qt5.14.2-windows平台配置Qt Creator的ARM体系结构Linux交叉编译器

1 安装Qt并下载对应源码下载并安装Qt 下载对应的源码包 windows版本选择zip格式的源码包 Index of archive qt 5 14 5 14 2https download qt io archive qt 5 14
LLM本地知识库问答系统（二）：如何正确使用LlamaIndex索引

推荐阅读列表 LLM本地知识库问答系统一使用LangChain和LlamaIndex从零构建PDF聊天机器人指南上一篇文章我们介绍了使用LlamaIndex构建PDF聊天机器人本文将介绍一下LlamaIndex的基本概念和原理 Ll
Markdown语法插入代码

方法1 1 插入单行代码 code class EnlighterJSRAW 代码内容 code 2 插入多行代码 code class EnlighterJSRAW code code class EnlighterJSRAW 我是代码内
el-select结合el-tree实现树形多选

形式一业务需求 1 在树形列表中选择项目 2 树形列表需带有筛选过滤功能 3 将已选择的项目展示在输入框中 4 输入框中的选中项可以被单独快速删除 5 下拉框中可再次对之前选择过的项目进行重新选择实现思路 1 所用技术 vue elem
Android 应用内打开Word、Excel、PPT、PDF等文档

Android平台中可以使用以下几种方式打开Word和Excel文档预览图一直接上传给第三方之后用webview打开 1 微软 https view officeapps live com op view aspx src 文件链接
编程练习题——用FileReader读取文件内容

题目目标 main 方法的第一个参数是文件名指定文件的每个行包含下列各式名称月日年其中姓名是 String 可以包含空格分隔的数个字词月为 int 日为 int 年为 int 数据由空格分隔使用文件数据填写 PEO
02-百度翻译逆向

1 分析发现每次请求只有sign不一样其他的都一样 2 在这个里面找sing 3 可以看到是在b函数中做的手脚点进去b里面看看 4 直接把这个段复制下在python中执行js代码因为下面要使用e n函数使用 e n函数也复制 5
数据库操作--增删改查

一数据操作语句 DDL 数据定义语言定义数据的结构列 CREATE DROP ALTER TRUNCATE DML 数据操作语言操作数据的记录行 INSERT DELETE UPDATE DQL 数据查询语言对数据没有影响 SEL
error C2039: “tag”: 不是“boost::Q_FOREACH”的成员 (XXX.cpp) 问题

记一个编译问题错误 252 error C2039 tag 不是 boost Q FOREACH 的成员 XXX cpp VS上编译项目时出现一下错误 VS上报错的截图导致的原因我在头文件和 cpp文件上包含了同一个
linux下前端vue+后端vue+mysql+redis+springboot+nginx的docker部署记录（nginx下多个vue前端）

1 服务器推荐购买腾讯云的学生优惠25岁以下免验证我购买的是轻量应用服务器 5M宽度每月1000G不香吗系统是CentOS 7 6 购买好服务器并通过Xshell或其他软件连接好就是前期的准备了当然除了项目自备 2 安装dock
麻雀键值数据库 1.0.0版本

2023年5月26日周五下午这个版本主要实现了设置键值对和读取键值对下个版本主要实现把内存中的数据写入到磁盘中把磁盘中的数据读取到内存中这个项目我已经放到了github上 GitHub JuLongZhiLu MaQueKVDB
问题解决——Python中出现“ModuleNotFoundError: No module named 'utils'”

出现问题 ModuleNotFoundError No module named utils 解决方法 python2安装 pip install web py python3安装 pip install web py 0 40 dev1
qt打印html边距设置无效,如何设置QTextDocument边距和其他属性(setHTML,print to pdf)？...

我有以下证书类用于生成一些图像和数据的pdf文档设置图像源后我调用generate 函数并获取test pdf输出文件该文档是使用setHtml html 方法基于QTextDocument类创建的问题是我在文档周围有很大的空白区域
Hive中如何定位数据倾斜

1 概述在hive中执行sql任务时当任务在reduce阶段一直卡在99 时很有可能出现了数据倾斜这个时候如果我们的sql很长需要判断出是哪段sql导致的数据倾斜才便于我们解决问题 2 定位数据倾斜下面以一条sql为例子记

Hive中如何定位数据倾斜

1、概述

2、定位数据倾斜

2.1、表结构

2.1.1、第一张表：user_info(用户基本信息)

2.1.2、第二张表：user_active（用户活跃）

2.1.3、第三张表：user_intend（用户意向表）

2.1.4、第四张表：user_order（用户订单表）

2.1.5、代码

2.1.6、数据倾斜排查

3、解决数据倾斜

4、其它解决数据倾斜的方案

Hive中如何定位数据倾斜 的相关文章

随机推荐

热门标签

Hive中如何定位数据倾斜的相关文章