Hive其他优化

2023-11-14

一、关联优化器

在Hive的一些复杂关联查询中，可能同时还包含有group by等能够触发shuffle的操作，有些时候shuffle操作是可以共享的，通过关联优化器选项，可以尽量减少复杂查询中的shuffle，从而提升性能

set hive.optimize.correlation=true;

二、Hive并行执行

Hive会将一个查询转化为一个或多个阶段，包括：MapReduce阶段、抽样阶段、合并阶段、limit阶段等。默认情况下，一次只执行一个阶段。不过，如果某些阶段不是互相依赖，是可以并行执行的。

-- 开启并发执行，默认为false
set hive.exec.parallel=true;
-- 同一个sql允许的最大并行度，默认为8
set hive.exec.parallel.thread.number=16;

三、Hive小文件合并

-- 是否开启合并Map端小文件，在Map-only的任务结束时合并小文件，true是打开
hive.merge.mapfiles
-- 是否开启合并Reduce端小文件，在map-reduce作业结束时合并小文件，true是打开
hive.merge.mapredfiles
-- 合并后MR输出文件的大小，默认为256M
hive.merge.size.per.task
-- 当输出文件的平均大小小于此设置值时，启动一个独立的map-reduce任务进行文件merge，默认值为16M。
hive.merge.smallfiles.avgsize

在这里插入图片描述

四、矢量化查询

hive的默认查询引擎一次处理一行，而矢量化查询执行是一种hive特性，目的是按照每批1024行读取数据，并且一次行对整个记录整合（而不是对单条记录）应用操作，注意：要是用矢量化查询执行，就必须以ORC格式存储数据

set hive.vectorized.execution.enabled=true;
set hive.vectorized.execution.reduce.enabled=true;

五、读取零拷贝

ORC可以使用新的HDFS缓存API和ZeroCopy读取器来避免在扫描文件时将额外的数据赋值到内存中

set hive.exec.orc.zerocopy=true;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive其他优化的相关文章

Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
使用 impala 按范围连接表的有效方法

我第一个有下表 Range 包括值范围和附加列 row From To Country 1 1200 1500 2 2200 2700 3 1700 1900 4 2100 2150 The From and Toare bigint并且是
如何将 Pandas 数据框保存到配置单元表？

我有 pandas 数据框我正在尝试找到将数据框数据保存到配置单元表的最佳方法一种方法是保存到 csv 文件并将其加载到 hive 表有一个更好的方法吗 None
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序

随机推荐

Ubuntu开机后卡死只有左上角有一个下划线不停闪烁

千万不要乱设置东西先按一下Ctrl Alt F2打开tty模式检查问题出在哪了之后会让你输入用户名和密码就平时开机正常登录那样然后相当于进入了一个平时用的终端只是这个终端占据了整个屏幕平时用的指令都可以用接着你去检查到底出了什
myisamchk命令使用总结

author sakte time 2012 02 28 myisamchk命令使用总结 myisamchk实用程序可以用来获得有关你的数据库表的统计信息或检查修复优化他们 1 常用于myisamchk的检查选项 information
自定义ViewGroup实现控件自动换行

首先看效果如下首先我们需要自定义ViewGroup 重写onMeasure和onLayout将布局摆放好然后在通过适配器添加子view 代码如下 public class MyViewGroup extends ViewGroup Lis
jetson nano安装mqtt库

把包放入Work下 sudo apt get update sudo apt get install build essential gcc make cmake cmake gui cmake curses gui sudo apt ge
如何在Kubernetes集群中使用kubectl工具来进行管理多个外部K8S集群接入与资源操作?...

关注 WeiyiGeek 公众号设为特别关注每天带你玩转网络安全运维应用开发物联网IOT学习本章目录 0x03 Kubernetes 中多集群接入管理实践 1 本地集群创建指定用户管理集群 2 外部集群创建指定用户管理集群原文
linux-vmware tools安装与cdrom挂载

前述昨天想直接复制虚拟机centos系统中命令行的内容到主机的txt文档上进行保存发现不能实现虚拟机与主机之间的直接通讯后来查资料发现原来是由于我的虚拟机没有安装vwmare tools的缘故一个下午查资料下来搞定了cdrom镜像
[ Android 编译 ] 如果不指定LOCAL_CERTIFICATE，默认使用哪个key进行签名

Android 编译如果不指定LOCAL CERTIFICATE 默认使用哪个key进行签名尊重原创转载请注明出处创作不易如有帮助请点赞支持参考 Android系统签名简介开发系统应用时通常情况下我们都会在 Android
C++详细学习笔记（一）

首先本次学习主要参考的书籍是C Primer Plus第六版为了方便今后参阅故写下该学习笔记 C 是在C语言基础上开发的一种集面向对象编程泛型编程和过程化编程于一体的编程语言是C语言的超集一预备知识 C 有三件法宝 1 继承了
计算机系统（四）处理器体系结构

现代微处理器可以称得上是人类创造的最复杂的系统之一一块手指甲大小的硅片上可以容纳一个完整的高性能处理器大的高速缓存以及用来连接到外部设备的逻辑电路到目前为止我们看到的计算机系统只限于机器语言程序级我们知道处理器必须执行一系列指
2021-03-07

昨天拳王分享了一篇 1个被严重低估的暴利项目竟多达7种变现方式玩转1个轻松月入过万揭秘7种可变现方式的被严重低估的暴利项目今天我们分享的是 1个简单至极又赚钱到发指的项目有人靠它年入7位数容易可复制今天分享的是一个极为简单
mysql case when多个参数结果

查看所有学生的姓名班级如果班级为1表示一年级 2表示二年级 3表示三年级 select s StudentName CASE WHEN s GradeId 1 THEN 一年级 WHEN s GradeId 2 THEN 二年级 WHEN
【NLP】每个NLP工程师都应该知道的10 种不同的 NLP 技术

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
CCNP-冗余链路中的广播风暴、多帧复制、地址表的不稳定

STP协议当网络中存在备份链路时只允许主链路激活如果主链路因故障而断开后备用链路才会被打开广播风暴在没有避免交换环路措施的情况下每个交换机都无穷无尽的转发广播帧广播流量破坏了正常的通信流消耗了带宽和交换机的CPU资源直至
python一行输出多个空格_python 在同一行依次输入三个值a,b,c，用空格分开，输出 b*b-4*a*c的值...

拒绝回答一系列代码细节自行百度学习对应函数 import re import math print Input four numbers seperated by scape enter for ending input myinputs
如何优化算法提高卷积神经网络的泛化能力

卷积网络的优化方式方法说明使用更多数据在有条件的前提下尽可能多地获取训练数据是最理想的方法更多的数据可以让模型得到充分的学习也更容易提高泛化能力使用更大批次在相同迭代次数和学习率的条件下每批次采用更多的数据将有助于模型更
ZYNQ 7000的硬件SPI控制器配置为三线制SPI

使用zynq去做一些AD DA的操作时候有些只支持三线制的SPI那么我们如何使用PS端的控制器EMIO到PL端实现3线制呢以上是SPI0的接口信号我们可以把PL侧的三线制的SDIO信号 inout 通过一个IOBUF原语进行转换出in
数字电路的逻辑符号
Mybatis框架之解决列名（表中的字段名称）和实体类中的属性名不一致

查询数据的时候查不到userName的信息原因数据库的字段名是user name 而POJO中的属性名字是userName 两端不一致造成mybatis无法填充对应的字段信息修改方法在sql语句中使用别名解决方案1 在sql语
深入理解CRITICAL_SECTION

http www cnblogs com dirichlet archive 2011 03 16 1986251 html 摘要临界区是一种防止多个线程同时执行一个特定代码节的机制这一主题并没有引起太多关注因而人们未能对其深刻理解
Hive其他优化

一关联优化器在Hive的一些复杂关联查询中可能同时还包含有group by等能够触发shuffle的操作有些时候shuffle操作是可以共享的通过关联优化器选项可以尽量减少复杂查询中的shuffle 从而提升性能 set hiv