Hive表的几种存储格式及在性能调优应用

2023-11-15

一、理论知识学习：底层决定上层建筑

此部分内容引用了：Hive表的几种存储格式 - 海贼王一样的男人 - 博客园

Hive的文件存储格式：

textFile

　　　　textFile为默认格式

　　　　存储方式：行存储

　　　　缺点：磁盘开销大；数据解析开销大；压缩的text文件，hive无法进行合并和拆分

sequencefile

　　　　二进制文件，以<key,value>的形式序列化到文件中

　　　　存储方式：行存储

　　　　优点：可分割、压缩，一般选择block压缩，与hadoop api中的mapfile是互相兼容的。

Rcfile

　　　　存储方式：数据按行分块每块按照列存储

　　　　压缩快快速列存取

　　　　读记录尽量涉及到的block最少

　　　　读取需要的列只需要读取每个row group 的头部定义。

　　　　读取全量数据的操作性能可能比sequencefile没有明显的优势

　　　　存储方式：数据按行分块每块按照列存储

　　　　压缩快快速列存取

　　　　效率比rcfile高，是rcfile的改良版本

　　　　官网介绍：

1	`The Optimized Row Columnar (ORC) file format provides a highly efficient way` `to` `store Hive data. It was designed` `to` `overcome limitations` `of` `the other Hive file formats. Using ORC files improves performance` `when` `Hive` `is` `reading, writing,` `and` `processing data.`

　　　　ORC实际上是在RC文件存储格式做了一些优化，它的主要优点有：
　　　　　　(1)、每个task只输出单个文件，这样可以减少NameNode的负载；
　　　　　　(2)、支持各种复杂的数据类型，比如： datetime, decimal, 以及一些复杂类型(struct, list, map, and union)；
　　　　　　(3)、在文件中存储了一些轻量级的索引数据；
　　　　　　(4)、基于数据类型的块模式压缩：a、integer类型的列用行程长度编码(run-length encoding);b、String类型的列用字典编码(dictionary encoding)；
　　　　　　(5)、用多个互相独立的RecordReaders并行读相同的文件；
　　　　　　(6)、无需扫描markers就可以分割文件；
　　　　　　(7)、绑定读写所需要的内存；
　　　　　　(8)、metadata的存储是用 Protocol Buffers的，所以它支持添加和删除一些列。

自定义格式

　　　　用户可以通过实现inoutformat和outputformat来定义输入输出格式。

二、性能调优中应用

调优前性能情况：流程包括下面两部分

第一部分，将源头hive表数据加工成hive外部临时表，存储格式：txtfile，记录数2.6亿，此过程耗时：20多分钟。

第二部分，通过公司研发的抽取工具，hive外部临时表数据抽取到hbase表中。耗时近11个小时27分钟。

尝试优化方法：
1 hive表分区并发读取。 id不好拆分，拆分对原来流程调整比较大--不采用。
2 对目标hbase表进行预先分区。前面尝试过，hbase预分区后，提升效果不大，--不采用
3 从hive的底层存储格式下手，选择推荐读写效率、压缩效果较好的orc格式。--采用

尝试优化：

1 调整建表语句

-- 修改后建表语句

2 调整数据处理脚本为spark sql（由于原hive sql脚本处理耗时就少，所以此处起的性能优化可以忽略，就不在此啰嗦）

3 调整前效果，耗时减少到1小时44分钟，减少了近10个小时，太让人意外和惊喜！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

Hive表的几种存储格式及在性能调优应用的相关文章

使用字符串分区键与整数分区键的 Hive/Impala 性能

是否建议将数字列用作分区键当我们对数字列分区和字符串列分区进行选择查询时性能会有什么差异吗好吧如果你查阅 Impala 官方文档就会有所不同我不会详细说明而是粘贴文档中的部分因为我认为它说得很好虽然使用 STRING 列作
如果行数超过 15，则向表中插入与打开行数相等的行数

My table id sum type 1 3 1 1 6 1 1 6 2 1 3 1 1 3 1 1 6 1 These 1 3 1 是空行类型始终为 1 总和可以不同 These 1 6 2 是封闭的行输入 1 sum 空行的总和
Apache Hive regEx serde：数据类型

对于处理日志我想使用 Apache Hive regEx serde 但我只找到使用 String 作为表列的数据类型的示例现在我的问题是是否支持基于日期的类型整数和数组还是只是字符串此示例和其他示例仅使用字符串 CREAT
向将数组作为字段之一的 Hive 表插入行时出现错误 10293

我使用以下查询创建了一个配置单元表 create table arraytbl id string model string cost int colors array
在 HIVE 中查找函数

我想检查一个字段是否包含字符串我想要一个如下所示的函数 FIND string to find field to search 我的数据如下所示 field to search no match in this string record
HIVE JDBC ThriftHive$Client.sendBase

我在 Hadoop hive 上工作我已经安装了 hadoop 和 hive 它在命令提示符下运行良好我还创建了 hive 的 MySQL 元存储我在 hive site xml 文件中定义了 HIVE DB 数据库名称 MySQL
如何在 Hive 中将字符串转换为毫秒时间戳

我有一个字符串 20141014123456789 它代表一个毫秒时间戳我需要将其转换为 Hive 中的时间戳 0 13 0 而不丢失毫秒我尝试了这个但 unix timestamp 返回一个整数所以我丢失了毫秒 from unix
是否可以使用 impala 查询包含 DATE 类型列的 Hive 表？

每次我尝试在 IMPALA 中从 HIVE 中创建的表中选择 DATE 类型字段时都会收到 AnalysisException Unsupported type DATE 有什么解决方法吗 UPDATE这是从 hive 创建表模式和 im
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
AWS Athena 扁平化来自嵌套 JSON 源的数据

我想从 Athena 中的嵌套 JSON 创建一个表描述的解决方案here http docs aws amazon com athena latest ug json html使用 hive Openx JsonSerDe 等工具尝试在
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
当气流 initdb 时，导入错误：无法导入名称 HiveOperator

我最近安装了airflow对于我的工作流程在创建项目时我执行了以下命令 airflow initdb 返回以下错误 2016 08 15 11 17 00 314 init py 36 INFO Using executor Seque
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current

随机推荐

制作自己的数据集

目录自制数据集解决本领域应用编辑编辑数据增强扩充数据集断点续训存取模型编辑参数提取把参数存入文本 acc loss可视化查看训练效果编写一个应用程序神经网络接口给图识物当你有了本领域的数据集又有了标签你怎么
cron计划任务每隔30秒执行一次
【Inno Setup】判别系统版本

Code function IsXP32 Boolean var Version TWindowsVersion S String begin GetWindowsVersionEx Version S 主版本号 IntToStr Vers
python文本进度条练习之不同速度进度条

这属于一个小小的课后练习但我在网上没有找到对应代码我主要是在textprobarv3 py上做修改我选择的是power设计 f x pow x 1 x 0 03 2 主要增加了一行 fx int pow i 1 i 0 03 2 修改
线程池 vs 信号量的优缺点比较

通常我们都采用基于线程池的实现方式这也是最容易理解的方案 Hystrix还提供了另一种底层实现那就是信号量隔离小时候我们就知道红灯停绿灯行跟着交通信号的指示过马路信号量也是这么一种放行禁行的开关作用它和线程池技术一样控制
目标检测识别中，mAP，AP，P值的定义与计算

mAP是衡量模型在所有类别上的准确率是衡量模型的好坏的评价指标 mAP 所有类别的AP之和类别数 AP是某一个类别的准确率 AP 每张图片的P之和图片数量 P 一张图片上某一类别识别的正确数量一张图片上某一类别的总数量比如现在有三
drwxr-x-w-. 4 507 509 4.0K 9月 4 2018 wukong linux中 507和509 是什么回事？

第一个数字507出现原因表示该目录的所有者不存在了第二个数字509出现原因表示该目录的所有者所在的组不存在了
【办公类-19-03】办公中的思考——Python批量制作word单元格照片和文字（小照片系列）

背景需求工会老师求助如何在word里面插入4 8的框我怎么也拉不到4 8大小她用的是我WORD 文本框我一听这又是要手动反复黏贴文本框照片文字的节奏哦我问你要做几个人超过20个我写个程序批量插图写代码测试要费时
5.2lua setfenv

local FuncEnv setmetatable FuncEnv index G local func loadfile a lua local func loadfile a lua nil FuncEnv local ENV Fun
二分查找法

二分查找法 1 基础二分查找 2 改进二分查找 3 平衡版二分查找法 4 查找目标值最左索引 5 查找目标值最右索引 6 查找大于等于目标值的最左索引 7 查找小于等于目标的最右索引值 1 基础二分查找二分查找法基础 public st
mysql系统错误216_MySQL异常 - Skqing - OSCHINA - 中文开源技术交流社区

jdbc mysql localhost 3306 ry useUnicode true characterEncoding utf8 zeroDateTimeBehavior convertToNull useSSL true Druid
【扫盲】机器学习图像处理中的深层/浅层、局部/全局特征

浅层网络与深层网络浅层网络更注重于细节信息深层网络更注重于语义信息浅层网络一般感受野较小能够利用更多的细粒度特征信息而且此时特征图每个像素点对应的感受野重叠区域还很小这就保证了网络能够捕获更多细节深层网络随着下采样或卷积次数
常见黑客渗透测试工具

因为上面要转了一篇里面好多我都觉得过时了不过确实好多我也还在用哈哈留个备份吧免得上面又要找我要一 Nessus 是扫描UNIX漏洞的主力工具随后栖身Windows 主要功能包括本地和远程安全审查支持client server
10亿个数字，内存限制100M，进行排序

解题思路分治法拆分小文件先对每个小文件进行排序然后使用小顶堆或大顶堆合并文件代码 python3 import threading from queue import Queue import time import random
小程序页面收录sitemap.json的作用与使用方法

desc 关于本文件的更多信息请参考文档 https developers weixin qq com miniprogram dev framework sitemap html rules action allow page 微信现已
毕业设计-基于GUI的模拟电路故障诊断仿真平台研究- Matlab

目录前言课题背景和意义实现技术思路一联合仿真平台设计与实现二系统测试实现效果图样例最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要
MySQL运行原理与基础架构

1 MySQL基础 MySQL是一个开放源代码的关系数据库管理系统原开发者为瑞典的MySQL AB公司最早是在2001年MySQL3 23进入到管理员的视野并在之后获得广泛的应用 2008年MySQL公司被Sun公司收购并发布了首个收购
APP违法违规收集使用个人信息行为认定方法

没有公开收集使用规则的情形在App中没有隐私政策或者隐私政策中没有收集使用个人信息规则解读 APP内无法找到隐私政策或隐私政策内没有包含该APP收集使用个人信息的规则在App首次运行时未通过弹窗等明显方式提示用户阅读隐私政策等收集使
【Python】删除USB网络共享在win系统中递增的网络x

删除之后还是挺干净的软件环境 windows python3 winreg模块自带如果是python2请修改为 winreg 前置知识所有已保存的网络存储HKEY LOCAL MACHINE SOFTWARE Microsoft W
Hive表的几种存储格式及在性能调优应用

一理论知识学习底层决定上层建筑此部分内容引用了 Hive表的几种存储格式海贼王一样的男人博客园 Hive的文件存储格式 textFile textFile为默认格式存储方式行存储缺点磁盘开销大数据解析开销大压缩的tex

Hive表的几种存储格式及在性能调优应用

Hive表的几种存储格式及在性能调优应用 的相关文章

随机推荐

热门标签

Hive表的几种存储格式及在性能调优应用的相关文章