【大数据】Hive基础知识

2023-11-02

Hive基础知识

在这里插入图片描述

1.Hive 有哪些特点？

Hive 最适合于数据仓库应用程序，使用该应用程序进行相关的静态数据分析，不需要快速响应给出结果，而且数据本身不会频繁变化。

Hive 不是一个完整的数据库。Hadoop 以及 HDFS 的设计本身约束和局限性的限制了 Hive 所能胜任的工作。其中最大的限制就是不支持记录级别的更新、插入或者删除操作。但是用户可以通过查询生成新表或者将查询结果导入到文件中。

Hive 查询延时比较严重。传统数据库中在秒级别可以完成的查询在中，即使数据集相对较小，往往也需要执行更长的时间。

2.简单介绍 Hadoop 和 MapReduce。

MapReduce 是一种计算模型，该模型可将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务，这些任务的计算结果可以合并在一起来计算最终的结果。

Hadoop 提供了一套基础设施来处理大多数困难的工作，以保证任务能够执行成功。例如，Hadoop 如果决定将提交的 job 分解成多个独立的 map 和 reduce 任务来执行，它就会对这些任务（task）进行调度并为其分配合适的资源，决定将某个 task 分配到集群中哪个位置（通常是这个 task 主要处理的数据所在的位置，这样可以最小化网络开销）。它会监控每一个 task，以确保其成功完成，并重启一些失败的 task。

Hadoop 分布式文件系统（HDFS），或者一个同类的分布式文件系统，管理着集群中的数据。每个数据块（block）都会被冗余多份（通常默认会冗余 3 份），这样可以保证不会因单个硬盘或服务器的损坏导致数据丢失。同时，因为其目标是优化处理非常大的数据集，所以 HDFS 以及类似的文件系统所使用的数据块都非常大，通常是 64 MB 或是这个值的若干倍。这么大的数据块可以在硬盘上连续进行存储，这样可以保证以最少的磁盘寻址次数来进行写入和读取，从而最大化提高读写性能。

3.以 Word Count 为例解释 MapReduce。

分割过程

执行map方法

Map 端排序及 Combine 过程

Reduce 端排序及输出结果

4.Hive 的组成模块有哪些？

与 Hive 进行交互的方式。命令行界面：CLI。图形用户界面：Karmasphere（ http://karmasphere.com ）、Hue（ https://github.com/cloudera/hue ）、Qubole（ http://qubole.com ）。
Hive 发行版中附带的模块有 CLI、Hive 网页界面（HWI）、以及可通过 JDBC、ODBC 和一个 Thrift 服务器进行编程访问的几个模块。
所有的命令和查询都会进入到 Driver（驱动模块），通过该模块对输入进行解析编译，对需求的计算进行优化，然后按照指定的步骤执行。
Hive 通过和 JobTracker 通信来初始化 MapReduce 任务（job），而不必部署在 JobTracker 所在的管理节点上执行。
Metastore（元数据存储）是一个独立的关系型数据库（通常是一个 MySQL 实例），Hive 会在其中保存表模式和其他系统元数据

5.简单介绍 Pig。

Pig 是一个基于 Hadoop 的大规模数据分析平台，它提供的 SQL-LIKE 语言叫 Pig Latin，该语言的编译器会把类 SQL 的数据分析请求转换为一系列经过优化处理的 MapReduce 运算。Pig Latin 语言更侧重于对数据的查询和分析，而不是对数据进行修改和删除等的操作。Pig 为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

专注于于大量数据集分析（ad-hoc analysis ，ad-hoc 代表：a solution that has been custom designed for a specific problem ）；
运行在集群的计算架构上，Yahoo Pig 提供了多层抽象，简化并行计算让普通用户使用；这些抽象完成自动把用户请求 queries 翻译成有效的并行评估计划，然后在物理集群上执行这些计划；
提供类似 SQL 的操作语法；
开放源代码。

6.Pig 与 Hive 的区别？

Pig 与 Hive 作为一种高级数据语言，均运行于 HDFS 之上，是 hadoop 上层的衍生架构，用于简化 hadoop 任务，并对 MapReduce 进行一个更高层次的封装。Pig 与 Hive 的区别如下：

Pig 是一种面向过程的数据流语言；Hive 是一种数据仓库语言，并提供了完整的 sql 查询功能。
Pig 更轻量级，执行效率更快，适用于实时分析；Hive 适用于离线数据分析。
Hive 查询语言为 Hql，支持分区；Pig 查询语言为 Pig Latin，不支持分区。
Hive 支持 JDBC / ODBC；Pig 不支持 JDBC / ODBC。
Pig 适用于半结构化数据，比如日志文件；Hive 适用于结构化数据。

总而言之，Hive 更适合于数据仓库的任务，Hive 主要用于静态的结构以及需要经常分析的工作。Hive 与 SQL 相似促使其成为 Hadoop 与其他 BI 工具结合的理想交集。Pig 赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig 相比 Hive 相对轻量，它主要的优势是相比于直接使用 Hadoop Java API 可大幅削减代码量。正因为如此，Pig 仍然吸引了大量的软件开发人员。

7.简单介绍 HBase。

如果用户需要 Hive 无法提供的数据库特性，比如行级别的更新、快速的查询响应时间、支持事物，那么该怎么办呢？

HBase 是一个分布式的、可伸缩的数据存储，其支持行级别的数据更新、快速查询和行级事务（但不支持多行事务）。HBase 支持的一个重要特性就是列存储，其中的列可以组织成列族。列族在分布式集群中物理上是存储在一起的，这就使得当查询场景涉及的列只是所有列的一个子集时，读写速度会快很多。因为不需要读取所有的行，然后丢弃大部分的列，而只用读取需要的列。

可以像 “键-值” 存储一样来使用 HBase，其每一行都使用了一个唯一键来提供非常快的速度读写这一行的列或者列族。HBase 还会对每个列保留多个版本的值（按照时间戳进行标记），版本数量是可以配置的，因此，如果需要，可以 “时光倒流” 回退到之前的某个版本的值。

那 HBase 和 Hadoop 之间究竟是什么关系呢？HBase 使用 HDFS（或者其他某种分布式文件系统）来持久化存储数据。为了可以提供行级别的数据更新和快速查询，HBase 也使用了内存缓存技术，对数据和本地文件进行追加数据更新操作日志。持久化文件将定期地使用附加日志进行更新等操作。

8.基于 Hadoop 的其他高级语言库。

名称	URL	描述
Casading	http://cascading.org	提供数据处理抽象的 Java API。目前有很多支持 Casading 的特定领域语言（DSL），采用的是其他的编程语言，例如 Scala、Groovy、JRuby 和 Jython。
Casalog	https://github.com/nathanmarz/cascalog	Casading 的一个 Clojure DSL，其提供了源于 Datalog 处理和查询抽象过程灵感而产生的附属功能。
Crunch	https://crunch.apache.org/	提供了可定义数据流管道的 Java 和 Scala API。

9.请列举一些没有使用 MapReduce 的分布式处理工具。

因为 Hadoop 是面向批处理系统的，所以存在更适合事件流处理的使用不同的分布式计算模型（即不同于 MapReduce）的工具。对事件流进行处理时，需要近乎 “实时” 响应。

名称	URL	描述
Spark	http://www.spark-project.org/	一个基于 Scala API 的分布式数据集的分布式计算框架。其可以使用 HDFS 文件，而且其对于 MapReduce 中多种计算可以提供显著的性能改进。同时还有一个将 Hive 指向 Spark 的项目，称作 Shark（ http://shark.cs.berkeley.edu/ ）
Storm	https://github.com/nathanmarz/storm	一个实时事件流处理系统
Kafka	https://kafka.apache.org/	一个分布式的发布-订阅消息传递系统

参考：《Hive 编程指南》

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【大数据】Hive基础知识的相关文章

Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hive 中 Sortby 和 orderby 查询的区别

Hive sort by and order by命令用于按排序顺序获取数据例如 Sort by hive gt SELECT E EMP ID FROM Employee E SORT BY E empid Order by hive
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
Hadoop：读取ORC文件并放入RDBMS中？

我有一个以 ORC 文件格式存储的配置单元表我想将数据导出到 Teradata 数据库我研究了 sqoop 但找不到导出 ORC 文件的方法有没有办法让 sqoop 为 ORC 工作或者有什么其他工具可以用来导出数据 Thanks
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
如何在蜂巢中的每个组中按计数 desc 进行排序？

这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想

随机推荐

stable diffusion webui升级bug问题解决思路(纯干货）

个人网站 https tianfeng space 文章目录一前言二个人方案 1 扼杀在萌芽中 A 解压后点击启动器运行依赖然后点击A启动器 B 更新本体和扩展全部到最新版本 C 把controlnet1 1放入stable d
由React Router引起的组件重复渲染谈Route的使用姿势

React Router 4 把Route当作普通的React组件可以在任意组件内使用Route 而不再像之前的版本那样必须在一个地方集中定义所有的Route 因此使用React Router 4 的项目中经常会有Route和其他组
VMware虚拟机搭建 ESXI-8.0环境并且安装Mac OS13系统，

官方下载地址 https customerconnect vmware com en evalcenter p free esxi8 下载完成大小如下打开VMware虚拟机新建虚拟机导入镜像选择下载VMware VMvisor In
Alibaba Arthas 3.1.1版本：trace支持行号/小幅改进

Arthas是Alibaba开源的Java诊断工具深受开发者喜爱 Github https github com alibaba arthas 文档 https alibaba github io arthas Arthas 3 1 1版
JPA在ddl-auto=update时，首次执行报错Cant DROP； check that column/key exists

背景在一个新的数据库上启动项目报了一堆Can t DROP xxx check that column key exists的错误虽然不影响系统正常启动也不影响建表但是影响心情因此上网查询原因发现大部分都没提到这个问题要么就
微信青蛙和会员让消费者看得见优惠

双面屏的设计可以及时地建立收银员于消费者的沟通关系通过背屏收银员可以把许多智慧营销的内容及时地推送到前屏提高商户的复购率以及店铺管理效率比如选择推送商户公众号的二维码消费者可以在支付时直接完成关注关注后可以推送新品也可以查看消
C/C++编程：回车符和换行符

回车符号和换行符号产生背景在计算机还没有出现之前有一种叫做电传打字机 Teletype Model 33 的玩意每秒钟可以打10个字符但是它有一个问题就是打完一行换行的时候要用去0 2秒正好可以打两个字符要是在这0 2秒里面
解决 npm WARN config global `--global`, `--local` are deprecated. Use `--location=global` instead

使用npm时报错 npm WARN config global global local are deprecated Use location global instead 目录有以下几种方法解决方法一解决方法二解决方法三本人
yolov5模型压缩之模型剪枝

目前看来 yolo系列是工程上使用最为广泛的检测模型之一 yolov5检测性能优秀部署便捷备受广大开发者好评但是当模型在前端运行时对模型尺寸与推理时间要求苛刻轻量型模型yolov5s也难以招架为了提高模型效率这里与大家分享基
第一次被虐-java面试

1 自我介绍 2 介绍Spring 3 排序算法有哪些以及它的时间复杂度 4 线程池的作用 5 网络的协议 http是哪一层的协议 UDP和TCP协议的区别 6 写SQL代码 7 介绍servlet 8 创建线程的方式 9 面向对象的三大
SpringCloud微服务实战——搭建企业级开发框架（四十一）：扩展JustAuth+SpringSecurity+Vue实现多租户系统微信扫码、钉钉扫码等第三方登录

前面我们详细介绍了SSO OAuth2的定义和实现原理也举例说明了如何在微服务框架中使用spring security oauth2实现单点登录授权服务器和单点登录客户端目前很多平台都提供了单点登录授权服务器功能比如我们经常用到的QQ
javlib有新地址吗,《郭杰自杀》_郭杰自杀_NEWS下载网

走过黑魆魆的楼梯推开安全出口的木门我们来到一条幽暗的走廊上郭杰自杀酒至酣然处云持身边的小丫头不知何时悄悄立在她身后附耳轻言了几句毕竟这人在他面前可没什么下限提示郭杰自杀眼见轰轰隆隆的雷劫就要劈下元家宝赶紧拉着自家师尊两人
QCamera类实现摄像头截图

Qt5 0版本的QMultimedia包含了许多有媒体相关的类 QCamera类用于打开系统的摄像头设备 QCameraViewfinder用于显示捕获的视频 QCameraImageCapture用于截图在使用QCamera相关的类时
2种方法，教你使用Python实现接口自动化中的参数关联

前言通常在接口自动化中经常会参数关联的问题那么什么是参数关联参数关联就是上一个接口的返回值会被下一个接口当做参数运用其中Python中可以实现参数关联的方法有很多种今天小编给大家介绍下如何通过Python来实现接口自动化中的参
机器学习概念总结笔记（一）——机器学习算法分类、最小二乘回归、岭回归、LASSO回归

原文 https cloud tencent com community article 137341 机器学习概念总结 1 机器学习算法分类 1 监督学习有train set train set里面y的取值已知 2 无监督学习有tra
Kali-linux-2020 sqli-labs环境配置(含网上最全Less-29在Kali上的配置)

一检查必备环境是否安装及开启 kali 2020中apache2和mysql一般都自带有 1 打开apache2 终端输入sudo service apache2 start 访问http 127 0 0 1 页面显示出来说明启动成功
【threejs】透视相机，实现相机根据模型大小自适应，将模型放置在视角内

透视相机实现相机根据模型大小自适应将模型放置在视角内 const box3 2 new THREE Box3 setFromObject object 新建一个Box3包裹盒把模型包裹起来 const boxSize box3 2 ge
蓝桥杯真题——九进制转十进制

解法一 STL strtol include
普林斯顿微积分-求解多项式的极限问题

x a时的有理函数 x a时的涉及平方根的函数 x 时的有理函数 x 时的类多项式或多项式型函数的比 x 时的有理函数多项式型函数涉及绝对值的函数 x a时的有理函数的极限你首先总是应该尝试用a的值替换x 如果分母不为0 那么你
【大数据】Hive基础知识

Hive基础知识 1 Hive 有哪些特点 Hive 最适合于数据仓库应用程序使用该应用程序进行相关的静态数据分析不需要快速响应给出结果而且数据本身不会频繁变化 Hive 不是一个完整的数据库 Hadoop 以及 HDFS 的设计本身

【大数据】Hive基础知识

Hive基础知识

【大数据】Hive基础知识 的相关文章

随机推荐

热门标签

【大数据】Hive基础知识的相关文章