Hive简介和安装

2023-11-16

1，Hive是基于hadoop的数据仓库解决方案，由facebook贡献给Apache。Hive出现的初衷是让不熟悉编程的数据分析人员也能够使用hadoop处理大数据，这是怎么实现的呢？

2，我们先来看看Hive提供的接口，从下面Hive的架构图中可以很明显的看出来，Hive 提供了Hive shell，JDBC/ODBC，Web接口来使用和管理Hive数据仓库。

Hive的shell接口可以通过客户端接受shell命令，而Hive 提供了类似于 sql的HiveQL语法，使得通过Hive可以用类似于操作关系数据库那样对Hive数据仓库进行操作，熟悉sql的数据分析人员可以很容易的学会操作Hive利用hadoop进行大数据分析。
Web接口可以让我们像管理hadoop一样通过浏览器监控、管理hive数据仓库。

3，Hive的安装分为三种：内嵌模式、单机模式、远程模式

内嵌模式：元数据保持在内嵌的Derby模式，只允许一个会话连接

本地独立模式：在本地安装Mysql，把元数据放到Mysql内

远程模式：元数据放置在远程的Mysql数据库

4，Hive内嵌模式的安装：内嵌安装，Hive的元数据存储在derby数据库中，derby数据只允许单用户连接，所以只适用于实验环境。

4.1 下载Hive安装介质。http://mirror.bit.edu.cn/apache/hive/stable/

4.2 我的试验环境是在win7系统下安装virtualbox，linux系统是centos。所以我是在windows中下载Hive的安装压缩包，然后通过工具winscp将其传送到linux文件系统中。

4.3 解压Hive安装包并创建软连接。软连接可以不用创建，创建软连接的原因是hive-0.11.0 名称太长不方便书写，创建软连接相当于给hive-0.11.0起了一个更简单的别名。实际上我们也可以通过命令 mv 直接将文件夹名hive-0.11.0改为hive。

4.4修改配置文件，更改配置文件名称。

在/etc/profile中添加HIVE_HOME环境变量

在hive安装目录下的conf文件夹中的hive-default.xml.template，hive-log4j.properties.template复制改名：

cp hive-default.xml.template hive-site.xml

cp hive-log4j.properties.template hive-log4j.properties

这样hive的内嵌模式就安装好了，可以通过执行命令 Hive进行验证。

5，独立模式和远程模式的安装。

独立模式和远程模式下，元数据都存储在mysql数据库中，不同的是独立模式下mysql安装在本地，远程模式下mysql安装在远程计算机上。

因为独立模式和远程模式都不在使用内嵌的derby数据库存储元数据，而是使用mysql存储元数据，所以首先要装mysql数据库。

5.1本地安装mysql数据库。

mysql下载地址http://dev.mysql.com/downloads/mysql/。

mysql的java驱动包下载http://dev.mysql.com/downloads/connector/j/

下载mysql和mysql驱动之后，开始安装，要注意使用root用户来安装mysql数据库，否则会在使用的过程中遇到权限不足的问题。

第一步，解压mysql和mysql的java驱动。

第二步，使用命令rpm安装mysqlserver。（如下图，图片来自艾伦老师hadoop视频教程）

在安装过程中，系统会自动生成一个用户，用户名是当前系统用户名，如root，初始密码存放在/root/.mysql_secret文件夹中。如下图进行查看，每个用户的初识密码是不一样的。

第三步，安装mysql_client和mysql_devel.

执行命令启动mysql服务。

第四步，用之前安装mysqlserver时生成的用户名和密码登陆mysql，并修改密码。

第五步，授权任何ip地址的用户使用客户端登陆mysql。

第六步，创建一个新的用户，如hive，并给这个用户授权。

> create user 'hadoop'identified by '123456';

>grant all on *.* tohadoop@'%'with grant option;

第七步，用创建的用户hive登陆mysql，创建名为hive数据库用来存储hive数据仓库元数据。

mysql -uhadoop-p123456

mysql> create database hive;

5.2修改hive-site.xml配置文件，指定mysql连接字符串和用户名及密码。这里不修改的话就默认用derby作为元数据存储。

5.3，将之前下载解压的mysql的java驱动复制到{hivehome}/lib目录下

5.4 输入hive命令测试，hive独立安装是否成功。

总结：独立模式和内嵌模式区别和联系，独立模式是在内嵌模式的基础之上继续安装，独立模式要安装mysql数据库，要再hive-site.xml文件中指定元数据库为mysql，要将mysql的驱动包放置在hive安装目录下的lib目录中。

5.5远程模式的安装。

一是，远程模式首先要指定mysql的位置，在hive-site.xml文件中告诉hive怎么去连接mysql元数据库。

Ø修改hive-site.xml的javax.jdo.option.ConnectionURL参数，调整主机名为远程机的主机名

二是，hive-site.xml中配置metastore不采用本地存储的方式，而要采用远程的方式。

Ø配置hive.metastore.uris参数

<property>
          <name> hive.metastore.local </name>
          <value> false </value>
          <description>controls whether to connect to remote metastore server or open a new metastore server in Hive Client JVM</description>
        </property>
   <property>
          <name> hive.metastore.uris </name>
          <value> thrift://hadoop0:9083 </value>
          <description></description>
</property>

对于远程安装，即把hive的元数据库安装在和hive不同的服务器上，所以和内嵌安装以及独立安装不同的是，我们需要单独启动远程的metastore服务，从而连接元数据库。

6，hive的远程启动。远程安装的启动步骤可以总结为：启动mysql服务（mysql service start），启动远程元数据服务（hive --service metastore），启动本地hive服务（hive --service hiveserver）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive简介和安装的相关文章

[Hive]查询 hive 数据库时出现“ArrayIndexOutOfBoundsException”

当我查询配置单元基础 hive 0 11 0 和 hive 0 12 0 时我总是得到 ArrayIndexOutOfBoundsException 但有时不会这是错误 java lang RuntimeException Hive R
Hadoop/Hive Collect_list 不包含重复项

根据该帖子 Hive 0 12 Collect list https stackoverflow com questions 6445339 collect set in hive keep duplicates 我试图找到 Java 代码
Hive 将字符串转换为字符数组

例如如何将字符串转换为字符数组 abcd gt a b c d 我知道分割方法 SELECT split abcd a b c d 最后一个空格有错误吗或任何其他想法这实际上不是一个错误蜂巢分割功能 https github com
Hive “alter table <表名称> 连接”如何工作？

I have n large 我想要合并的小尺寸 orc 文件的数量k small 大型 orc 文件的数量这是使用完成的alter table table name concatenateHive 中的命令我想了解 Hive 是如何实
Hive 和 PIG/Grunt shell 挂在 cygwin 上

我在 Windows 7 机器 32 位上以本地模式运行 Hadoop 我已将 HIVE PIG Hadoop Java6 全部安装在 C 驱动器上我使用的 Cygwin 版本 2 819 我已将 C 安装在 cygwin 上我可以从
有关 HIVE_STATS_JDBC_TIMEOUT 的任何更新以及如何在源级别跳过它

当我尝试使用时Spark Sql反对Hive 会抛出如下错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT at org apache
使用 PIG 从 Hive 表解析嵌套 XML 字符串

我正在尝试使用 PIG 从 Hive 表中的字段而不是从 XML 文件中提取一些 XML 这是我读过的大多数示例的假设 XML 来自排列如下的表 ID XML string XML 字符串包含 n 行始终包含最多 10 个属性中的至少一个
Hive 命令行如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确

我正在运行配置单元查询如下所示 Select count group name from table name group by group name 状态正在运行在应用程序 ID XXXX 的 YARN 集群上执行 VERTICES
在 HIVE 中选择该月的第一天

我正在使用 Hive 它与 SQL 类似但对于 SQL 用户来说语法可能略有不同我看过其他的stackoverflow 但它们似乎在SQL中具有不同的语法我试图通过此查询获取该月的第一天这给了我今天的一天例如如果今天是 2015
根据列删除配置单元中的重复行

我有一个包含 10 列的 HIVE 表其中前 9 列将有重复的行而第 10 列则不会因为 CREATE DATE 将具有创建日期例子如果我今天在表中插入 10 行它将具有 CREATE DATE 作为今天的日期如果我明天再次插
Apache Hive regEx serde：数据类型

对于处理日志我想使用 Apache Hive regEx serde 但我只找到使用 String 作为表列的数据类型的示例现在我的问题是是否支持基于日期的类型整数和数组还是只是字符串此示例和其他示例仅使用字符串 CREAT
从hive中的子查询中获取值

我试图参数化配置单元中的值而不是在查询中对其进行硬编码下面是查询 select from employee where sal gt 30000 但我不需要使用硬编码的 30000 值而是需要来自相同的查询如下所示但我遇到了问题
Hive 表是从 Spark 创建的，但在 Hive 中不可见

从火花使用 DataFrame write mode SaveMode Ignore format orc saveAsTable myTableName 表正在保存我可以使用下面命令的 hadoop 看到fs ls apps hive w
如何通过Spark Thrift Server访问自定义UDF？

我正在 EMR 上运行 Spark Thrift 服务器我通过以下方式启动 Spark Thrift 服务器 sudo u spark usr lib spark sbin start thriftserver sh queue inte
如何在 ORC 分区 Hive 表的中间添加一列，并且仍然能够使用新结构查询旧分区文件

目前我在 Prod 中有一个分区 ORC 托管错误地创建为内部优先 Hive 表其中至少有 100 天的数据按年月日约 16GB 数据分区这个表大约有160列现在我的要求是在这个表的中间添加一列并且仍然能够查询旧数据
如何在 Hive 中将字符串转换为毫秒时间戳

我有一个字符串 20141014123456789 它代表一个毫秒时间戳我需要将其转换为 Hive 中的时间戳 0 13 0 而不丢失毫秒我尝试了这个但 unix timestamp 返回一个整数所以我丢失了毫秒 from unix
Hive 分区表上的 Spark 行为

我用的是 Spark 2 实际上我不是执行查询的人所以我不能包含查询计划数据科学团队问过我这个问题我们将 Hive 表划分为 2000 个分区并以 parquet 格式存储当在 Spark 中使用相应的表时执行器之间恰好执行了 2
Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML

随机推荐

机器学习实战（集成学习与随机森林）

集成学习与随机森林更新权重 Adaboost AdaBoostClassifier base estimator None n estimators 50 learning rate 1 0 algorithm SAMME R rando
JavaScript去除数组对象中多余字段，提取对象数组中某些的属性组成新的对象数组。

对象数组中每个对象包含很多属性批量操作只需要要用到一两个属性可以提取原数组中的属性组成一个新的对象数组 const data classtypecode 新人对象 NST suoxie classtypename null trains
一般函数指针和类的成员函数指针

一般函数指针和类的成员函数指针转载请注明原文网址 http www cnblogs com xianyunhe archive 2011 11 26 2264709 html 函数指针是通过指向函数的指针间接调用函数函数指针可以实现对参
如何利用Java完成在数组中插入数值并且排序（从大到小）

首先要对数据组进行扩容然后定义新的数据组将旧数据组的值重新赋值最后开始插入数值数组插入值前提数组本身有序插入要保证不会越界步骤 1 从后向前遍历 2 每个值要与插入的值进行比较不符合顺序的后移 3 符合顺序的要在后方插入
AD之PCB中元器件旋转45度后两元器件无法靠得很近

最近笔者因为在画一块圆形PCB板所以为了节省PCB空间有时需要将元器件倾斜放置在这时就产生了一个问题问题情况及解决办法记录如下问题描述首先是正常竖直放置时两元器件可以放置得很近这没有问题然后将两元器件同时选中并旋转45度
软件工程基础知识--需求分析

软件需求在进行需求获取之前首先要明确需要获取什么也就是需求包含哪些内容软件需求是指用户对目标软件系统在功能行为性能设计约束等方面的期望通常这些需求包括功能需求性能需求用户或人的因素环境需求界面需求文档需求数据需
Numpy 数组切片

一列表切片一维数组 1 1 切片原理列表切片是从原始列表中提取列表的一部分的过程在列表切片中我们将根据所需内容如从何处开始结束以及增量进行切片剪切列表 Python中符合序列的有序序列都支持切片 slice 例如列表字符
嵌入式成长手册——初级嵌入式开发工程师技术栈
【python爬虫】爬虫程序模板(面向对象)

爬虫代码模板程序结构 class xxxSpider object def init self 定义常用变量比如url或计数变量等 def get html self 获取响应内容函数使用随机User Agent def parse
了解 HTTP3.0 吗？简要说一下 HTTP 的一个发展历程？

码字不易有帮助的同学希望能关注一下我的微信公众号 Code程序人生感谢代码自用自取一 HTTP 3 0 HTTP3 0 也称作HTTP over QUIC HTTP3 0的核心是QUIC 读音quick 协议由Google在 20
埋点数据

原文源自 http www woshipm com pmd 751876 html 本文作者将从一个埋点系统设计者的角度通俗系统地讲解埋点的全过程涉及到埋点基础知识埋点作用埋点方法埋点数据流程埋点应用埋点管理等信息埋点是什么
STM32之中断与事件---中断与事件的区别

转自http blog csdn net flydream0 article details 8208463
docker添加新的环境变量_关于docker：在Dockerfile中，如何更新PATH环境变量？

我有一个从源代码下载和构建GTK的dockerfile 但以下行没有更新我的图像的环境变量 RUN PATH opt gtk bin PATH RUN export PATH 我读到我应该使用ENV来设置环境值但以下指令似乎也不起作用 E
conda的安装与使用

conda的安装与使用一 conda可以干嘛官方介绍 Anaconda 是一个包含数据科学常用包的 Python 发行版本它基于 conda 一个包和环境管理器衍生而来你将使用 conda 创建环境以便分隔使用不同 Python
苏神文章解析（6篇）

苏神文章解析文章目录苏神文章解析 1 浅谈Transformer的初始化参数化与标准化 1 1采样分布截尾正态分布 1 2 正交初始化 Xavier初始化 1 3 直接标准化 1 4 NTK参数化 1 5 残差连接 2 模型参数的初
图像边缘算法——计算图像边缘（OpenCV)

目录一算法描述二计算欧氏距离的Python代码三完整的代码四结果一算法描述算法的基本原理是将当前像素与邻接的下部和右部进行比较如果相似则将当前像素设置为白色否则设置为黑色如何判定像素相似呢应用欧式距离算法
吐血整理！Python程序员常见的几种变现方式！

今天聊一个特俗但是大家都想的事情那就是赚钱这件事先说为什么这个事情特俗因为其实我发现我身边大部分程序员不爱谈钱或者羞于谈钱加上程序员工资普遍比较高所以早期都没啥压力但是随着年龄增大薪资的涨薪幅度放缓问题逐渐就暴露出来
n个人围成一圈报数3 python

n int input count 0 a list range 1 n 1 while len a gt 1 b a for i in range len a count 1 if count 3 0 a remove b i print
不能使用clr编译c文件怎么强制用clr_一名合格的 C/C++ 开发者拥有这些能力，你就可以去面试了！...

首先你需要一个显得十分有经验的发型然后拥有一身程序员的基本装备比如言归正传在大多数开发人员的认知中 C C 是一门非常难学的编程语言很多人知道它的强大但因为难造成的恐惧让很多人放弃在我看来 C C 一旦学成其妙无穷
Hive简介和安装

1 Hive是基于hadoop的数据仓库解决方案由facebook贡献给Apache Hive出现的初衷是让不熟悉编程的数据分析人员也能够使用hadoop处理大数据这是怎么实现的呢 2 我们先来看看Hive提供的接口从下面Hive的架

Hive简介和安装

Hive简介和安装 的相关文章

随机推荐

热门标签

Hive简介和安装的相关文章