3.1.2 Hive on Spark配置

2023-11-06

3.1.2 Hive on Spark配置

*1）兼容性说明*

注意：官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5，所以需要我们重新编译Hive3.1.2版本。

编译步骤：官网下载Hive3.1.2源码，修改pom文件中引用的Spark版本为3.0.0，如果编译通过，直接打包获取jar包。如果报错，就根据提示，修改相关方法，直到不报错，打包获取jar包。

*2********）在Hive所在节点部署Spark*

如果之前已经部署了Spark，则该步骤可以跳过，但要检查SPARK_HOME的环境变量配置是否正确。

（1）Spark官网下载jar包地址：

http://spark.apache.org/downloads.html

（2）上传并解压解压spark-3.0.0-bin-hadoop3.2.tgz

[atguigu@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/

[atguigu@hadoop102 software]$ mv /opt/module/spark-3.0.0-bin-hadoop3.2 /opt/module/spark

（3）配置SPARK_HOME环境变量

[atguigu@hadoop102 software]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

# SPARK_HOME

export SPARK_HOME=/opt/module/spark

export PATH= P A T H : PATH: PATH:SPARK_HOME/bin

source 使其生效

[atguigu@hadoop102 software]$ source /etc/profile.d/my_env.sh

（4）新建spark配置文件

[atguigu@hadoop102 software]$ vim /opt/module/hive/conf/spark-defaults.conf

添加如下内容（在执行任务时，会根据如下参数执行）

spark.master yarn

spark.eventLog.enabled true

spark.eventLog.dir hdfs://192.168.135.131:9820/spark-history

spark.executor.memory 1g

spark.driver.memory 1g

（5）在HDFS创建如下路径，用于存储历史日志

[atguigu@hadoop102 software]$ hadoop fs -mkdir /spark-history

*3********）向HDFS上传Spark纯净版jar包*

说明1：由于Spark3.0.0非纯净版默认支持的是hive2.3.7版本，直接使用会和安装的Hive3.1.2出现兼容性问题。所以采用Spark纯净版jar包，不包含hadoop和hive相关依赖，避免冲突。

说明2：Hive任务最终由Spark来执行，Spark任务资源分配由Yarn来调度，该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径，这样集群中任何一个节点都能获取到。

（1）上传并解压spark-3.0.0-bin-without-hadoop.tgz

[atguigu@hadoop102 software]$ tar -zxvf /opt/software/spark-3.0.0-bin-without-hadoop.tgz

（2）上传Spark纯净版jar包到HDFS

[atguigu@hadoop102 software]$ hadoop fs -mkdir /spark-jars

[atguigu@hadoop102 software]$ hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars

*4********）修改hive-site********.xml********文件*

[atguigu@hadoop102 ~]$ vim /opt/module/hive/conf/hive-site.xml

添加如下内容

spark.yarn.jars

hdfs://192.168.135.131:9820/spark-jars/*

hive.execution.engine

spark

hive.spark.client.connect.timeout

10000ms

注意：hive.spark.client.connect.timeout的默认值是1000ms，如果执行hive的insert语句时，抛如下异常，可以调大该参数到10000ms

FAILED: SemanticException Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session d9e0224c-3d14-4bf4-95bc-ee3ec56df48e

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

Hadoop

3.1.2 Hive on Spark配置的相关文章

在hbase中创建表

我是 hbase 和 hadoop 的新手无论如何我已经成功建立了一个由3台机器组成的hadoop集群现在我需要一些帮助来建立数据库我有一个表评论包含字段 user id comments 对评论的评论可以多个和状态字段相同
在 Zookeeper 中创建路径的最有效方法，其中路径的根元素可能存在也可能不存在？

想象一条路径 root child1 child2 child3 想象一下在动物园管理员中可能存在其中的一部分比如 root child1 Zookeeper 中没有等效的 mkdir p 此外如果任何一个操作失败 ZooKeepe
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx

随机推荐

伺服速度控制模式接线图_伺服控制的三种模式，接线方式与参数设置的讲解

伺服电机速度控制和转矩控制都是用模拟量来控制位置控制是通过发脉冲来控制具体采用什么控制方式要根据客户的要求以及满足何种运动功能来选择接下来给大家介绍伺服电机的三种控制方式如果您对电机的速度位置都没有要求只要输出一个恒转矩当然
统计连续字符-2022年全国青少年信息素养大赛Python国赛第7题

导读超平老师计划推出全国青少年信息素养大赛Python编程真题解析 50讲这是超平老师解读Python编程挑战赛真题系列的第9讲全国青少年信息素养大赛原全国青少年电子信息智能创新大赛是世界机器人大会青少年机器人设计与信息素养大
电磁仿真：十年磨一剑！基于HFSS、ADS微带滤波器仿真与设计

作者 stone 仿真秀平台作者 CAE工程师如何提高仿真实力冲击高薪戳此了解详情导读自毕业至今从事微波射频相关工作已经十年了回想这个行业的点点滴滴有一些个人的学习心得体会和大家分享一下实践是检验真理的唯一标准这句话一直伴
RNA-seq——三、使用Hisat2进行序列比对

步骤 1 下载对应的index 2 序列比对 3 samtools 将sam文件转为bam文件 4 将bam文件载入IGV 为什么要比对 https www jianshu com p 681e02e7f9af Jimmy老师主要演示了四种
什么是隐马尔可夫模型（HMM）？案例介绍

HMM简介隐马尔可夫模型 Hidden Markov Model HMM 是统计模型它用来描述一个含有隐含未知参数的马尔可夫过程其难点是从可观察的参数中确定该过程的隐含参数然后利用这些参数来作进一步的分析例如模式识别一简单案例
微信小程序crypto-js AES 加解密数据

微信小程序在与后台交互数据过程中敏感数据需要加解密本篇博客介绍在微信小程序中如何使用 crypto js 中的 AES 算法加解密数据使用crypto js加解密详解 https blog csdn net Umbrella Um a
lua取模运算math.fmod和% 的区别

我们知道取模就是求余的意思比如3 2 1这样子 lua中的就是求余的运算符号此外在数学库中还有一个math fmod的函数他们都能进行求余运算 print 15 4 math fmod 15 4 输出 0 1 0 1 另外可以对小
C语言函数大全-- u 开头的函数

u 开头的函数 1 ultoa 1 1 函数说明 1 2 演示示例 1 3 运行结果 2 ungetc 2 1 函数说明 2 2 演示示例 2 3 运行结果 3 ungetch 3 1 函数说明 3 2 演示示例 3 3 运行结果 4 un
python集合中的元素是否可以重复_python中集合中的元素是否可以重复

python中集合中的元素不可以重复集合是一个无序的不重复元素序列我们可以使用大括号或者set 函数来创建一个集合具体语法为 parame value01 value02 python中集合中的元素不可以重复推荐学习 python
vue elementui导航菜单不对齐

解决方法给 el aside添加text align start el aside background color 3A4E67 color fff line height 200px text align start
Android 围绕中心旋转动画

Android 围绕中心旋转动画一简介开发中遇到扫描蓝牙动画需求如下图所示因此以下简单记录一下方便以后使用 Android 平台提供了两类动画一类是 Tween 动画即通过对场景里的对象不断做图像变换平移缩放旋转产生
C++/Python机器学习—BP神经网络

一 Python import random import numpy as np import matplotlib pyplot as plt 定义激活函数 def sigmoid x return 1 1 np exp x 定义激活函
决策数算法进阶：属性测试条件、最佳划分度量、过拟合现象的处理

我们在先前博文中已经简要介绍了决策树的思想和几个经典算法来构造决策树决策树算法简介及其MATLAB实现代码今天我们要针对决策树继续深入探讨一些的问题目录如下目录一表示属性测试条件的方法二选择最佳划分的度量三处理决策树归纳
pytorch 神经网络套路使用Dataset,DataLoader实现多维输入特征的二分类

1 数据集传送门内含刘老师讲课视频PPT及相关数据集本文所用数据集名为diabetes cvs gz 链接 https pan baidu com s 1vZ27gKp8Pl qICn p2PaSw 提取码 cxe4 其中 x1 x8
mysql java连接说明

jdbc mysql 127 0 0 1 3306 guns autoReconnect true useUnicode true characterEncoding utf8 zeroDateTimeBehavior convertToN
CentOS 8 下 Mysql 8 主从从的搭建

CentOS 8 下 Mysql 8 主从从的搭建 1 环境 root localhost etc cat etc redhat release CentOS Linux release 8 2 2004 Core root localho
学习网络安全踩坑笔记

文章目录前言一 Window踩坑 1 虚拟机安装系统失败解决办法 2 编写批处理文件 3搭建web服务器出现目录而不是网页 4用户加入域常见问题 5 域环境中添加DHCP服务器授权时 DHCP服务无法访问 Windows Active
高光谱遥感图像处理（14）-----ENVI使用教程之监督分类与非监督分类

监督分类又称训练分类法用被确认类别的样本像元去识别其他未知类别像元的过程它是在分类之前通过目视判读和野外调查对遥感图像上某些样区中影像地物的类别属性有了先验知识对每一种类别选取一定数量的训练样本计算机计算每种训练样区的统计或其他
Maven本地仓库位置设置和实际读取不正确问题

今天发现自己的项目的maven本地仓库不是默认的位置默认位置一般是 C Users 用户名 m2 repository 然后我在idea中尝试变更本地仓库位置变更之后发现读取的位置没有发现变化不是自己这里设置的位置后来发现在
3.1.2 Hive on Spark配置

3 1 2 Hive on Spark配置 1 兼容性说明注意官网下载的Hive3 1 2和Spark3 0 0默认是不兼容的因为Hive3 1 2支持的Spark版本是2 4 5 所以需要我们重新编译Hive3 1 2版本编译步骤

3.1.2 Hive on Spark配置

*3.1.2* *Hive* *on* *Spark配置*

3.1.2 Hive on Spark配置 的相关文章

随机推荐

热门标签

3.1.2 Hive on Spark配置

3.1.2 Hive on Spark配置的相关文章