大数据--pyspark远程连接hive

2023-11-16

上一篇文章介绍了python连接hive的过程，通过地址+端口号访问到hive并对hive中的数据进行操作，这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机的hive，完成本地pyspark对hive的访问。

一.环境介绍

(1)关于pyspark

这个是之前就已经部署好的，本地安装了hadoop、scala、spark之后，配置好对应的系统环境变量，在python中下载好pyspark包，就可以了

(2)关于hive

这个是前几篇文章中介绍的hive部署，在虚拟机node01上完成了部署

二.pyspark连接hive

其实pyspark只是一个python接口，实际的连接hive操作是由spark完成的，也就是之前本地下载的spark，那么想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive，在上一篇文章中提到了hive的hive-site.xml上配置了metastore的地址为node01的地址+端口号，那么将hive-site.xml放到spark中，spark就明白要到这个地址去找到hive啦。

<property>
    <name>hive.metastore.uris</name>
    <value>thrift://192.168.121.130:9083</value>
    <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
</property>

1.配置文件

(1)将虚拟机上hive的conf文件夹下的hive-site.xml，复制到本地spark的conf文件夹中

(2)将虚拟机上hive的lib文件夹下的mysql连接包mysql-connector-java-5.1.47(也是前面文章中部署hive时提到的)，复制到本地spark的jars文件夹中

3.修改hosts

在C:\Windows\System32\drivers\etc中修改HOSTS文件，在下方添加虚拟机的地址

如果忘记了虚拟机服务器的地址，可以使用以下命令查看(也是前面在部署hive时就已经设置好了的)

cat /etc/hosts

三.测试连接

在完成了上面的操作后，spark就已经可以访问到hive了，下面分别通过本地spark-shell和pyspark操作来查看是否配置成功

1.spark-shell

(1)进入spark-shell

直接命令行输入spark-shell(在配置好环境变量的情况下)

(2)语句

①导入hivecontext包

import org.apache.spark.sql.hive.HiveContext

②构建hivecontext

val hc = new HiveContext(sc)

③使用sql语句查看数据库

hc.sql("show databases").show

2.pyspark

这里很多老的教程会使用hc=hiveContext进行构建，然后使用hc.sql进行查询，然后导致查询结果错误，这样其实spark是不支持的，spark在2.x后就弃用了这种方法。具体的更多详细用法请参考官方文档

from pyspark.sql import SparkSession


spark = SparkSession \
    .builder \
    .appName("Python Spark SQL Hive integration example") \
    .enableHiveSupport() \
    .getOrCreate()
spark.sql("show databases").show()

总之如果前面一切都已经配置好了，想要使spark能够连接hive还是很简单的，复制一下配置文件就可以了，后面都是一些连接测试

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据--pyspark远程连接hive 的相关文章

HIVE JDBC ThriftHive$Client.sendBase

我在 Hadoop hive 上工作我已经安装了 hadoop 和 hive 它在命令提示符下运行良好我还创建了 hive 的 MySQL 元存储我在 hive site xml 文件中定义了 HIVE DB 数据库名称 MySQL
为什么我们需要在Hadoop程序中明确设置输出键/值类？

在 Hadoop 权威指南一书中有一个示例程序代码如下 JobConf conf new JobConf MaxTemperature class conf setJobName Max temperature FileInputFo
为什么Hadoop文件系统不支持随机I/O？

分布式文件系统例如 Google 文件系统和 Hadoop 不支持随机 I O 不能修改之前写入的文件只能写入和追加他们为什么要这样设计文件系统该设计有哪些重要优点 P S 我知道 Hadoop 将支持修改写入的数据但他们表示它
Hive Full Outer Join为相同的Join Key返回多行

我正在对同一列上的 4 个表进行完全外连接我想为连接列中的每个不同值仅生成 1 行输入是 employee1 employee1 personid employee1 name 111 aaa 222 bbb 333 ccc
如何将 Jar 文件传递到 OOZIE shell 节点中的 shell 脚本

您好我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j
S3错误线程“main”中的异常java.lang.UnsatisfiedLinkError：org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

我使用了以下依赖项
使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
Kafka Streams 在 HDFS 上查找数据

我正在使用 Kafka Streams v0 10 0 1 编写一个应用程序并希望通过查找数据来丰富我正在处理的记录该数据带时间戳的文件每天或每天 2 3 次写入 HDFS 目录我怎样才能将其加载到Kafka Streams应
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
org.apache.hadoop.security.AccessControlException：尝试在 EC2 上使用 Hadoop Java API 通过 s3n URI 访问 S3 存储桶时权限被拒绝

Scenario 我创建一个名为 my role 的 AWS IAM 角色将 EC2 指定为可信实体即使用信任关系策略文档 Version 2012 10 17 Statement Sid Effect Allow Principal
Spark SQL 未正确转换时区[重复]

这个问题在这里已经有答案了使用 Scala 2 10 4 和 Spark 1 5 1 和 Spark 1 6 sqlContext sql select id to date from utc timestamp from unixtim
如何为 HDFS 递归列出子目录？

我在 HDFS 中递归创建了一组目录如何列出所有目录对于普通的 UNIX 文件系统我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西递归列出目录内容hadoop dfs
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
在hbase中创建表

我是 hbase 和 hadoop 的新手无论如何我已经成功建立了一个由3台机器组成的hadoop集群现在我需要一些帮助来建立数据库我有一个表评论包含字段 user id comments 对评论的评论可以多个和状态字段相同
使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind

随机推荐

【Spring Boot 集成应用】 OAUTH2统一认证单点登录中的各种模式说明

1 OAUTH2统一认证介绍 OAuth 2 0 是一个行业的标准授权协议 OAuth 2 0 专注于简化客户端开发人员同时为 Web 应用程序桌面应用程序手机等各种设备接入提供特定的授权流程 2 传统登陆认证传统登陆方式是在每个服
python基础笔记（三）_Matplotlib基础语法

图表绘制工具 Matplotlib 概念一个python版的matlab绘图接口以2D为主支持python numpy pandas基本数据结构有较丰富的图表库图表窗口 plt show 直接生成图表 matplotlib inl
seate底层原理_Seate

Seata是阿里开源的一个分布式事务框架 Seata主要有两种分布式事务实现方案 AT及TCC AT模式主要关注多 DB 访问的数据一致性当然也包括多服务下的多 DB 数据访问一致性问题 TCC 模式主要关注业务拆分在按照业务横向扩展资
Jmeter(三十七) - 从入门到精通进阶篇 - 输出HTML格式的性能测试报告（详解教程）

1 简介相对于Loadrunner Jmeter其实也是可以有测试报告产出的虽然一般都不用没有Loadrunner的报告那么强大是一方面但是有小伙伴们私下问那宏哥还是顺手写一下吧今天我们就来学习下如何输入HTML格式的JMet
nginx下面完美配置解决404 file not found(让nginx支持PATHINFO路由模式)

老朱亲自写的最完美Nginx 配置文件 server listen 80 server name xxxx com if host d d d d return 404 禁IP访问 root var www index index htm
C++ 中 operator＜运算符重载来实现 sort 排序的简单理解

先上代码 Struct Student string id int grade bool operator lt const Student t const if grade t grade return grade gt t grade
面试常见问题

最失败的案例复盘经验和反思有分量的事情最成功印象最深的案例网络架构较为复杂用户端为移动手持即无线网络服务端为固网私有网络中间为办公网即服务端网络办公网用户端故障排查分别在服务端服务器网络中转端防火墙用户端
PLSQL的使用

目录 1 PLSQLl的安装配置文件配置教程地址 2 PLSQL建表出现乱问题 Oracle PLSQL 表中字段注释时为乱码解决方式 1 PLSQLl的安装配置文件配置教程地址 https blog csdn net master
java垃圾回收机制

今天算是对java的gc有了一定的了解三篇文章做个标记配合上篇文章来看 http www daniel journey com archives 139 另外推荐三篇很棒的文章 JVM调优总结 Java 6 JVM参数选项大全一次Ja
ng-class的几种用法

方法一 div div checker disabled checker 是CSS样式 selectAllButton是判断条件值为 true or false 方法二 div div item disab是判断条件值为 true or
linux rootfs制作

作一个嵌入式Linux rootfs 并且实现 web 服务 1 文件系统简介理论上说一个嵌入式设备如果内核能够运行起来且不需要运行用户进程的话是不需要文件系统的文件系统简单的说就是一种目录结构由于 linux操作系统的设备在系统
数组切片[1::2]怎么理解

python中数组切片在数组a中有三个地方可以设置参数a 位置列表初始索引默认为0 位置列表结束索引默认到最后一个元素包含最后一个元素位置为步长默认为1 a np arange 1 10 print a 1 2 3 4
kafka创建话题遇到的错误

确定Kafka安装和启动正确 ZooKeeper可以查到所有的Brokers 但执行 kafka topics sh create zookeeper localhost 2181 replication factor 3 partitio
Linux iperf3：网络性能测试工具

文章目录 iperf3简介安装详细命令参数 Server 端参数 Client 端参数示例服务端先启动客户端 iperf3简介 iPerf3是用于主动测试IP网络上最大可用带宽的工具它支持时序缓冲区协议 TCP UDP S
点云旋转平移（二）—python open3d点云平移

本文为博主原创文章未经博主允许不得转载本文为专栏 python三维点云从基础到深度学习系列文章地址为 https blog csdn net suiyingy article details 124017716 点云旋转平移介绍请
算法训练Day7

目录 LeetCode454 四数相加 1 思路 2 代码实现 3 复杂度分析 4 思考 Leetcode383 赎金信 1 思路 2 代码实现 3 复杂度分析 4 思考 Leetcode15 三数之和方法一双指针法 1 思路 2 代码
c++ libuv工作队列

1 说明 libuv 提供了一个线程池可用于运行用户代码 libuv 中的工作队列中的任务会在线程池中执行 libuv 中的线程池在内部用于运行所有文件系统操作以及 getaddrinfo 和 getnameinfo 请求 libuv 中
Linux中Grep命令（在文本中搜索指定文本）

Grep Global regular expression print 全局正则表达式输出的缩写他是Linux中最强的的命令之一 grep在一个或多个输入文本中搜索与给定模式匹配的行并将每条匹配的行写入标准的输出如果未至定文件则
马踏棋盘全部解

include stdio h int a 12 12 0 棋盘 int cut 0 缓存马所走的步数 long count 0 计算有多少种踏法 void horse int x int y bool walk int index int
大数据--pyspark远程连接hive

上一篇文章介绍了python连接hive的过程通过地址端口号访问到hive并对hive中的数据进行操作这一篇文章介绍一下怎么通过windows本地pyspark 本地部署好的spark 远程虚拟机的hive 完成本地pyspark对h

大数据--pyspark远程连接hive

大数据--pyspark远程连接hive 的相关文章

随机推荐

热门标签