python 连接 hive

2023-11-06

由于版本的不同,Python 连接 hive 的方式也就不一样。

在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的,首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中,也就是 site-package 中,或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下,然后用这个目录下提供的 thrift 接口调用。示例也是非常简单的。类似这样:

import sys  
from hive_service import ThriftHive  
from hive_service.ttypes import HiveServerException  
from thrift import Thrift  
from thrift.transport import TSocket  
from thrift.transport import TTransport  
from thrift.protocol import TBinaryProtocol  

def hiveExe(sql):  

    try:  
        transport = TSocket.TSocket('127.0.0.1', 10000)   
        transport = TTransport.TBufferedTransport(transport)  
        protocol = TBinaryProtocol.TBinaryProtocol(transport)  
        client = ThriftHive.Client(protocol)  
        transport.open()  

        client.execute(sql)  

        print "The return value is : "   
        print client.fetchAll()  
        print "............"  
        transport.close()  
    except Thrift.TException, tx:  
        print '%s' % (tx.message)  

if __name__ == '__main__':  
    hiveExe("show tables")

或者是这样的:

#!/usr/bin/env python

import sys

from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

try:
    transport = TSocket.TSocket('14.18.154.188', 10000)
    transport = TTransport.TBufferedTransport(transport)
    protocol = TBinaryProtocol.TBinaryProtocol(transport)

    client = ThriftHive.Client(protocol)
    transport.open()

    client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
    client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
    client.execute("SELECT * FROM test1")
    while (1):
      row = client.fetchOne()
      if (row == None):
        break
      print rowve
    client.execute("SELECT * FROM test1")
    print client.fetchAll()

    transport.close()

except Thrift.TException, tx:
    print '%s' % (tx.message)

但是都解决不了问题,从 netstat 中查看可以发现 TCP 连接确实是建立了,但是不执行 hive 指令。也许就是版本的问题。

还是那句话,看各种中文博客不如看官方文档。

项目中使用的 hive 版本是0.13,此时此刻官网的最新版本都到了1.2.1了。中间间隔了1.2.0、1.1.0、1.0.0、0.14.0。但是还是参考一下官网的方法试试吧。

首先看官网的 setting up hiveserver2
可以看到启动 hiveserver2 可以配置最大最小线程数,绑定的 IP,绑定的端口,还可以设置认证方式。(之前一直不成功正式因为这个连接方式)然后还给了 python 示例代码。

import pyhs2

with pyhs2.connect(host='localhost',
                   port=10000,
                   authMechanism="PLAIN",
                   user='root',
                   password='test',
                   database='default') as conn:
    with conn.cursor() as cur:
        #Show databases
        print cur.getDatabases()

        #Execute query
        cur.execute("select * from table")

        #Return column info from query
        print cur.getSchema()

        #Fetch table results
        for i in cur.fetch():
            print i

在拿到这个代码的时候,自以为是的把认证信息给去掉了。然后运行发现跟之前博客里介绍的方法结果一样,建立了 TCP 连接,但是就是不执行,也不报错。这是几个意思?然后无意中尝试了一下原封不动的使用上面的代码。结果可以用。唉。。。

首先声明一下,hive-site.xml中默认关于 hiveserver2的配置我一个都没有修改,一直是默认配置启动 hiveserver2。没想到的是默认配置是有认证机制的。

然后再写一点,在安装 pyhs2的时候还是遇到了点问题,其实还是要看官方文档的,我只是没看官方文档直接用 pip安装导致了这个问题。安装 pyhs2需要确定已经安装了几个依赖包。直接看在 github 上的 wiki 吧。哪个没安装就补上哪一个就好了。

To install pyhs2 on a clean CentOS 6.4 64-bit desktop....

(as root or with sudo)

get ez_setup.py from https://pypi.python.org/pypi/ez_setup
python ez_setup.py
easy_install pip
yum install gcc-c++
yum install cyrus-sasl-devel.x86_64
yum install python-devel.x86_64
pip install pyhs2

写了这么多,其实是在啰嗦自己遇到的问题。下面写一下如何使用 python
连接 hive。

python 连接 hive 是基于 thrift 完成的。所以需要服务器端和客户端的配合才能使用。

在服务器端需要启动 hiveserver2 服务,启动方法有两种, 第二种方法只是对第一种方法的封装。

1. $HIVE_HOME/bin/hive --server hiveserver2
2. $HIVE_HOME/bin/hiveserver2

默认情况下就是hiveserver2监听了10000端口。也可以通过修改 hive-site.xml 或者在启动的时候添加参数来实现修改默认配置。

另外一方面,在客户端需要安装 python 的依赖包 pyhs2。安装方法在上面也介绍了,基本上就是用 pip install pyhs2,如果安装不成功,安装上面提到的依赖包就可以了。

最后运行上面的示例代码就可以了,配置好 IP 地址、端口、数据库、表名称就可以用了,默认情况下认证信息不需要修改。

另外补充一点 fetch 函数执行速度是比较慢的,会把所有的查询结果返回来。可以看一下 pyhs2 的源码,查看一下还有哪些函数可以用。下图是 Curor 类的可以使用的函数。
这里写图片描述

一般 hive 表里的数据比较多,还是一条一条的读比较好,所以选择是哟功能 fetchone函数来处理数据。fetchone函数如果读取成功会返回列表,否则 None。可以把示例代码修改一下,把 fetch修改为:

    count = 0
    while (1):
        row = cur.fetchone()
        if (row is not None):
            count += 1
            print count, row         
        else:
            print "it's over"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python 连接 hive 的相关文章

随机推荐

  • unity 3D 自学笔记

    刚开始 创建一个正方体 窗口布局 恢复默认窗口 场景 默认场景中只有一个主摄像机和平行光源 3D物体 Duplicate 复制 Delete 删除 3D视图 导航器 Gizmo 表示世界坐标的方向 栅格 Grid 表示XZ坐标平面 天空盒
  • oracle 查询本年12月,Oracle查询1-12月数据

    模拟数据表 create table TB id int time datetime count int 添加模拟数据 insert TB select 1 2012 12 01 02 00 00 42 union all select 1
  • 神经网络:Epoch、Batch Size和迭代

    Epoch Batch Size和迭代 深度学习模型离不开这3个术语 下面我们来了解下它们的区别 和联系 背景知识 梯度下降 分三点 1 直观理解 2 梯度下降怎么做 3 梯度下降有啥用 1 直观理解梯度下降 其实它没啥就是让计算机不断猜最
  • Java 中正则表达式的详解

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 前言 Java提供正则表达式技术 专门用于处理文本问题 简单的说 正则表达式 regular expression 是对字符串执行模式匹
  • cpu,内存条,硬盘,显卡,主板,显示器之间的关系

    cpu不能直接处理硬盘上的数据 操作系统将硬盘上的数据传输到内存条上 cpu再处理内存条上的数据 如果是图像则通过显卡在显示器上输出 如果是声音数据则被发送到声卡 cpu 内存条 硬盘 显卡都是插在主板上的 这几个都是通过主板将其组织起来
  • ERROR in ./src/vue/login.vue?vue&type=template&id=28b333d2& 2:0 Module parse failed: Unexpected toke

    简单 https blog csdn net qq 25835645 article details 83473078 通俗易懂 清晰 https blog csdn net cominglately article details 805
  • vue富文本编辑器 组件封装

    Vue Quill Editor vue quill editor基本配置 gt npm install vue quill editor s main js中引入 import VueQuillEditor from vue quill
  • N+1查询问题

    一 概述 N 1的问题主要出现在发起关联查询时 例如 select from CUSTOMERS select from ORDERS where CUSTOMER ID 1 select from ORDERS where CUSTOME
  • 安装npm 并启动vue 项目

    1 windows查看是否安装npm Win R 输入cmd 输入npm v D wwwroot etc com gt node v 6 13 4 D wwwroot etc com gt v8 17 0 2 解决 npm ERR miss
  • POWER BI - 与其他BI工具的比较

    Power BI vs Tableau Tableau被认为是BI市场中的领先工具之一 Power BI被认为是与Tableau紧密竞争的新兴工具 因为它具有后端数据处理功能以及与数据源列表的连接 Tableau是市场上最好的数据可视化工具
  • 音视频处理基础知识扫盲:数字视频YUV像素表示法以及视频帧和编解码概念介绍

    专栏 Python基础教程目录 专栏 使用PyQt开发图形界面Python应用 专栏 PyQt moviepy音视频剪辑实战 专栏 PyQt入门学习 老猿Python博文目录 老猿学5G博文目录 一 引言 笔者本人对音视频编码处理的基本概念
  • linux网络编程(四)多路I/O转接服务器

    文章目录 1 多路I O转接服务器 2 select 方式的多路I O转接服务器 3 poll 方式的多路I O转接服务器 4 epoll 方式的多路I O转接服务器 1 多路I O转接服务器 多路IO转接服务器也叫做多任务IO服务器 该类
  • QT自定义Tab标签页,可以删除、添加、修改和选中

    先看效果 部分源码 pragma once include
  • 破解Zip加密文件常用的几种方法

    前言 在互联网的浪潮中 大家也许碰到过这种情况 从网络上下载了一个zip文件 最后却发现它是用密码保护的 或者自己用密码加密了一个很重要zip文件 但是一段时间后忘记了密码 无法打开 这个时候 我们就可能就需要对这个加密文件进行破解了 而随
  • 第六站:零基础认识JS的基础语法

    欢迎来到 JavaWeb的奇妙冒险 教学系列 在这里 我们将继续探索Web开发的精彩世界 本站将为你揭开JavaScript的神秘面纱 让我们在学习的过程中既轻松愉快 又能掌握高质量的知识 准备好进入第六站的学习之旅了吗 让我们开始吧 第六
  • Java定时任务调度工具Quartz(一)——简单介绍

    引言 最近因为疫情闹得严重 业务部门需求少了很多 我这边相对比以前轻松一丢丢 终于可以把许多年前心头大患梳理一下搞一搞了 我的心头大患是什么呢 就是这个系统的26个跑批 完全依赖JAR包 没有可视化操作页面 没有系统监控调度工具 就那么跑
  • sqli-labs Less18 原理到实现详解

    目录 前期知识储备 一 初始思路 1 思路 2 user agent后加入 发现出现sql错误日志 3 我尝试了之前用的各种闭合方法 都已失败告终 4 新的问题 5 现在想的是如何利用mysql插入语句insert实现注入 前期知识储备 从
  • 《视觉SLAM十四讲》学习笔记-第四讲部分习题的证明思路

    1 验证SO 3 SE 3 和Sim 3 关于乘法成群 证明 先看SO 3 定义为 SO 3 R R3 3 RR I det R 1 S O 3 R
  • java.lang.IllegalArgumentException: parameter must be a descendant of this view

    一 问题描述 ScrollView 里面嵌套了 RecyclerView 当RecyclerView里面的EditText获取焦点 然后更新数据 会闪退 并报如下错误 java lang IllegalArgumentException p
  • python 连接 hive

    由于版本的不同 Python 连接 hive 的方式也就不一样 在网上搜索关键字 python hive 的时候可以找到一些解决方案 大部分是这样的 首先把hive 根目录下的 HIVE HOME lib py拷贝到 python 的库中