Python Pandas导出Hbase数据到dataframe

2023-11-20

Python导出Hbase数据的思路：

使用happybase连接Hbase
使用table.scan()扫数据，将得到的数据整理为dataframe格式
将从Hbase中得到的byte类型的数据转为str类型的数据

示例代码

import happybase
import numpy as np
import pandas as pd


def create_table(table_name):
    """创建表"""
    connection = happybase.Connection()
    if table_name in connection.tables():  # 在所有的表中
        connection.delete_table(table_name, disable=True)  # 删除表
    connection.create_table(
        table_name,  # 表名
        {
            "col_1": dict(),  # 定义列族
            "col_2": dict(),  # 定义列族
            "col_3": dict(),
        }
    )
    connection.close()


def generate_data(table_name):
    """添加数据，添加20000行数据"""
    connection = happybase.Connection()
    table = connection.table(table_name)
    with table.batch(batch_size=10) as batch_table:
        for i in range(20000):
            random_col = np.random.randint(0, 10)
            batch_table.put('row{}'.format(i), {
                'col_1:c{}'.format(random_col): "{}".format(random_col),
                'col_2:c{}'.format(random_col): "{}".format(random_col),
                'col_3:c{}'.format(random_col): "{}".format(random_col),
            })


def convert_string(value):
    """将byte类型的数据转为str"""
    if pd.isna(value):
        return value
    else:
        return value.decode("utf8")


def change_data_to_dataframe(table_name, limit=2000):
    """将数据转为dataframe"""
    connection = happybase.Connection()
    table = connection.table(table_name)
    table_index = []
    table_values = []
    for key, value in table.scan(limit=limit):  # 选择前1000行
        table_index.append(key)
        table_values.append(value)
    table_index = [i.decode("utf8") for i in table_index]
    table_df = pd.DataFrame(table_values, index=table_index)
    table_df = table_df.applymap(convert_string)  # 将bytes解码为utf-8
    table_df.columns = [convert_string(i) for i in table_df.columns]
    return table_df


def main():
    table_name = "generate_table"
    create_table(table_name)  # 创建数据table
    generate_data(table_name)  # 生成数据table
    table_df = change_data_to_dataframe(table_name)
    print(table_df.head())


if __name__ == '__main__':
    main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据处理

python

Hbase

big data

pandas

Python Pandas导出Hbase数据到dataframe 的相关文章

最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽

随机推荐

深入ftrace kprobe原理解析

Linux krpobe调试技术是内核开发者专门为了编译跟踪内核函数执行状态所涉及的一种轻量级内核调试技术利用kprobe技术内核开发人员可以在内核的绝大多数指定函数中动态插入探测点来收集所需的调试状态信息而基本不影响内核原有的执行流程
埋点的作用，如何埋点

通过ThreadLocal和HandlerInterceptor实现java后台业务埋点日志功能后端开发埋点日志怎么做流沙飞雪的博客 CSDN博客埋点是什么有什么作用前端如何埋点网页埋点一只小可乐吖的博客 CSDN博客用户
C#系列-继承

00解释 1 命名空间可以认为类是属于命名空间的如果在当前项目中没有这个类的命名空间需要我们手动的导入这个类所在的命名空间 1 用鼠标去点 2 alt shift F10 3 记住命名空间手动的去引用 2 在一个项目中引用另一个项
Qt快捷键(常用+非常详细）

常用高频快捷键 Ctrl 多行注释取消多行注释 Ctrl B 编译工程 Ctrl R 运行工程 Ctrl Alt up 向上箭头当前行向上复制 Ctrl Alt down 向下箭头当前行向下复制 Ctrl Shift up 向上箭头
ElasticSearch-快速入门（一）

ES简介全文搜索属于最常见的需求开源的Elasticsearch 是目前全文搜索引擎的首选它可以快速地储存搜索和分析海量数据维基百科 Stack Overflow Github 都采用它 Elastic 的底层是开源库Lucene
每日作业20200525 - 图片相似度 ( 比较两个数组相似程度 )

题目图片相似度输入两个由0和1构成的 3 3的矩形如果两个矩形同坐标的值相同则为像素点相同相似度为两个矩形相同像素点总像素点 100 求图片相似度样例输入 1 0 1 0 0 1 1 1 0 1 1 0 0 0 1 0 0
行走的代码生成器：chatGPT要让谷歌和程序员“下岗”了

就在本周 OpenAI 又发布了一个全新的聊天机器人模型 ChatGPT 作为 GPT 3 5 系列的主力模型之一图片来源 OpenAI 更重要的是它是完全免费公开的所以一经发布大家立刻就玩开了很快网友们就被 ChatGPT 的能力
vue 资料合集

div class show content p UI组件 br a href https github com ElemeFE element target blank element a 11612 饿了么出品的Vue2的web UI工
virtualbox 网络地址转换（NAT）

因为个人在工作的时候条件比较充足基本上不需要用到 virtualbox 或者 vmware 等这些虚拟软件一个是因为他们占用本机的资源挺大的电脑配置稍微低点就很难受了所以说的条件充足是因为我多了一台电脑这台就被我当作练习使用用的
SpringBoot中实现文件的上传和下载

文件上传实现策略将文件上传到指定路径并将文件的路径信息存储到数据库中文件上传前台
IDEA如何进行debug调试

IDEA如何进行debug调试第一步设断点打开debug 第二步使用Debug调试的功能键程序调试相信是所有程序员必经之路因为程序写出来是不可能没有错误的当然除了非常简单的一些程序之外相信大家肯定使用过不同的编译软件都有
Vs2019 社区版内网登录

问题概述 1 Vistual Studio Community 是免费版但需要登陆授权 2 由于办公使用的是内网也是使用离线下载方法安装的因此无法联网登陆解决方法 1 外网打开Vistual Studio Community 201
第二十一章 webpack5原理loader概述

简介 loader其实是一个函数用来帮助 webpack 将不同类型的文件转换为 webpack 可识别的模块 loader的分类以及执行顺序 1 分类 pre 前置loader normal 普通loader inline 内联load
编译型语言和解释型语言各自的特点和区别，Python的解释器

编译型语言和解释型语言各自的特点和区别 Python的解释器编译型语言将源代码通过编译器编译生成可执行文件机器指令再由机器运行机器码解释型语言通过解释器逐行解释每一句源代码打个比方编译型相当于用中英文词典翻译器将一本英文
Vue如何封装组件

要封装一个 Vue 组件可以按照以下步骤进行操作创建一个新的 Vue 单文件组件 vue 文件并命名为你的组件名例如 MyComponent vue 在组件文件中使用
关于python传参引发的一些思考

人总有不会的遇到一些问题深究下去必定有所收获这个问题是在我写python爬虫项目的时候的疑问可能是我太菜了以前没学透彻也可能是上学期学Java的时候按值传递的特点给搞混了因为当时在用多线程的生产者消费者问题处理资源队列参考别人
task_5 - 副本

Task01 Task06树模型与集成学习笔记整理 1 Task01 信息论基础决策树分类思想用树的节点代表样本集合通过某些判定条件来对节点内的样本进行分配将它们划分到当前节点下的子节点这样决策树希望各个子节点中类别的纯度之和应高
内存文件系统提升磁盘性能瓶颈

author skate time 2011 08 22 提升磁盘性能瓶颈 linux的内存文件系统 ramdisk ramfs tmpfs ramdisk 是块设备在使用它们之前必须用选择文件系统将其格式化并且调整文件系统大小比较麻烦
【廖雪峰python进阶笔记】模块

1 导入模块要使用一个模块我们必须首先导入该模块 Python使用import语句导入一个模块例如导入系统自带的模块 math import math 你可以认为math就是一个指向已导入模块的变量通过该变量我们可以访问math
Python Pandas导出Hbase数据到dataframe

Python导出Hbase数据的思路使用happybase连接Hbase 使用table scan 扫数据将得到的数据整理为dataframe格式将从Hbase中得到的byte类型的数据转为str类型的数据示例代码 import h

Python Pandas导出Hbase数据到dataframe

示例代码

Python Pandas导出Hbase数据到dataframe 的相关文章

随机推荐

热门标签