采用hive自带的方法生成Hfile，并将上亿大数据量导入HBASE

2023-11-14

采用hive自带的方法生成Hfile，并将上亿大数据量导入HBASE

1.0引入Hbase自带的jar

由于采用CDH6.1的版本，hive直接使用Hbase方法会出现异常，hive采用hbase的方法，故需要将对应Hbase中的数据引用进来。

add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-annotations-2.1.0-cdh6.3.1.jar                      ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-client-2.1.0-cdh6.3.1.jar                           ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-common-2.1.0-cdh6.3.1.jar                           ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-endpoint-2.1.0-cdh6.3.1.jar                         ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-examples-2.1.0-cdh6.3.1.jar                         ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-external-blockcache-2.1.0-cdh6.3.1.jar              ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-hadoop2-compat-2.1.0-cdh6.3.1.jar                   ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-hadoop-compat-2.1.0-cdh6.3.1.jar                    ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-http-2.1.0-cdh6.3.1.jar                             ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-it-2.1.0-cdh6.3.1.jar                               ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-mapreduce-2.1.0-cdh6.3.1.jar                        ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-metrics-2.1.0-cdh6.3.1.jar                          ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-metrics-api-2.1.0-cdh6.3.1.jar                      ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-procedure-2.1.0-cdh6.3.1.jar                        ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-protocol-2.1.0-cdh6.3.1.jar                         ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-protocol-shaded-2.1.0-cdh6.3.1.jar                  ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-replication-2.1.0-cdh6.3.1.jar                      ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-resource-bundle-2.1.0-cdh6.3.1.jar                  ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-rest-2.1.0-cdh6.3.1.jar                             ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-rsgroup-2.1.0-cdh6.3.1.jar                          ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-server-2.1.0-cdh6.3.1.jar                           ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-shaded-miscellaneous-2.2.1.jar                      ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-shaded-netty-2.2.1.jar                              ;
add jar /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/hbase/lib/hbase-shaded-protobuf-2.2.1.jar                           ;

2.0建Hfile表

  我们采用HIVE指定文件存放格式的基本方法，将数据直接插入HIVE表中。HIVE 建表语句为：

create table tmp.ODS_PRODC_CONTRACT_STATE_HFILE(
 KEY STRING COMMENT 'HBASE_ROWKEY'
,iid STRING COMMENT '主键'
,pid STRING COMMENT '本次包ID'
,fid STRING COMMENT '本次文件ID'
,upload_date STRING COMMENT '批次日期'
,create_time STRING COMMENT '记录生成时间'
......
)
STORED AS
INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.hbase.HiveHFileOutputFormat'
TBLPROPERTIES ('hfile.family.path' = '/user/hive/warehouse/ods.db/hive-hbase/ODS_PRODC_CONTRACT_STATE_HFILE2/record');

注意：此处的record应该与HBase中的family相同。

insert overwrite  table tmp.ODS_PRODC_CONTRACT_STATE_HFILE
SELECT key
  ,iid
  ,pid
  ,fid
  ,upload_date
  ,create_time
......
FROM tmp.ods_prodc_contract_state10w order by  key
;

 插入相关数据之后可以在对应的HDFS中查看相关文件是否存在。
 直接查询该表会发现没有相关数据。这里的第一个字段会默认为Hbase的KEY，但是这里的key的名称可以不为key，其他的也可以。还有数据中不允许存在同样的KEY，如果出现同样的KEY会报错。同时KEY的值应当具有顺序，如果顺序不同也会出错。

3.0将数据导入Hbase中

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /user/hive/warehouse/ods.db/hive-hbase/ODS_PRODC_CONTRACT_STATE_HFILE ODS_PRODC_CONTRACT_STATE_HIVE

 注意这里的路径应当去掉列族，也就是去掉record。否则会出现无法找到有效列族，导致数据无法录入。
  录入数据：

在这里插入图片描述
查看数据量

注意：执行加载的指令后，原来HFILE会被转移，再次LOAD会发现没有对应文件。

亲测有效。
最终花费了半天的时间将77亿条HIVE数据迁移到了Hbase中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据

hive

上亿数据量

Hbase

HIVE ON HBASE

采用hive自带的方法生成Hfile，并将上亿大数据量导入HBASE 的相关文章

HBase 作为 Web 应用程序后端

任何人都可以建议将 HBase 作为基于 Web 的应用程序的主要数据源是否是一个好主意我主要关心的是 HBase 对查询的响应时间是否有可能实现亚秒级响应编辑有关应用程序本身的更多详细信息数据量约500GB文本数据预计很快将
HBase：创建多个表或包含多个列的单个表？

什么时候创建多个表而不是创建具有大量列的单个表才有意义据我了解表通常只有几个列族 1 2 每个列族可以支持 1000 多个列当 HBase 似乎在单个表中可能存在大量列时表现良好时什么时候创建单独的表才有意义在回答问题本身之前让
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw
如何在 hive 中创建一个空的结构数组？

我有一个观点Hive 1 1 0 根据条件它应该返回一个空数组或一个数组struct
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
HIVE 执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我在创建配置单元数据库时收到以下错误 FAILED 执行错误从 org apache hadoop hive ql exec DDLTask 返回代码 1 com facebook fb303 FacebookService Iface
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
当从 HDFS 手动删除分区数据时，如何更新 Hive 中的分区元数据

自动更新Hive分区表元数据的方法是什么如果新的分区数据被添加到HDFS 不执行alter table添加分区命令然后我们可以通过执行命令 msck Repair 来同步元数据如果从HDFS中删除了大量分区数据没有执行alter t
使用 Cassandra 进行单元版本控制

我的应用程序使用 AbstractFactory 作为 DAO 层因此一旦实现了 HBase DAO 系列创建 Cassandra DAO 系列并从多个角度查看差异对我来说将是非常好的不管怎样试图做到这一点我看到 Cassandr
2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平
使用 impala 按范围连接表的有效方法

我第一个有下表 Range 包括值范围和附加列 row From To Country 1 1200 1500 2 2200 2700 3 1700 1900 4 2100 2150 The From and Toare bigint并且是
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
无法通过 Hbase 客户端从 Titan 连接到 Google Bigtable

我正在尝试使用 Hadoop 2 HBase 1 0 2 客户端连接到 Titan 1 0 0 可在https github com thinkaurelius titan wiki Downloads https github com
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv

随机推荐

腾讯云服务器标准型S5、S4、S3、S2区别及怎么选择？

腾讯云标准型服务器包括S2 S3 S4实例这些实例都是标准型服务器那么S2 S3 S4 S5区别在哪里呢在这一块选择的时候新手会有很多犹豫看上去型号都差不多配置里面很多参数也看不懂到底怎么选呢接下来带大家去看看详细情况腾讯云
VS code 插件配置手册

点击上方小白学视觉选择加星标或置顶重磅干货第一时间送达 VS code 插件配置手册 C C Tools插件 C C 支持安装库文件的配置GDB本地调试配置GDB远程调试配置Remote VSCode插件远程编辑文件安装环境
VCPKG 包下载失败解决思路

vcpkg经常会遇到资源无法访问可能是域名解析出了问题我们只需要将域名解析后的ip地址添加到hosts文件列表中可解决此问题如 185 199 108 133 raw githubusercontent com 在此之前可先通过终端p
spring-boot-starter家族成员简介

应用程序starters 以下应用程序starters是Spring Boot在org springframework boot组下提供的 springboot使用指南https docs spring io spring boot doc
Transforms的使用

Transforms是常用的图像预处理方法提高泛化能力其实是一个py文件其中包含了totensor 将数据类型转换成tensor类型 resize等工具 tensor数据类型通过Transforms totensor去看两个问题 1
Linux 的 anaconda 虚拟环境下安装指定的 cuda、cudnn、pytorch

感悟首先 anaconda 的虚拟环境真香开辟一个新的虚拟环境很多环境版本不兼容的问题都不复存在尤其对复现别人代码的同学很有用条件只要安装的版本不超过自己机器的硬件条件那么就可以安装步骤 1 确定安装的 cuda 版本在
springBoot+scheduling实现多任务动态定时任务

使用spring自带的scheduling定时调度任务相当于轻量级的Quartz 但是不支持分布式若要实现分布式定时任务就得使用Quartz了第一步在入口类中声明定时任务 import org springframework boot
java中比较两个map是否相同

结论对于所有继承于AbstractMap的map类基本上jdk中的map都继承了直接使用Map equals 即可源码解析 AbstractMap重写了equals方法保证对两个相同内容的map调用equals比较结果为真源码如
opencv之人脸检测项目实战（二）

自我介绍目录一人脸检测整体架构 1 1 什么是人脸检测 1 2 人脸检测的应用场景 1 3 人脸检测核心架构二人脸检测实现技术储备 2 1 NDK开发的原理 2 2 什么是JNI 2 3 OpenCV架构体系三人脸识别项目实战
vue-cli打包

创建vue config js文件设置不同模式的打包入口把main js文件删除创建main prod js和main dev js module exports chainWebpack config gt 判断当前的编译模式设置
【python】统计代码行数

背景写了一堆 cs文件想看看一共写了多少行代码 import os import chardet Check if a file has the given extension def has extension file exten
模型转换、模型压缩、模型加速工具汇总

目录一场景需求解读二模型转化工具汇总 1 模型转换工具的作用 2 模型转换工具简介 1 MMdnn 2 ONNX 3 X2Paddle 三模型压缩和加速工具汇总 1 模型压缩加速工具的作用 2 模型压缩加速工具简介 1 Pocke
计算方法--解线性方程组的迭代法

文章目录雅可比迭代法 Jacobi 迭代公式的矩阵形式编程计算公式迭代思路高斯赛德尔迭代法 Gauss Seidel 迭代法的收敛性迭代法收敛性基本定义收敛速度迭代法充分条件1 迭代法充分条件2 迭代法其他收敛条件 JOR迭
如何使UI自动化项目成功？

目标错误的目标追求一些错误的目标会使自动化测试走向失败 1 替代手工测试自动化无法替代手工测试只能作为辅助手段在如图的第二象限起作用 2 高比率的UI测试覆盖率不是覆盖率越高越好由测试金字塔来看底端占比越高自动化效率越好
学前端开发适用于移动端常见的问题

常见问题1 移动端如何定义字体font family三大手机系统的字体 ios 系统默认中文字体是Heiti SC默认英文字体是Helvetica默认数字字体是HelveticaNeue无微软雅黑字体android 系统默认中文字体是Dro
快排的非递归实现

快排的非递归这里我们需要借助数据结构的栈模拟快排的递归过程栈先进后出实现思想 1 先将需要排序的区间入到栈中 2 栈不为空时将需要排序区间读取出来进行单趟排序获得了key位置判断key左右区间是否存在若存在将左右下标数据入
ORA-28009: 应当以 SYSDBA 身份或 SYSOPER 身份建立 SYS 连接

用 SQL Plus 连接数据库的时候除了用户名和密码外还要在口令后面加一个主机字符串如下请输入用户名 sys 口令 ANKoracle123 orcl as sysdba 转载于 https www cnblogs com ann
局部自适应阈值分割方法

github地址 https github com radishgiant ThresholdAndSegment git Local Yanowitz 由于光照的影响图像的灰度可能是不均匀分布的此时单一阈值的方法分割效果不好 Yano
深入理解计算机系统第三版第二章答案

练习题2 13 分析 bis 和bic都是可以看作系统已经提供好的函数所以可以用and or not 组合设计 bis x m 置数作用在x这个二进制串中把m中为1的位置全部变成0 m中为0的不变可以看到bis x m 结果和x
采用hive自带的方法生成Hfile，并将上亿大数据量导入HBASE

采用hive自带的方法生成Hfile 并将上亿大数据量导入HBASE 1 0引入Hbase自带的jar 由于采用CDH6 1的版本 hive直接使用Hbase方法会出现异常 hive采用hbase的方法故需要将对应Hbase中的数据引用进

采用hive自带的方法生成Hfile，并将上亿大数据量导入HBASE

采用hive自带的方法生成Hfile，并将上亿大数据量导入HBASE

1.0引入Hbase自带的jar

2.0建Hfile表

3.0将数据导入Hbase中

采用hive自带的方法生成Hfile，并将上亿大数据量导入HBASE 的相关文章

随机推荐

热门标签