如何实现hbase安全批量加载

2024-02-05

我已经在 kerberos 集群中的 hbase 中创建了一个批量加载，其驱动程序类与此类似（工作）：

public static void main(String[] args) {        
    try {
        int response = ToolRunner.run(HBaseConfiguration.create(), new HBaseBulkLoadDriver(), args);            
        if(response == 0) {             
            System.out.println("Job is successfully completed...");
        } else {
            System.out.println("Job failed...");
        }
    } catch(Exception exception) {
        exception.printStackTrace();
    }
}

@Override
public int run(String[] args) throws Exception {
    int result=0;

    final String inputPath = args[0];   
    final String outputPath = args[1];      
    final String keytab = args[2];  

    Configuration configuration = getConf();        


    configuration.set("data.seperator", DATA_SEPERATOR);        
    configuration.set("hbase.table.name",TABLE_NAME);
   // configuration.set("INTRO",COLUMN_FAMILY_INTRO);
    configuration.set("hbase.zookeeper.quorum","zk_quorum");
    configuration.set("hbase.zookeeper.property.clientPort","2181");
    configuration.set("hbase.master","master:port");
    configuration.set("hadoop.security.authentication", "Kerberos");
    configuration.set("hbase.security.authentication", "kerberos");

        //configuration.set("COLUMN_FAMILY_2",COLUMN_FAMILY_2);     
    Job job = new Job(configuration);       
    // job configuration
    job.setJarByClass(HBaseBulkLoadDriver.class);       
    job.setJobName("Bulk Loading HBase Table:"+TABLE_NAME);     
    job.setInputFormatClass(TextInputFormat.class);     
    job.setMapOutputKeyClass(ImmutableBytesWritable.class); 
    //mapper class
    job.setMapperClass(HBaseBulkLoadMapper.class);      
    FileInputFormat.addInputPaths(job,inputPath);   
    FileSystem.getLocal(getConf()).delete(new Path(outputPath), true);      
    FileOutputFormat.setOutputPath(job, new Path(outputPath));      
    job.setMapOutputValueClass(Put.class);      
    HFileOutputFormat.configureIncrementalLoad(job, new HTable(configuration,TABLE_NAME));  

    job.waitForCompletion(true);         

    System.out.println("Output written to folder :" + outputPath);

    System.out.println("To proceed loading files user: hbase:hbase must own recursivly the folder!");

    System.out.println("Is hbase user owing the folder?press Y to load the data , press N and job will fail");

    String IsHbaseOwnerOftheFolder = System.console().readLine();

    if (job.isSuccessful() && IsHbaseOwnerOftheFolder.equals("Y")) {
        HBaseBulkLoad.doBulkLoad(outputPath, keytab, TABLE_NAME);
    } else {
        result = -1;
    }
    return result;
}

现在我想实现安全批量加载，但似乎必须使用协处理器框架（hbase 1.0.0）来实现，有人能给我一个如何使用 securebulkloadHFiles 方法的完整示例吗？谢谢您的帮助

我会回答我自己的问题：

为了使这个答案起作用，hbase 中的表必须已经存在，而且必须已经为导入生成 HFile

import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HRegionInfo;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.client.coprocessor.SecureBulkLoadClient;
import org.apache.hadoop.hbase.security.UserProvider;
import org.apache.hadoop.hbase.security.token.FsDelegationToken;
import org.apache.hadoop.hbase.util.Pair;
import org.apache.hadoop.security.UserGroupInformation;

String keyTab = "pathtokeytabfile";
String tableName = "tb_name";
String pathToHFile = "/tmp/tmpfiles/";
Configuration configuration = new Configuration();  

configuration.set("hbase.zookeeper.quorum","ZK_QUORUM");
configuration.set("hbase.zookeeper"+ ".property.clientPort","2181");
configuration.set("hbase.master","MASTER:60000");
configuration.set("hadoop.security.authentication", "Kerberos");
configuration.set("hbase.security.authentication", "kerberos");


//Obtaining kerberos authentication 

UserGroupInformation.setConfiguration(configuration);

UserGroupInformation.loginUserFromKeytab("here keytab", path to the key tab);

HBaseAdmin.checkHBaseAvailable(configuration);

System.out.println("HBase is running!");

HBaseConfiguration.addHbaseResources(configuration);    

Connection conn = ConnectionFactory.createConnection(configuration);

Table table = conn.getTable(TableName.valueOf(tableName));

HRegionInfo tbInfo = new HRegionInfo(table.getName());


//path to the HFiles that need to be loaded 

Path hfofDir = new Path(pathToHFile);

//acquiring user token for authentication 

UserProvider up = UserProvider.instantiate(configuration);

FsDelegationToken fsDelegationToken = new FsDelegationToken(up, "name of the key tab user");

fsDelegationToken.acquireDelegationToken(hfofDir.getFileSystem(configuration));

//preparing  for the bulk load

SecureBulkLoadClient secureBulkLoadClient = new SecureBulkLoadClient(table);

String bulkToken = secureBulkLoadClient.prepareBulkLoad(table.getName());

System.out.println(bulkToken);

//creating the family list (list of family names and path to the hfile corresponding to the family name)

final List<Pair<byte[], String>> famPaths = new ArrayList<>();

Pair p = new Pair();

//name of the family 
p.setFirst("nameofthefamily".getBytes());

//path to the HFile (HFile are organized in folder with the name of the family)
p.setSecond("/tmp/tmpfiles/INTRO/nameofthefilehere");

famPaths.add(p);

//bulk loading ,using the secure bulk load client

secureBulkLoadClient.bulkLoadHFiles(famPaths, fsDelegationToken.getUserToken(), bulkToken, tbInfo.getStartKey());

System.out.println("Bulk Load Completed..");

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hbase

如何实现hbase安全批量加载的相关文章

将数据从一个 hbase 表复制到另一个 hbase 表

我创建了一个表 hivetest 它还在 hbase 中创建了名为 hbasetest 的表现在我想将 hbasetest 数据复制到具有相同架构的另一个 hbase 表例如 logdata 中那么任何人都可以帮助我如何在不使用配置
hbase 作为 Web 应用程序中的数据库

关于在真实的 Web 应用程序中使用 hadoop 或相关技术的一个大问题我只是想了解 Web 应用程序如何使用 hbase 作为其数据库我的意思是这是大数据应用程序所做的事情还是他们使用普通数据库并仅使用这些技术进行分析拥有一个
Java中通过忽略开始行和结束行的一部分来扫描HBase行

我的 HBase 行如下 ABC A1 20160101 ABC A2 20160102 ABC A3 20160103 XYZ A9 20160201 从我的Java代码中我知道第一部分ABC和最后一部分20160101 我没办法得到中间
Hbase 和 BigTable 有什么区别？

谁能告诉我 Apache HBase 数据库和 Bigtable 之间有什么区别或者它们是相同的吗如果有的话哪一个支持关系如果他们是大搜索者有什么区别它们很相似但又不一样 Bigtable 最初于 2005 年发布但并未发布
HBase区域服务器和Hadoop数据节点应该在同一台机器上吗？

抱歉我没有资源来设置集群来测试它我只是想知道我可以将 hbase 区域服务器部署在 hadoop 数据节点计算机之外的单独计算机上吗我想答案是肯定的但我不确定 hbase区域服务器和hadoop数据节点部署在不同的机器上是好是坏
将 Spark 数据帧插入 hbase

我有一个数据框我想将其插入到 hbase 中我遵循这个文档 https hbase apache org book html sparksql dataframes 这就是我的数据框的样子 id name address 23 marr
如何在 Hive 中访问 HBase 表，反之亦然？

作为一名开发人员我通过使用以下命令从现有 MySQL 表导入数据为我们的项目创建了 HBase 表 sqoop job 问题是我们的数据分析师团队熟悉MySQL语法意味着他们可以查询HIVE轻松上桌对于他们我需要在 HIVE 中公
Spark 序列化错误：当我将 Spark Stream 数据插入 HBase 时

我对 Spark 如何在数据格式方面与 HBase 交互感到困惑例如当我在下面的代码片段中省略 ERROR 行时它运行良好但是添加该行后我发现了与序列化问题相关的任务不可序列化的错误如何更改代码发生错误的原因是什么我的代
使用主机系统上的客户端访问在虚拟机中运行的 HBase

我尝试使用客户端程序将一些数据写入hbase HBase Hadoop 在 Cloudera ubuntu 的预配置虚拟机中运行客户端运行在托管虚拟机的系统上并直接在虚拟机中运行客户端所以现在想使用vm外的客户端来访问vm上的服务器
如何更改hbase表中列族的名称

我有一个 Hbase 表只有 1 个列族 cf1 下面有 100 列我需要将 cf1 更改为新的列族 CF1 简而言之我需要修改列族名称我已经浏览了以下链接http comments gmane org gmane comp jav
Spark：如何通过 python-api 使用 HBase 过滤器，例如 QualiferFilter

我想通过使用像 python api 中的 QualiferFilter 这样的过滤器从 HBase 获取行我知道如何从 HBase 获取行就像在代码下一样 host localhost keyConv org apache spark
Hortonworks HDP Sandbox 上的 HBase：无法从 ZooKeeper 获取主地址

我从 hortonworks for virtualbox 下载了 HDP 2 1 在简单命令中使用 Hbase shell 时出现以下错误 create t1 NAME gt f1 VERSIONS gt 5 Hortonworks 错误
Spark Streaming数据放入HBase的问题

我是这个领域的初学者所以我无法理解它 HBase 版本 0 98 24 hadoop2 火花版本 2 1 0 以下代码尝试将从 Spark Streming Kafka 生产者接收的数据放入 HBase 中 Kafka输入数据格式是这样的
如何在 hbase 中存储原始数据类型并检索

如何使用 hbase api 存储和检索原始数据类型我的任务是在 hbase 上保存随机事件其中包含随机生成的不可预测的数据类型并需要在我想要的时候取回它们有人可以帮我解决这个问题吗因为我对 hbase 和这些东西真的很陌生这是
Hbase 列族

Hbase 文档表示避免创建超过 2 3 个列族因为 Hbase 不能很好地处理超过 2 3 个列族其原因在于压缩和刷新以及 IO 但是如果我的所有列总是填充对于每一行那么我认为这个推理并不那么重要因此考虑到我对列的访问是
HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite
HBase：创建多个表或包含多个列的单个表？

什么时候创建多个表而不是创建具有大量列的单个表才有意义据我了解表通常只有几个列族 1 2 每个列族可以支持 1000 多个列当 HBase 似乎在单个表中可能存在大量列时表现良好时什么时候创建单独的表才有意义在回答问题本身之前让
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps

我在 Docker 容器中运行 Janusgraph 0 3 2 并尝试使用运行 HBase 1 4 9 的 AWS EMR 集群作为存储后端我可以运行 gremlin server sh 但如果我尝试保存某些内容我会得到粘贴在下面的堆
HBase Shell 日志记录

使用 HBase shell 时我收到大量日志记录包括 INFO 和 DEBUG 消息虽然这对于学习 HBase 内部结构来说很有趣但它非常冗长并且可能会掩盖输出我尝试过以多种不同的方式更改日志记录级别包括所描述的here ht

随机推荐

Flink 中复杂拓扑（多输入）的集成测试

我需要为 flink 流拓扑编写单元测试这基本上是一个CoFlatMapFunction 并且它有 2 个输入我尝试从这个页面中获得一些灵感 https ci apache org projects flink flink docs s
如何将依赖项传递给@auth0-angular-jwt？

所以我正在迁移使用的旧代码HttpModule and angular2 jwt lib 以前我可以做angular2 jwt使用以下配置 export function authHttpServiceFactory http Ht
如何管理同一条记录的多个版本

我正在为一家公司做短期合同工作该公司试图为其数据库记录实施签入签出类型的工作流程这是它应该如何工作的用户在应用程序中创建一个新实体除了主实体表之外还将填充大约 20 个相关表创建实体后用户会将其标记为主实体另一个用户只能通
openssl_seal问题

我在加载公钥以使用 PHP 中的 openssl seal 函数进行加密时遇到一些问题我使用 openSSL 命令行工具创建了公钥和私钥 openssl genrsa des3 out private pem 1024 openssl r
如何按多个字段对对象数组进行排序？

由此原问题 https stackoverflow com q 979256 178383 如何对多个字段应用排序使用这种稍微调整的结构我将如何对城市升序和价格降序进行排序 var homes h id 3 city Dalla
从左侧隐藏/显示

我有这个代码可以用来隐藏显示我希望 div 在向左移动时隐藏我怎样才能做到这一点这就是我的FIDDLE http jsfiddle net dRpWv 306 JavaScript document ready function b
用户未登录时重定向

我在 App js 中有以下路线
ldap3 python修改用过滤器替换对象

在应用ldapmodify时我们如何进行过滤例如这就是我的用户对象的样子 dn email protected cdn cgi l email protection ou users dc dev dc com sn po givenN
WP8应用程序中的付款

我目前正在制作一个 Windows Phone 8 silverlight 应用程序在应用程序中我们希望允许用户通过 PayPal 或其他付款方式付款我还从开发中心查找了应用内付款但没有在那里看到具有可变值的付款任何有关使用什么的
如何判断哪些应用程序在 GAC 中注册了给定的程序集？

当尝试使用 gacutil exe 删除给定程序集在本例中为 log4net dll 但它应该适用于任何类似情况时由于应用程序需要该程序集操作会失败但是我不知道如何判断哪些应用程序实际需要它由于输出似乎表明该要求已记录在 MS
PHP 水印 - Zubrag

我正在使用 zubrags PHP 水印脚本附在下面它的效果很好除非我尝试使用 PNG 24 作为我的水印生成的图像带有乱码不透明的水印我想知道是否有人可以帮助解释我需要在下面的脚本中更改哪些内容以便将 PNG 24 作为正确
找不到合适的 SDK 来定位

我尝试为 UWP 创建项目但收到此错误我安装了 Windows 开发工具包并且它有效谢谢
使用 $http 访问原始 XHR 对象

我需要访问原始数据XMLHttpRequest对象在支持它的浏览器上添加文件上传进度回调这是可能的还是我必须自己构建原始请求如果是这样我该如何包装生的XMLHttpRequest在承诺对象中我模拟了 http调用构建自定义XMLH
为什么迭代器方法不能采用“ref”或“out”参数？

我今天早些时候尝试过这个 public interface IFoo IEnumerable
容器内可滚动的 div

我有以下 HTML http jsfiddle net fMs67 http jsfiddle net fMs67 我想让 div2 尊重 div1 的大小并滚动 div3 的内容这可能吗 Thanks 更新1 这是我在提出问题时过于简单
JAR 文件：找不到主类

好吧我有一个奇怪的问题我想将我的程序之一作为 jar 文件运行但是当我双击打开它时我收到一条错误消息例如找不到主类程序正在关闭我很确定我做的一切都是正确的罐子应该可以工作我也尝试过其他程序每个程序都是一样的我通过 B
printf 与 std::cout [重复]

这个问题在这里已经有答案了可能的重复我应该在 C 代码中使用 printf 吗 https stackoverflow com questions 2017489 should i use printf in my c code 如果我
如何在一张表中创建多个序列？

我有一张收据表我有列 customer id 谁有收据和收据号对于每个客户 receipt number 应从 1 开始并且是一个序列这意味着 customer id 和receipt number 将是唯一的我怎样才能优雅
VIM 自定义箭头键映射不适用于窗口切换？

我一直在尝试创建一个在 vim 中打开的窗口拆分之间切换的快捷方式而不是必须使用 ctrl w arrowkey 我更愿意只能够使用 ctrl arrow key 这是我当前的 vimrc 中的内容 map
如何实现hbase安全批量加载

我已经在 kerberos 集群中的 hbase 中创建了一个批量加载其驱动程序类与此类似工作 public static void main String args try int response ToolRunner run HB

如何实现hbase安全批量加载

如何实现hbase安全批量加载 的相关文章

随机推荐

热门标签

如何实现hbase安全批量加载的相关文章