使用 MultipleOutputs 写入 MapReduce 中的 HBase

2024-04-06

我目前有一个 MapReduce 作业，它使用 MultipleOutputs 将数据发送到多个 HDFS 位置。完成后，我使用 HBase 客户端调用（在 MR 之外）将一些相同的元素添加到一些 HBase 表中。使用 TableOutputFormat 将 HBase 输出添加为附加的 MultipleOutputs 会很好。通过这种方式，我可以分发我的 HBase 处理。

问题是，我无法让它发挥作用。有没有人在 MultipleOutputs 中使用过 TableOutputFormat...？具有多个 HBase 输出？

基本上，我正在设置我的收藏家，就像这样......

Outputcollector<ImmutableBytesWritable, Writable> hbaseCollector1 = multipleOutputs.getCollector("hbase1", reporter); 
Outputcollector<ImmutableBytesWritable, Writable> hbaseCollector2 = multipleOutputs.getCollector("hbase2", reporter); 
Put put = new Put(mykey.getBytes());
put.add("family".getBytes(), "column".getBytes(), somedata1);
hbaseCollector1.collect(NullWritable.get(), put);

put = new Put(mykey.getBytes());
put.add("family".getBytes(), "column".getBytes(), somedata2);
hbaseCollector2.collect(newImmutableBytesWritable(mykey.getBytes()), put);

我觉得这似乎符合hbase编写的总体思路。

当我输入此内容时，部分问题可能更多地在于工作定义中。看起来 MR（和 Hbase）想要一个全局参数集，就像这样......

conf.set(TableOutputFormat.OUTPUT_TABLE, "articles");

提供表名称。问题是，我有两张桌子......

有任何想法吗？

Thanks

我已经用 3 种不同的方式将数据放入 HBase 中。最有效的（和分布式的）是使用HFileOutputFormat class.

我按如下方式设置作业...（请注意，这是根据实际代码编辑的，但核心内容仍然存在）

cubeBuilderETLJob.setJobName(jobName);
cubeBuilderETLJob.setMapOutputKeyClass(ImmutableBytesWritable.class);
cubeBuilderETLJob.setMapOutputValueClass(Put.class);
cubeBuilderETLJob.setMapperClass(HiveToHBaseMapper.class);      
cubeBuilderETLJob.setJarByClass(CubeBuilderDriver.class);       
cubeBuilderETLJob.setInputFormatClass(TextInputFormat.class);
cubeBuilderETLJob.setOutputFormatClass(HFileOutputFormat.class);
HFileOutputFormat.setOutputPath(cubeBuilderETLJob, cubeOutputPath);
HTable hTable = null;
Configuration hConf = HBaseConfiguration.create(conf);
hConf.set("ZOOKEEPER_QUORUM", hbaseZookeeperQuorum);
hConf.set("ZOOKEEPER_CLIENTPORT", hbaseZookeeperClientPort);
hTable = new HTable(hConf, tableName);
HFileOutputFormat.configureIncrementalLoad(cubeBuilderETLJob, hTable);

正如我们所看到的，我的 Mapper 类被称为HiveToHBaseMapper- 漂亮又原创。 :) 这是它的（再次，粗略的）定义

public class HiveToHBaseMapper extends
    Mapper<WritableComparable, Writable, ImmutableBytesWritable, Put> {
@Override
public void map(WritableComparable key, Writable val, Context context)
    throws IOException, InterruptedException {
    Configuration config = context.getConfiguration();
    String family = config.get("FAMILY");
    Double value = Double.parseDouble(sValue);
    String sKey = generateKey(config);
    byte[] bKey = Bytes.toBytes(sKey);
    Put put = new Put(bKey);
    put.add(Bytes.toBytes(family), Bytes.toBytes(column), (value <= 0) 
        ? Bytes.toBytes(Double.MIN_VALUE)
        : Bytes.toBytes(value));        
    ImmutableBytesWritable ibKey = new ImmutableBytesWritable(bKey);
    context.write(ibKey, put);
}

我不知道你是否可以用它来适应MultipleOutputs或者需要创建一个新的 MR 作业。这是我遇到的将数据导入 HBase 的最佳方法。 :)

这有望帮助您找到解决方案的正确方向。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

Hbase

使用 MultipleOutputs 写入 MapReduce 中的 HBase 的相关文章

使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
将文件夹名称添加到输出 Pig Latin

我在 HDFS 中有下一个目录结构 logs folder 2021 03 01 log1 log2 log3 2021 03 02 log1 log2 2021 03 03 log1 log2 日志由文本数据组成数据中没有日期因为它已
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
hbase api - 通过行ID列表获取数据行信息

是否可以通过hbase java API通过行id列表获取hbase数据记录例如我有一个已知的 hbase 行 ID 列表 mykey1 myhash1 mykey1 myhash2 mykey1 myhash3 mykey2 myha
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
从 Storm Bolt 将行插入 HBase

我希望能够从分布式非本地 Storm 拓扑将新条目写入 HBase 有一些 GitHub 项目提供以下任一功能 HBase 映射器 https github com ptgoetz storm hbase or 预制风暴螺栓 https
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分

随机推荐

为什么当我运行应用程序时会创建这么多“postgres.exe”？

我有一个 J2EE 应用程序部署在 JBoss 应用程序服务器中Windows Vista 32 位平台我的数据库是 PostgreSQL 9 0 4 并且我正在使用 JDBC 驱动程序 postgresql 9 0 801 jdbc
快速发布请求编码加号变成空格

最近我发现当我发送包含号的帖子数据时会变成空格例如菜肴名称鱼薯条这会导致服务器端无法读取数据所以我尝试以下我使用 request setValue application json charset utf 8 forHTT
cocos2d中捏合时如何缩放精灵？

我正在开发一个应用程序我必须显示 50 到 70 个图像精灵我制作了一个滚动条可以滚动所有这些图像但我也想缩放这些图像我一直在关注 http ganbarugagames com 2010 12 detecting touch
如何在函数内部调用函数本身

我有一个函数我想在最后一行完成后再次调用它如果我展示代码也许会更容易理解 function updateQuantity further code where I change same data and now I want to s
网格列不起作用？ [复制]

这个问题在这里已经有答案了我有这个标记
未捕获的类型错误：$(...).fullCalendar 不是函数(...)

document ready function page is now ready initialize the calendar calendar fullCalendar put your options and callbacks h
在 iOS 8 上自定义 UISegmentedControl

iOS 7 和 8 似乎使自定义 UISegmentedControl 的旧方法不再完全起作用我一直像过去一样设置分隔线图像和所有内容但似乎有一些以前的 iOS 版本中不存在的新状态因此出现了一些奇怪的视觉效果这是我正在使用的代码
具有自定义配置的 UICollectionView 列表 - 如何将单元格中的更改传递到视图控制器？

我已经实现了UICollectionView自定义列表UICollectionViewCell and UIContentConfiguration使用新的iOS 14API 我一直在关注这个教程 https swiftsenpai com
hashMap、List 和 Set 的数据结构

任何人都可以指导我深入了解所使用的数据结构以及它是如何在 Util Collection 页面的列表集合和映射中实现的在面试中大多数问题都是关于算法的但我从未在任何地方看到过实现细节有人可以分享一下信息吗要了解 Java 如何实
我可以从应用程序中抛出哪些内置 .NET 异常？

如果我需要从应用程序中引发异常我可以使用哪些内置 NET 异常类他们都是公平的游戏吗我什么时候应该自己导出 See 创建和抛出异常 http msdn microsoft com en us library ms173163 aspx
给定关键字在 Scala 3 或 dotty 中如何工作？

我正在浏览 Scala 3 文档他们介绍了given被认为是 Scala 2 替代品的关键字implicit 代码在这里 trait Ord T def compare x T y T Int def x T lt y T compare
面向对象的 Javascript 与纯 jQuery 和 .data 存储

我当前的编程风格是 OO javascript 使用 John Resig 的 Class extend 函数 http ejohn org blog simple javascript inheritance http ejohn org
Chrome 中的 css 反转过滤器

I have BODY webkit filter invert 100 moz filter invert 100 ms filter invert 100 o filter invert 100 filter invert 100 an
我可以在没有 Mac 的情况下获得“开发者证书”和“配置文件”吗？ [复制]

这个问题在这里已经有答案了可能的重复如何在没有 Apple 硬件的情况下将 Phonegap 应用程序部署到 iPhone iPhone Mac https stackoverflow com questions 6339945 how
拒绝访问 Kiosk 程序进程

我有一个信息亭应用程序并且必须禁用任务管理器总是要防止关闭程序由用户但有些用户需要任务管理器来关闭挂起的程序任何帮助都将被适当然而我确信Windows中有一个功能可以防止关闭程序的进程就像当一个人试图杀死一个程序时一样运行DLL过
我正在尝试使用 Provider 和 Firebase 流式传输模型列表，并将字段值设置为我的应用程序中的另一个模型

我正在使用 Flutter Provider 和 Firebase 构建一个生产力应用程序我目前有许多流我从 Firestore 中获取集合并将它们转换为模型列表我遇到一个问题当我尝试创建任务模型列表时我返回一个空列表在 Fir
R data.table：如何从 tibble 到 data.table 再到 tibble 返回？

我主要使用中的表格tibble格式来自tidyverse 但对于某些步骤我使用data table包裹我想看看转换的最佳方法是什么数据表回到tibble 我明白那个data table有一些巧妙的功能setDT https rdrr i
Systemd 服务启动失败

我试图让 NodeJS 服务器在启动时运行因此我创建了以下 systemd 单元文件 Unit Description TI SensorTag Communicator After network target Service Exec
单个servlet如何处理来自客户端的多个请求

单个 servlet 如何处理以用户请求形式出现的多个客户端请求基于单例设计模式我知道我们创建了单个 servlet 实例但是单个 servlet 如何处理数百万个请求也对其中涉及的线程感到困惑此外是否有任何浏览器规范或设置在这
使用 MultipleOutputs 写入 MapReduce 中的 HBase

我目前有一个 MapReduce 作业它使用 MultipleOutputs 将数据发送到多个 HDFS 位置完成后我使用 HBase 客户端调用在 MR 之外将一些相同的元素添加到一些 HBase 表中使用 TableOutp

使用 MultipleOutputs 写入 MapReduce 中的 HBase

使用 MultipleOutputs 写入 MapReduce 中的 HBase 的相关文章

随机推荐

热门标签