Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

2024-01-05

我是 Hadoop 的新手！现在我尝试将 MultipleOutputFormat 与 hadoop 2.2.0 一起使用，但似乎它们只适用于已弃用的“JobConf”，而“JobConf”又使用已弃用的 Mapper 和Reducer（org.apache.hadoop.mapred.Reducer）等。有什么想法如何使用新的“org.apache.hadoop.mapreduce.Job”实现多个输出功能吗？

正如@JudgeMental 指出的，你应该使用MultipleOutputs使用新的 API (mapreduce）因为MultipleOutputFormat只支持旧的API（mapred). MultipleOutputs实际上为您提供的功能比MultipleOutputFormat:

With MultipleOutputs，每个输出可以有自己的OutputFormat，而与MultipleOutputFormat每个输出必须相同OutputFormat.
With MultipleOutputFormat您对命名方案和输出目录结构有更多的控制权MultipleOutputs.
您可以使用MultipleOutputs in the map and reduce在同一份工作中发挥职能，这是你无法做到的MultipleOutputFormat.
您可以为不同的输出设置不同的键和值类型MultipleOutputs.

所以两者并不相互排斥，即使MultipleOutputs功能较多，但命名功能不太灵活。

了解如何使用MultipleOutputs，你应该看看本文档 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html其中包含一个完整的示例。简而言之，您将在驱动程序类中添加以下内容：

// Defines additional single text based output 'text' for the job
MultipleOutputs.addNamedOutput(job, "text", TextOutputFormat.class, LongWritable.class, Text.class);

// Defines additional sequence-file based output 'sequence' for the job
MultipleOutputs.addNamedOutput(job, "seq", SequenceFileOutputFormat.class, LongWritable.class, Text.class);

而在你的Mapper or Reducer你应该初始化你的MultipleOutputs in the setup方法与MultipleOutputs mos = new MultipleOutputs(context);然后你可以在map and reduce功能为mos.write("seq", LongWritable(1), new Text("Bye"), "seq_a")。不要忘记将其关闭cleanup方法与mos.close() !

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job 的相关文章

猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF

随机推荐

如何在实时服务器上调试 ASP.NET 应用程序 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个基于 net Framework 1 1 的旧 asp net Web 应用程序它已经部署到实时服务器很多年了现在我仅在实
从模型调用辅助方法

For my Predictions模型我创建了一个方法predictions helper rb像这样 module PredictionsHelper def time in date time date time between da
div宽度高度根据文本？

我想要根据文本大小选择框的宽度高度我尝试使用下面的代码它可以工作但不是根据文本的节框的最佳宽度和高度我设计了三个css id 第一个是 wbp row 第二个是 wbp col 最后一个是文本id名称是 tridtext I try
如何使用 fetch api 获取 XML

我正在尝试制作一个天气应用程序显示一周中许多天的天气和温度我目前正在使用 openweathermap api 来完成此类任务问题是我想要的信息即天气日期仅采用 xml 格式由于我出于学术原因在 ES6 ES2015 中重建它
Spring Boot 中未合并多个 application.yml

我有一个用于数据库通信的模块 my db lib 并导入到基于 Spring Boot 的 Web 应用程序模块 my web app 我想设置有关数据库的配置my db lib 并在中设置网络应用程序my web app 当我使用 yml
如何使用自动布局更改 uiview 的高度？

因此我创建了这个场景以便了解视图如何根据其内容增加高度然而我仍然无法实现它这就是我现在所拥有的文本视图根据内容而增长但是包含它的 uiview 正在消失我应该使用什么约束以便当 uitextview 变大时其父视图的高度也
如何以编程方式触发使用 addEventListener 定义的 dblclick 事件？

对于 JS 单元测试我需要检查双击行为是否符合预期问题是该事件是通过 element addEventListener 注册的由于某种原因在这种情况下 element ondblclick 不起作用 HTML
尝试设置高度动画但出现高度为 NaN 的错误

一直在尝试创建一个动画来动态调整高度我发现这个信息 http social msdn microsoft com Forums en US wpf thread 6e4afffc 72fc 46b0 8f2d 6cd60feda77f这有
如何在 Swift 中创建单页垂直滚动 PDFView

我正在尝试使用以下代码制作垂直滚动 PDFView pdfView PDFView frame view frame pdfView backgroundColor UIColor white var documentName String
在 viewbag 中传递查询结果

这看起来应该很容易但我尝试了三四种方法但没有成功我只是想将查询结果放入视图袋中并显示它我尝试将模型对象列表放入 ViewBag 中 var mesg from MSG in lemondb Messages where MSG ms
content) 之间做出编程 $node 输出的决定' aria-label='如何在 theme('node', $node) 和 drupal_render($node->content) 之间做出编程 $node 输出的决定'> 如何在 theme('node', $node) 和 drupal_render($node->content) 之间做出编程 $node 输出的决定

Given a node 我试图在以下两种输出 node 的方法之间做出决定 either output theme node node or node build content node output drupal render nod
Firebase：onDisconnect 事件何时触发？

我正在为我的 Android 应用程序使用 Firebase 后端我想为我的聊天构建一个用户存在系统为此我从 Firebase 指南中获取了模式 final Firebase myConnectionsRef new Firebase
iphone - 在 UILabel 中显示编码字符，如 å、ä、ö

我有一个列表其每一行都使用 UILabel 如果我尝试显示特殊字符例如它会将它们显示为 aring auml ouml 如何将它们转换为 UTF8 编码的 NSString 这些字符在 WebView 中正确显示因为它正确解释了 H
Jconsole无法连接

我正在使用 VNC 连接到服务器我能够通过 VNC 进入服务器并打开 Jconsole 但无论我包含 PID 还是尝试使用 GUI 进行连接都无法让它连接到我的进程奇怪的是所有进程都显示在 GUI 中见下文当我尝试连接时我得到这个
如何提取定界延续（重置/移位）以供将来在 Haskell 中使用？

以下是使用分隔延续重置移位的简单示例 import Control Monad import Control Monad Trans import Control Monad Trans Cont test Integer test
WPF：跨程序集共享资源

I 之前发布过一个问题 https stackoverflow com questions 1422538 getting a componentresourcekey to work关于使用跨程序集共享资源Themes generic x
您可以使用 JavaScript 检测设备是否具有电话功能（例如，它可以拨打语音电话/短信）吗？

有什么方法可以检测移动设备是否能够拨打语音电话短信申请时这一点很重要tel and sms 网页中的链接仅仅检测移动设备是不够的因为平板电脑无法拨打电话 iTouch 无法拨打电话等我对使用设备大小 UA 字符串检测等进行移动检测
批处理文件中的 Bamboo 变量替换

我们在 Windows 计算机上运行 Atlassian 的 Bamboo 构建服务器 4 1 2 我创建了一个在任务中执行的批处理文件该脚本仅在 bat 文件中引用而不是内嵌在任务中例如createimage bat 在 creat
覆盖窗口 = onload

我在 WordPress 中有一个页面我想通过用户角色插件对其进行密码保护在直接页面上一切正常但我有一个页面window onload function 完全覆盖密码功能我希望页面在检查用户是否登录后立即加载 Update 我在用着
Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

我是 Hadoop 的新手现在我尝试将 MultipleOutputFormat 与 hadoop 2 2 0 一起使用但似乎它们只适用于已弃用的 JobConf 而 JobConf 又使用已弃用的 Mapper 和Reducer or

Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job 的相关文章

随机推荐

热门标签