Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？

2024-03-20

我有两个独立的 java 类，用于执行两个不同的 MapReduce 作业。我可以独立运行它们。对于这两个作业，它们所操作的输入文件是相同的。所以我的问题是是否可以在一个java类中定义两个映射器和两个缩减器，例如

mapper1.class
mapper2.class
reducer1.class
reducer2.class

然后喜欢

job.setMapperClass(mapper1.class);
job.setmapperClass(mapper2.class);
job.setCombinerClass(reducer1);
job.setCombinerClass(reducer2);
job.setReducerClass(reducer1);
job.setReducerClass(reducer2);

这些设置的方法实际上会覆盖以前的方法还是添加新的方法？我尝试了代码，但它只执行最新的给定类，这让我认为它会覆盖。但一定有办法做到这一点吧？

我问这个问题的原因是我只能读取输入文件一次（一个 I/O），然后处理两个 MapReduce 作业。我还想知道如何将输出文件写入两个不同的文件夹。目前，这两个作业是独立的，并且需要输入和输出目录。

你可以有多个mapper，但在一项作业中，你只能有一个reducer。您需要的功能是MultipleInput, MultipleOutput and GenericWritable.

Using MultipleInput，可以设置mapper和对应的inputFormat。这是我的post http://www.lichun.cc/blog/2012/05/hadoop-multipleinputs-usage/关于如何使用它。

Using GenericWritable，您可以在reducer中分离不同的输入类。这是我的post http://www.lichun.cc/blog/2012/05/hadoop-genericwritable-sample-usage/关于如何使用它。

Using MultipleOutput，你可以在同一个reducer中输出不同的类。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？的相关文章

是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud

随机推荐

MongoDB（和 Mongoose.js）：查询条件的顺序重要吗？

在创建一个简单的 MongoDB 查询时我有一个关于条件排序在查询中例如 Mongoose js 语法 conditions archived false first name Billy vs conditions first nam
C++ - 使用与包装数据相同的语法构造包装类

我正在制作一个模板类它是某种类型数据的包装器我希望能够以与未包装时设置该数据相同的方式设置构造此类基本思想如下 template
Visual Studio 2013/2015/2017 探查器在 web.config 中添加了不可发布的行？

今天我只是在 Instrumentation 模式下使用 Visual Studio 的分析器来分析我的 WCF 应用程序后来我需要发布到我的网络服务器突然我收到一条错误消息指出找不到 Microsoft VisualStudio
给定 Map 的不同 Collection 视图上的迭代顺序是否保证一致？

对于给定类型Map 是否可以保证迭代返回的 Collection 视图keySet values and entries方法以相同的顺序迭代背景我想知道是否要转型 public static void doSomethingForEac
使用 32 位应用程序中的 SPSite 访问 64 位 SharePoint

我创建了一个在 32 位模式下运行的批处理作业因为它使用 32 位 COM 对象这需要连接到 SharePoint 才能更新列表它可以在我的开发环境中运行因为它是完整的 32 位但在我的测试和生产环境中我们使用 64 位 Sha
通过单击按钮打开表单？

我有一个用于倒计时器的用户控件表单我想要一个开始按钮来启动计时器然后计时器将成为另一种形式的标签我需要做什么才能通过单击开始按钮启动这个新表单 var form new YourForm form Show
箭头函数中包裹对象文字的括号是什么意思？ [复制]

这个问题在这里已经有答案了我见过这样的 JavaScript 代码 let a gt id abc name xyz 括号里有什么作用包装此实例中引用的对象它是简写吗return 不那些括号produce对象字面量箭头功能 htt
从函数返回抽象类

是否可以从函数返回抽象类类本身或引用无关紧要您可以返回一个抽象类指针假设B是从抽象类派生的具体类A A f return new B 或参考 A f static B b return b 或智能指针 std unique ptr
显示键盘 + iPad 时 UIPopoverView 变得扭曲

我对 UIPopoverViewController 的布局有疑问目前我正在显示一个大小为 350 820 的 PopOver 我有一个单击 UIAlertView 的按钮其中将显示一个文本字段同时还会显示键盘现在的问题是只要键盘
iOS CoreBluetooth：startAdvertising() 广告静态数据时出错

我想宣传静态数据我在 iOS 上使用 Swift 2 2 1 和 CoreBluetooth 我的应用程序构建蓝牙Services以及他们对应的特征然后调用开始广告以及PeripheralManagerDidStartAdvertis
如何使用 JavaScript 或 jQuery 获取以像素为单位的文本宽度？ [复制]

这个问题在这里已经有答案了我想获取文本区域文本宽度如何获取以像素为单位的文本宽度我不想要文本长度只需将文本包裹在不可见的中span并使用jQuery width http api jquery com width 得到宽度请注
无法在 Mavericks 下使用我自己的 kestore 和 xcodebuild

我正在尝试迁移一些 iOS xcode 构建服务器以使用 Mavericks 这对于 xcode 6 构建至关重要然而使用过去在 Mountain Lion 中工作的代码调用 xcodebuild 似乎不再工作并导致 Code Sign
MySQL统计复杂查询结果？

我有以下查询 count SELECT COUNT FROM post GROUP BY ID HAVING ID NOT IN SELECT taxiID FROM taxi WHERE userID userID AND value I
在单个请求中渲染多个视图

我试图在单个请求中返回多个视图并以 JSON 字符串形式返回它们 Example RequestMapping value my request public void myRequest HttpServletRequest reque
如何为集合提供带有迭代器的 const 接口？

我想创建一个具有如下签名的函数 Set found to be an iterator to the location of key in map or end if not found bool lookup const Key key
使用 Webbrowser C# 从 iframe 读取 HTML 代码

如何使用WebBrowser读取IFRAME html代码我有一个带有 iframe 的网站点击几次后新的 URL 会在此 IFRAME 中打开其中包含 HTML 代码的某些部分有可能读到这个吗当我尝试 Navigate 到此
从 GIF 文件的字节数组中提取各个帧的字节数组

我有一个byte GIF 文件的我想从中提取所有帧我可以使用提取帧System Drawing Image and System Drawing Imaging 但这些都需要System Drawing我不能在我的项目中使用它因为 U
使用 XSLT 转换 Heat 生成的 .wxs（添加RegistryValue 并编辑一些值）

这是我想要的输出
Prolog：覆盖谓词和使用它之间的区别

我觉得自己真的很愚蠢感觉自己错过了一些东西我基本上有两个文件 module pl通用逻辑规则可重用 state pl一个针对当前场景在模块文件中 module pl 我已经声明 inside Food Eater T isTime
Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？

我有两个独立的 java 类用于执行两个不同的 MapReduce 作业我可以独立运行它们对于这两个作业它们所操作的输入文件是相同的所以我的问题是是否可以在一个java类中定义两个映射器和两个缩减器例如 mapper1 clas

Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？

Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？ 的相关文章

随机推荐

热门标签

Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？的相关文章