MapReduce：ChainMapper 和 ChainReducer

2024-03-09

我需要将 MapReduce jar 文件拆分为两个作业，以获得两个不同的输出文件，每个文件来自两个作业的每个减速器。

我的意思是第一个作业必须生成一个输出文件，该文件将作为链中第二个作业的输入。

我在 hadoop 版本 0.20 中读到了一些有关 ChainMapper 和 ChainReducer 的内容（目前我正在使用 0.18）：这些可能适合我的需求吗？

有人可以建议我一些链接，在哪里可以找到一些示例来使用这些方法吗？或者也许还有另一种方法来解决我的问题？

谢谢你，

Luca

有很多方法可以做到这一点。

级联作业

为第一个作业创建 JobConf 对象“job1”，并设置所有参数，其中“input”为输入目录，“temp”为输出目录。执行这个作业：JobClient.run(job1).

在其正下方，为第二个作业创建 JobConf 对象“job2”，并设置所有参数，其中“temp”为输入目录，“output”为输出目录。执行这个作业：JobClient.run(job2).
两个 JobConf 对象

创建两个JobConf对象，并按照(1)设置其中的所有参数，只是不使用JobClient.run。

然后创建两个 Job 对象，以 jobconfs 作为参数：

Job job1=new Job(jobconf1); Job job2=new Job(jobconf2);

使用 jobControl 对象，您可以指定作业依赖项，然后运行作业：
```
JobControl jbcntrl=new JobControl("jbcntrl");
jbcntrl.addJob(job1);
jbcntrl.addJob(job2);
job2.addDependingJob(job1);
jbcntrl.run();
```
ChainMapper 和 ChainReducer

如果您需要类似于 Map+ 的结构 |减少| Map*，您可以使用 Hadoop 版本 0.19 及更高版本附带的 ChainMapper 和 ChainReducer 类。请注意，在这种情况下，您只能使用一个减速器，但可以在其之前或之后使用任意数量的映射器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

MapReduce：ChainMapper 和 ChainReducer 的相关文章

Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Riak 在 MapReduce 查询中失败。使用哪种配置？

我正在与 riak riak js 结合开发一个 nodejs 应用程序并遇到以下问题运行此请求 db mapreduce add logs run 正确返回存储在存储桶日志中的所有 155 000 个项目及其 ID logs 1GXt
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
Java8：使用 Stream / Map-Reduce / Collector 将 HashMap 转换为 HashMap

我知道如何改造一个简单的JavaList from Y gt Z i e List
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF

随机推荐

唤醒睡眠线程 - Interrupt() 与将睡眠“拆分”为多个睡眠

这个要求出现在我的 Android 应用程序中但它通常适用于 Java 我的应用程序每隔几秒钟就会做一些事情我的实现如下只是相关片段不是完整的代码片段1 public class PeriodicTask private boo
为什么在 Shiny 中会出现“下标越界”错误，但在 R 中却没有？

我最近在shiny google group发布了类似的询问但没有找到解决方案我们正在开发一个闪亮的应用程序正如主题所示我们在运行该应用程序时收到错误下标越界消息然而当我们隔离有问题的代码并在 RStudio 中单独运行它
为什么将类定义为 Final 可以提高 JVM 性能？

引用自http sites google com site gson gson design document http sites google com site gson gson design document 为什么Gson中的大多
在 Windows 上启动/停止和重新启动 Jenkins 服务

我已经下载了 jenkins 1 501 zip http jenkins ci org content thank you downloading windows installer http jenkins ci org content
如何让 Perl 识别带有 '~' 的路径？

可能的重复如何在 Perl 中查找用户的主目录 https stackoverflow com questions 1475357 how do i find a users home directory in perl 我正在运行Ubu
如何禁用/删除android活动标签和标签栏？

无论如何是否可以删除应用程序标签中默认设置的活动标签栏和标签本身我想从我的设计中获得完整的布局并且需要删除顶部布局中的标签栏和标签您可以通过设置来实现这一点android theme归因于 android style Theme N
我可以使用 http2 将响应流式传输回浏览器吗？

是否可以使用 http2 将响应从节点流式传输回浏览器在我的网络应用程序中用户按下一个按钮来启动服务器进程此过程可能需要 10 分钟或更长时间才能完成我想将状态更新流回客户端浏览器我相信我可以使用 websockets 做到这一
在动态 DNS 后面使用 git

我在一台具有动态 DNS 地址的计算机上有一个 git 存储库它的 IP 地址每隔几天更改一次每个涉及与机器通信的 git 操作都会产生以下警告反向映射检查 getaddrinfo 对于 1 2 3 4 isp net 1 2 3 4
以下是 xml 中的标准日期/时间

是 2011 03 09T08 48 36 223Z 标准xsd 日期类型吗 T 和 Z 是什么意思 Z 是祖鲁时间与 UTC 相同我认为T只是代表时间 and yes it s the xsd standard date accor
函数参数之前的 class 关键字是什么？

为什么这段代码有效请参阅class前面的关键字f函数参数如果我添加它会改变什么 struct A int i void f class A pA why class here cout lt lt pA i lt lt endl int
为什么在 C 中将类型定义为指向未定义结构的指针是有效的？

我正在深入研究第三方代码库发现将类型声明为指向未定义结构的指针显然是有效的作为一个最小的工作示例考虑一个 C 文件test c不包含任何内容但 typedef struct foo bar 令我惊讶的是使用命令编译该文件没有任何问
在 OS X 上编译 C 程序以在 Linux 上运行

我有一个非常简单的 C 程序它仅使用标准库函数进行一些加密计算我将在 Ubuntu 10 04 32 位上运行该程序并使用带 m32 标志的 cc 在 OS X 10 6 上编译它当我尝试在 Ubuntu 上运行它时收到错误消息
GoogleJsonResponseException：401 未经授权的具有 OAuth2 保护的调用端点

我正在尝试制作一个以 App Engine 作为移动后端的 Android 应用程序当我尝试调用受身份验证保护的端点时出现此错误 12 21 18 58 05 120 4452 4477 com test myapplication W
压缩库的建议是在不考虑 cpu 开销的情况下使 byte[] 尽可能小？

如果我的做法是错误的请纠正我但我有一个队列服务器和一群在集群中运行的 java 工作线程我的队列中的工作单位很小但数量很多到目前为止我的基准测试和对工作人员的审查表明我的速度约为 200mb 秒所以我试图找出如何通过我的带宽获
Excel 中的分层自动编号（三级）

如果我们有一个三级层次结构并且只需要枚举 B 根据模式但某些 C 会干扰 B 该怎么办 Problem 获取列B给定列的结果A A B 1 B 2 B 3 A B 1 B 2 A B 1 B 2 B 3 P S 该任务是由于需要枚举 Ex
在 laravel eloquent 中获取除当前登录用户之外的所有用户

我在做 User all 从用户表中获取所有用户我想选择除当前登录用户之外的所有用户我该怎么做呢就像是 User where id currentUser gt id gt get 提前致谢 Using except 会更流畅地完成同
如何在 iOS 上使用平面表情符号

我正在尝试向 UITableViewRowAction 标题添加表情符号 unicode 字符这样我就不需要使用第三方库来添加图像经过我的讨论HERE https stackoverflow com a 32735211 1030580
Android 版 facebook sdk 中的示例始终显示语言为“印尼语”的身份验证页面

我使用 Android 设备运行 facebook sdk for android 中的简单示例项目应用程序身份验证页面始终采用印度尼西亚语语言我更改了 Android 设备的语言英语和中文但它仍然以印度尼西亚语显示我使用
有没有办法对可变参数宏参数使用 C++ 预处理器字符串化？

我的猜测是这个问题的答案是否定的但如果有办法的话那就太棒了为了澄清一下假设我有以下宏 define MY VARIADIC MACRO X Does some stuff here in the macro definition 我想
MapReduce：ChainMapper 和 ChainReducer

我需要将 MapReduce jar 文件拆分为两个作业以获得两个不同的输出文件每个文件来自两个作业的每个减速器我的意思是第一个作业必须生成一个输出文件该文件将作为链中第二个作业的输入我在 hadoop 版本 0 20 中读到了一

MapReduce：ChainMapper 和 ChainReducer

MapReduce：ChainMapper 和 ChainReducer 的相关文章

随机推荐

热门标签