在 Hadoop 中链接多个 MapReduce 作业

2023-12-04

在许多应用 MapReduce 的现实生活中，最终的算法最终都是几个 MapReduce 步骤。

即Map1、Reduce1、Map2、Reduce2等等。

因此，您可以将最后一次归约的输出作为下一个映射的输入。

一旦管道成功完成，您（通常）就不想保留中间数据。另外，由于此中间数据通常是某种数据结构（如“映射”或“集合”），因此您不想在写入和读取这些键值对上花费太多精力。

在 Hadoop 中执行此操作的推荐方法是什么？

是否有一个（简单的）示例展示如何以正确的方式处理这些中间数据，包括事后的清理？

我认为雅虎开发者网络上的本教程将帮助您解决此问题：链接作业

您使用JobClient.runJob()。第一个作业的数据输出路径将成为第二个作业的输入路径。这些需要作为参数传递给您的作业，并使用适当的代码来解析它们并设置作业的参数。

我认为上述方法可能是现在较旧的 mapred API 的做法，但它应该仍然有效。新的mapreduce API 中会有类似的方法，但我不确定它是什么。

至于在作业完成后删除中间数据，您可以在代码中执行此操作。我以前做过的方法是使用类似的东西：

FileSystem.delete(Path f, boolean recursive);

其中路径是数据在 HDFS 上的位置。您需要确保仅在没有其他作业需要时才删除此数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

在 Hadoop 中链接多个 MapReduce 作业的相关文章

YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Riak 在 MapReduce 查询中失败。使用哪种配置？

我正在与 riak riak js 结合开发一个 nodejs 应用程序并遇到以下问题运行此请求 db mapreduce add logs run 正确返回存储在存储桶日志中的所有 155 000 个项目及其 ID logs 1GXt
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

Android：使多行编辑文本可滚动，在垂直滚动视图中禁用

我正在开发一个应用程序其中我在某个点上进行了结构根据我的应用程序要求我在 xml 中创建了水平滚动视图然后在 java 中创建了垂直滚动视图如下所示 Vertical Scroll view in Linear layout Sc
如何在不使用 fetch 的情况下知道本地仓库与远程仓库不同？

我有数十个存储库如果发生任何差异我的脚本应该更新它们新提交新标签新分支在我的情况下对于数十个存储库来说获取有点慢我想知道是否有任何快速命令可以满足我的要求您可以使用git ls remote管道命令无需获取即可获取遥控器
Android 蓝牙连接另一个蓝牙设备

我正在做基于蓝牙的应用程序我想连接其他设备例如诺基亚设备和打印机我参考了android蓝牙文档http developer android com guide topics connectivity bluetooth html 它演
* 和 + 正则表达式之间的区别

谁能告诉我两者之间的区别 and 下例中的运算符 lt gt lt gt 它们每个都是量词星号量词表示前面的表达式可以匹配零次或多次就像 0 而加量词表示前面的表达式必须匹配至少一次或多次并且它与 1 回顾一下 a gt a 0
后台工作者如何

我正在尝试在我的程序中实现后台工作人员这样当我运行程序并开始检索我需要的数据时它就不会冻结我不太清楚后台工作者是如何工作的后台工作人员是在后台运行的线程它们在不中断阻塞主线程的情况下工作您可以阅读更多内容here 简而言之在
将模块导入 Python Azure Function

我正在尝试创建一个简单的 Azure 函数它接收 HTTP 事件获取该请求正文中的 JSON 对象并将该对象保存为 CosmosDB 集合中的文档然而我似乎对导入 python 模块很着迷 init py import json
如何为 play2 的表单定义 StopOnFirstFail dsl？

在这个问题中如果一个表单字段有多个验证器如何让play一一验证它们而不是全部验证 Julien 给了我一个名为stopOnFirstFail解决我的问题 def stopOnFirstFail T constraints Constr
使用AWS SES从node.js上传邮件中的.jpg图像附件

下面是来自的代码https github com andrewpuch aws ses node js examples其中有一个发送示例和带有附件的电子邮件我修改了代码以从 aws s3 获取图像文件并将其作为附件以邮件形式发送当我为
如何在 Python 中使用 HTTPPasswordMgrWithDefaultRealm()

我需要编写一些使用 ftp 代理的 python ftp 代码代理不需要身份验证但我连接的 ftp 服务器需要身份验证我有以下代码但收到 I O 错误 ftp 错误 501 USER 格式 proxy user auth metho
查找特定的正整数[关闭]

Closed 这个问题需要多问focused 目前不接受答案我想找到整数n 以便当1 z 1 x 1 n时有1000种组合这是我的代码 int counter 0 double n 1 while true for double i 1
销售订单视图上的自定义选项卡

如何在不修改核心代码的情况下向 Magento 中的销售订单视图添加新选项卡我在网上看到了一些教程但他们希望您在 app design adminhtml default default template 中添加修改文件这是核心目录
在循环内如何将绘图存储在列表中？

我正在循环内工作我想将绘图保存在列表中以便我可以将它们一起绘制在 pdf 中问题在于列表未正确填充并使用上次运行的结果重新更新所以最终我得到的是一个包含五个完全相同的元素的列表我知道这些循环可能看起来毫无用处但我只是让它们创建
有没有办法使用 Spotify API 暂停？

我希望能够暂停当前曲目但似乎找不到任何方法文档在这里 http developer spotify com download spotify apps api reference 我正在使用以下内容来播放曲目 m player play
NSStream、UTF8String 和 NSString...混乱的转换

我正在构建一个数据包通过 NSStream 发送到服务器我试图用 ascii 代码 167 分隔两条数据这就是服务器的构建方式所以我需要尝试保持在这些范围内 unichar asciiChar 167 yields self set
“{ }”的 Visual Studio Code 格式

我在Ubuntu上 Visual Studio Code 中的 C 自动 lints 就像 if condition true DoStuff 相反我想做 if condition true DoStuff 我怎么做我已经安装了C C
在启用 cookie 的网站上使用 urlretrieve 的多线程网络抓取工具

我正在尝试编写我的第一个 Python 脚本经过大量谷歌搜索我认为我已经完成了然而我需要一些帮助才能冲过终点线我需要编写一个脚本来登录启用 cookie 的站点抓取一堆链接然后生成一些进程来下载文件我的程序以单线程运行所以
同一项目的单独丰富代码片段范围

我正在为我的网上商店创建丰富的片段我使用的项目类型之一是组织类型问题是我已经在网上商店的页眉中指定了组织名称和图像并在页脚中指定了地址介于两者之间的是网上商店的其余部分其中包含所有产品评论等当我测试我的丰富网页摘要时htt
.NET MethodInfo 缓存可以清除或禁用吗？

Per MSDN 呼叫Type GetMethods 将反映的方法信息存储在MemberInfo缓存因此不必再次执行昂贵的操作我有一个扫描程序集类型的应用程序寻找与给定规范匹配的方法问题在于由于 NET 依赖于方法元数据因此内
sql server 中的顺序分组依据

对于该表 ID Status Value 1 1 4 2 1 7 3 1 9 4 2 1 5 2 7 6 1 8 7 1 9 8 2 1 9 0 4 10 0 3 11 0 8 12 1
在 Hadoop 中链接多个 MapReduce 作业

在许多应用 MapReduce 的现实生活中最终的算法最终都是几个 MapReduce 步骤即Map1 Reduce1 Map2 Reduce2等等因此您可以将最后一次归约的输出作为下一个映射的输入一旦管道成功完成您通常就不

在 Hadoop 中链接多个 MapReduce 作业

在 Hadoop 中链接多个 MapReduce 作业 的相关文章

随机推荐

热门标签

在 Hadoop 中链接多个 MapReduce 作业的相关文章