MapReduce作业的Map阶段的输出总是排序的吗？

2024-01-08

我对从 Mapper 获得的输出有点困惑。

例如，当我使用以下输入文本运行一个简单的字数统计程序时：

hello world
Hadoop programming
mapreduce wordcount
lets see if this works
12345678
hello world
mapreduce wordcount

这是我得到的输出：

12345678    1
Hadoop  1
hello   1
hello   1
if  1
lets    1
mapreduce   1
mapreduce   1
programming 1
see 1
this    1
wordcount   1
wordcount   1
works   1
world   1
world   1

如您所见，映射器的输出已经排序。我没有跑Reducer根本不。但我在另一个项目中发现映射器的输出未排序。所以我对此非常清楚..

我的问题是：

映射器的输出总是排序的吗？
排序阶段是否已集成到映射器阶段中，以便映射阶段的输出已在中间数据中排序？
有没有办法收集数据sort and shuffle在进入Reducer之前阶段并持久化它？减速器带有一个键和一个可迭代列表。有什么办法可以保留这些数据吗？

映射器的输出总是排序的吗？

不，如果你不使用reducer，它不会被排序。如果您使用减速器，则在将映射器的输出写入磁盘之前会有一个预排序过程。数据在Reduce 阶段进行排序。这里发生的情况（只是猜测）是您没有指定一个Reducer类，在新的API中，该类被转换为使用IdentityReducer（请参阅这个答案 https://stackoverflow.com/a/9749215/2516301并评论）。 Identity Reducer 仅输出其输入。要验证这一点，请查看默认的Reducer计数器（应该有一些reduce任务，reduce输入记录和组，reduce输出记录......）

排序阶段是否已集成到映射器阶段中，以便映射阶段的输出已在中间数据中排序？

正如我在上一个问题中所解释的，如果不使用减速器，映射器不会对数据进行排序。如果您确实使用化简器，则数据从映射阶段开始排序，然后在化简阶段进行合并排序。

有没有办法从排序和洗牌阶段收集数据并在进入Reducer之前将其保留。减速器带有一个键和一个可迭代列表。有什么办法可以保留这些数据吗？

同样，洗牌和排序是Reduce 阶段的一部分。 IdentityReducer 会做你想做的事。如果你想为每个reducer输出一个键值对，并且这些值是可迭代的串联，只需将可迭代存储在内存中（例如在StringBuffer中），然后将该串联输出为一个值。如果您希望映射输出直接进入程序的输出，而不经过reduce阶段，那么在驱动程序类中将reduce任务的数量设置为零，如下所示：

job.setNumReduceTasks(0);

但这不会对你的输出进行排序。它将跳过映射器的预排序过程并将输出直接写入HDFS。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce作业的Map阶段的输出总是排序的吗？的相关文章

java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Riak 在 MapReduce 查询中失败。使用哪种配置？

我正在与 riak riak js 结合开发一个 nodejs 应用程序并遇到以下问题运行此请求 db mapreduce add logs run 正确返回存储在存储桶日志中的所有 155 000 个项目及其 ID logs 1GXt
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

有没有可以重新格式化 C# 代码的工具？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个最好是命令行工具可以在目录树上重新格式化 C 源代码理想情况下我应该能够自定义格
如何按日期范围查询Cassandra

我有一个 Cassandra ColumnFamily 0 6 4 它将包含来自用户的新条目我想向 Cassandra 查询这些新条目以便我可以在另一个系统中处理该数据我的感觉是我可以使用 TimeUUIDType 作为条目的键然
世博相机变焦

这是我第一次在 React Native 中使用捏合手势处理程序我正在尝试使用 Expo 创建一个可缩放相机我正在做的是 const handlePinch nativeEvent gt const scale velocity nat
调试帮助 - 交换双向链表的 2 个节点

您能帮我调试这段代码以交换双链表的两个节点吗我无法弄清楚我做错了什么这是代码 dll swap node dll head dll node1 dll node2 dll tmp int flag 0 if node1 gt prev
从每组中选择前 1 行

我有一个表格列出了已安装的软件版本 id userid version datetime 111 75 10075 2013 03 12 13 40 58 770 112 75 10079 2013 03 12 13 41 01 583 1
没有Mac就无法使用Xamarin吗？

我在 Windows 10 上使用 Visual Studio 2017 根本没有使用 Mac 当我尝试调试新的 Xamarin 跨平台项目时 VS 尝试找到 Mac 通过 Xamarin 创建跨平台应用程序几乎需要 Mac 吗是的您需
TypeScript 类型混淆（TypeError：无法读取未定义的属性“切片”）

我有以下数据csv我的 Angular 项目中的文件也导入了D3 js图书馆 group Nitrogen normal stress banana 12 1 13 poacee 6 6 33 sorgho 11 28 12 triticu
如何使用基于 PHP/MySQL 的脚本来禁止网站的 IP 封锁？

我有一个相当大的 IP 和 IP 块列表我想禁止它们我的列表是分块完成的目前的格式如下 1 2 3 4 1 2 3 54 5 6 7 8 5 6 7 8 2 3 4 5 2 3 4 116 我正在尝试找到最有效的方法来阻止这些 IP
有没有办法将spirit::lex字符串标记的内容匹配为spirit::qi语法中的文字

我正在编写 DSL 并使用 Boost Spirit 词法分析器来标记我的输入在我的语法中我想要一个与此类似的规则其中tok是词法分析器 header block tok name gt gt gt gt tok stringval
Google Translator Toolkit API 错误（“Multipart 必须有 Atom 和媒体部分”）

我尝试通过 API 将文档 srt 字幕上传到 Google Translator Toolkit 但我收到一个错误 Multipart 必须有 Atom 和媒体部分怎么了我的请求 POST toolkit feeds documen
线程在调用 Thread.start 之前开始运行

t1 threading Thread target self read print something t2 threading Thread target self runChecks args self self read无限期地运行
如果容器宽度、填充和行高已知，如何计算高度？

我正在向 DOM 动态添加元素 div class entry div text data status appendTo app twitter feed 我想在将元素添加到 DOM 之前获取元素高度通常的方法是将元素添加到具有相同样式
打印出指定宽度的 ASCII 圆

我正在尝试更改以下代码以便得到半径 2 的输出任何帮助将不胜感激因为我快要疯了 public class Main public static void main String args dist represents distanc
跨多个容器或父级的 jQuery UI 可排序 div

我有一个对象列表它被分成两个容器我想通过 jQuery 对其进行排序但我不知道如何使一个对象能够添加到其他容器列表中反之亦然因此我希望能够将一个对象从一个容器拖到另一个容器中并让代码将其视为一个列表下面是我的代码
如何在不变得模糊的情况下放大图像

I have an ImageView that is 32x32 Its a sprite basically But when I go to upscale the image it blurs like this But I wan
如何创建此查询

如果我需要在选择行中包含两个聚合函数并且每个函数我需要不同的分组依据和位置条件如何创建查询在我的示例中我需要返回玩家名称以及玩家获胜的次数可以检查桌面游戏结果第一中的结果以及他玩了多少次但不知道如何处理两个聚合函数只是我想
为什么 OpenGL 中没有圆形或椭圆形图元？

圆是基本几何实体之一然而没有定义原语OpenGL http en wikipedia org wiki OpenGL为此例如直线或多边形为什么这样一直为此包含自定义标头有点烦人有什么具体原因可以省略吗虽然圆形可能是基本形状但在
C# WPF MenuItem 自定义模板

在 Main xaml 中我有这两个菜单项第一个带有标题断开电流第二个带标题 Quit 更多具有不同标题文本的菜单项为了编辑第一个项目的一些颜色我在 App xaml 中创建了一个自定义模板
_SESSION 变量不起作用

我有一个 PHP 脚本我尝试在 HTML 标头开始之前获取会话变量如果我使用 SESSION变量位于 HTML 正文中的某个位置由于某种原因它可以工作但如果我使用 SESSION变量在 HTML 开始之前我无法从中获取值有人知道
MapReduce作业的Map阶段的输出总是排序的吗？

我对从 Mapper 获得的输出有点困惑例如当我使用以下输入文本运行一个简单的字数统计程序时 hello world Hadoop programming mapreduce wordcount lets see if this wor

MapReduce作业的Map阶段的输出总是排序的吗？

MapReduce作业的Map阶段的输出总是排序的吗？ 的相关文章

随机推荐

热门标签

MapReduce作业的Map阶段的输出总是排序的吗？的相关文章