组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段？

2023-12-14

我的印象是组合器就像作用于本地映射任务的减速器一样，即它聚合单个映射任务的结果以减少输出传输的网络带宽。

并且从阅读中Hadoop- The definitive guide 3rd edition，我的理解似乎是正确的。

摘自第 2 章（第 34 页）

组合器功能许多 MapReduce 作业都受到集群上可用带宽的限制，因此尽量减少 Map 和 Reduce 任务之间传输的数据是值得的。 Hadoop 允许用户指定要在映射输出上运行的组合器函数——组合器函数的输出形成reduce 函数的输入。由于组合器函数是一种优化，因此 Hadoop 不保证它将针对特定映射输出记录调用它多少次（如果有的话）。换句话说，调用组合器函数零次、一次或多次应该从减速器中产生相同的输出。

所以我在字数统计问题上尝试了以下方法：

job.setMapperClass(mapperClass);
job.setCombinerClass(reduceClass);
job.setNumReduceTasks(0);

这是计数器：

14/07/18 10:40:15 INFO mapred.JobClient: Counters: 10
14/07/18 10:40:15 INFO mapred.JobClient:   File System Counters
14/07/18 10:40:15 INFO mapred.JobClient:     FILE: Number of bytes read=293
14/07/18 10:40:15 INFO mapred.JobClient:     FILE: Number of bytes written=75964
14/07/18 10:40:15 INFO mapred.JobClient:     FILE: Number of read operations=0
14/07/18 10:40:15 INFO mapred.JobClient:     FILE: Number of large read operations=0
14/07/18 10:40:15 INFO mapred.JobClient:     FILE: Number of write operations=0
14/07/18 10:40:15 INFO mapred.JobClient:   Map-Reduce Framework
14/07/18 10:40:15 INFO mapred.JobClient:     Map input records=7
14/07/18 10:40:15 INFO mapred.JobClient:     Map output records=16
14/07/18 10:40:15 INFO mapred.JobClient:     Input split bytes=125
14/07/18 10:40:15 INFO mapred.JobClient:     Spilled Records=0
14/07/18 10:40:15 INFO mapred.JobClient:     Total committed heap usage (bytes)=85000192

这是part-m-00000:

hello   1
world   1
Hadoop  1
programming 1
mapreduce   1
wordcount   1
lets    1
see 1
if  1
this    1
works   1
12345678    1
hello   1
world   1
mapreduce   1
wordcount   1

所以显然没有应用组合器。据我所知，Hadoop 不保证是否会调用组合器。但是当我打开归约阶段时，组合器就会被调用。

为什么会出现这种行为？

现在当我读到第 6 章（第 208 页）时how MapReduce works。我看到这一段描述在Reduce side.

如果map输出足够小，则它们会被复制到reduce任务JVM的内存中（缓冲区的大小由mapred.job.shuffle.input.buffer.percent控制，它指定用于此目的的堆的比例）；否则，它们将被复制到磁盘。当内存缓冲区达到阈值大小（由mapred.job.shuffle.merge.percent控制）或达到映射输出的阈值数量（mapred.inmem.merge.threshold）时，它将被合并并溢出到磁盘。如果指定了组合器，它将在合并期间运行，以减少写入磁盘的数据量。

我从这一段中得出的推论是： 1) 合路器是ALSO在减少阶段运行。

的主要功能是combiner是优化。在大多数情况下，它的作用就像一个迷你减速机。从同一本书的第 206 页，章节 - MapReduce 的工作原理（地图侧）：

运行组合器函数可以使映射输出更紧凑，因此写入本地磁盘和传输到减速器的数据更少。

引用你的问题，

如果指定了组合器，它将在合并期间运行，以减少写入磁盘的数据量。

两个引号都表明combiner运行主要是为了紧凑性。减少输出传输的网络带宽是此优化的一个优点。

另外，出自同一本书，

回想一下组合器可以对输入重复运行而不影响最终结果。如果只有一两次溢出，那么地图输出大小的潜在减少是不值得的调用组合器的开销，因此不会针对此映射输出再次运行它。

这意味着 hadoop 不保证组合器运行多少次（也可能为零）

组合器永远不会为仅映射作业运行。这是有道理的，因为组合器改变了映射输出。此外，由于它不能保证调用的次数，因此也不能保证映射输出是相同的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段？的相关文章

Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
在 mongo 中，如何使用 Map Reduce 来按最近排序来获取组

我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么我假设我也可以使用 group 函数但很好奇因为他们声明分片环境不能使用 group
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在按照 DISCO 示例来计算文件中的单词数将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题但是我想尝试从包含
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918

随机推荐

Django 单元测试；使用 python-social-auth 登录

我想为我正在使用的 Django 应用程序编写单元测试python 社交身份验证运行 Django 并使用浏览器时一切都很好感谢 python social auth 但是我似乎无法编写单元测试因为我无法创建经过身份验证的客户端来
为什么#include 之后仍然需要使用 std::string ？ [复制]

这个问题在这里已经有答案了为了使用字符串我需要包含字符串标头以便其实现可用但如果是这样为什么我还需要添加这一行using std string 为什么它还不知道字符串数据类型 include
git clone 的 Python 进度条

我使用 GitPython 在我的程序中克隆一个存储库我想出了如何使用 clone from 命令显示克隆的状态但我希望状态看起来更像 tqdm 进度条我尝试使用 requests 库来获取文件的大小但我仍然不确定如何实现它尝试做
Nodemailer和Godaddy，我已经尝试了所有解决方案都无济于事

我通过 GoDaddy 购买了一个域名和一个电子邮件地址并捆绑了 Office 365 Basic 几天来我尝试从我的节点应用程序中使用 nodemailer 发送一封电子邮件但从未成功因为我总是收到535 Authenticati
使用 twinx 时旋转 xtick 标签时出现问题

我的 X 轴旋转有问题我尝试旋转输出图而没有错误但我没有结果 Import Data df pd read csv https github com selva86 datasets raw master economics csv x
使用 angularJS 时未捕获的错误：[$injector:modulerr]

我在我的应用程序中使用 angularJS 但是当我添加路由配置部分时我收到此错误 Uncaught Error injector modulerr http errors angularjs org 1 2 9 injector mod
如何限制用户使用datetimepicker输入数据并禁用手动用户输入？

我想限制用户只能使用日期时间选择器输入数据下面是我正在使用的代码 div class form group div
查看函数列表时出现呼叫提示/文档字符串？

我最近刚刚转用 Komodo 进行 Python 编程到目前为止我很喜欢它我喜欢输入函数名称然后输入开括号它会打开调用提示文档字符串我也喜欢输入模块名称然后输入它会打开可用函数的列表我的问题是当我列出函数列表时是否可以
使用批处理文件复制目录路径中带有通配符的文件？

我想要一个批处理文件将文件从每月更改的文件夹复制到另一个文件夹但 Windows 命令提示符似乎不喜欢通配符 Example 我想复制文件夹media1并包含此目录中的文件 K Eng NAVDB Navigation Databases
使用 Git 进行代码升级

我试图弄清楚如何将 git 用于多个环境开发 gt 测试 gt 产品并进行代码升级我读了一些有关分支的内容但不太明白这如何解决我的问题因为我必须有能力同时且彼此独立地运行所有环境将非常感谢某种操作方法这种三层工作流程似乎是很常
join 命令遗漏了一行数字

我有两个文件我想取出第三列中具有共同数据的行但它遗漏了一行应该匹配的行 File1 b b b 4 5 3 c c c File2 1 2 3 4 a b c d e f g h i j k l l m n o 输出是 c c c a
Silverlight 图表 - 饼图显示图表上的依赖值

我想在饼图本身上显示相关值不在图例区域中我正在使用 Silverlight 4 Silverlight 4 Toolkit 2010 年 4 月这应该是一个很常见的请求但我还没有找到解决方案我该怎么做
Angular 4 中的 HashLocationStrategy 和查询参数

我正在将现有的 Angular 4 应用程序从 PathLocationStrategy 迁移到HashLocationStrategy并且需要保持入口点 url 正常工作它看起来像www test com param1 123 问题是
我可以只用 CSS 创建这个形状吗？

我正在为具有特定形状的网页构建一个英雄部分目前我只是使用图像作为实际部分背景的叠加层但我希望减少我发出的请求数量并且会想知道是否可以使用 CSS 完成以下形状所以黑色部分是实际图像所在的位置而白色部分是我尝试使用 CSS 构建的部
C# 用阴影给图像着色

我目前正在使用 C 创建一款游戏并尝试为玩家创建服装我想做布料设计并让玩家选择颜色我从 TibiaME tibiame com 的游戏文件中拍摄了照片它几乎满足了我的要求我怎样才能用颜色填写这个表格当我尝试替换某种颜色时它不起
无法将字符串分配给 Swift 函数内的数组元素

下面代码中的两个赋值行都给出了这个错误 value T5 与 String 不同 func PrintShoppingList myList Array
SQL Server，检查 varchar 是否包含全零

我需要编写一个函数来检查 varchar 变量值是否全为零由于变量是 varchar 而不是 int 我有点迷失了你会怎么办多谢您可以使用双重否定LIKE test variable NOT LIKE 0 这表示变量isn t由一定
在同一个 goroutine 中创建的 goroutine 总是按顺序执行吗？

package main func main c make chan int for i 0 i lt 100 i i i go func c lt i for b lt c println b if b 100 break 上面
如何在 UIScrollView 中加载 UIViewController

这是我的设置我有一个UIScrollView在我的主视图控制器之上我在其中加载多个视图控制器我还有一个添加按钮它将使用 Push segue 呈现一个新的视图控制器我希望这个视图控制器也只加载在滚动视图的顶部而不是整个屏幕
组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段？

我的印象是组合器就像作用于本地映射任务的减速器一样即它聚合单个映射任务的结果以减少输出传输的网络带宽并且从阅读中Hadoop The definitive guide 3rd edition 我的理解似乎是正确的摘自第 2 章第 3

组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段？

组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段？ 的相关文章

随机推荐

热门标签

组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段？的相关文章