Hadoop：映射器和缩减器的数量

2024-02-20

我使用不同数量的映射器和缩减器（例如 1 个映射器和 1 个缩减器、1 个映射器和 2 个缩减器、1 个映射器和 4 个缩减器，...）在 1.1GB 文件上多次运行 Hadoop MapReduce

Hadoop安装在具有超线程的四核机器上。

以下是按最短执行时间排序的前 5 个结果：

+----------+----------+----------+
|  time    | # of map | # of red |
+----------+----------+----------+
| 7m 50s   |    8     |    2     |
| 8m 13s   |    8     |    4     |
| 8m 16s   |    8     |    8     |
| 8m 28s   |    4     |    8     |
| 8m 37s   |    4     |    4     |
+----------+----------+----------+

Edit

1 - 8 个减速器和 1 - 8 个映射器的结果：列 = 映射器数量行 = 减速器数量

+---------+---------+---------+---------+---------+
|         |    1    |    2    |    4    |    8    |
+---------+---------+---------+---------+---------+
|    1    |  16:23  |  13:17  |  11:27  |  10:19  |
+---------+---------+---------+---------+---------+
|    2    |  13:56  |  10:24  |  08:41  |  07:52  |
+---------+---------+---------+---------+---------+
|    4    |  14:12  |  10:21  |  08:37  |  08:13  |  
+---------+---------+---------+---------+---------+
|    8    |  14:09  |  09:46  |  08:28  |  08:16  |
+---------+---------+---------+---------+---------+

(1) 当我有 8 个映射器时，看起来程序运行得稍微快一些，但是为什么当我增加减速器数量时它会变慢？（例如 8mappers/2reducers 比 8mappers/8reducers 快）

(2) 当我只使用 4 个映射器时，速度会慢一些，因为我没有使用其他 4 个核心，对吧？

映射器和减速器的最佳数量与很多因素有关。

主要目标是使用的 CPU 功率、传输的数据量（在映射器中、映射器和减速器之间以及减速器之间）和磁盘“磁头移动”之间的平衡。

如果 MapReduce 作业中的每个任务都可以“以最少的磁盘头移动”读取/写入数据，那么它的工作效果最佳。通常描述为“顺序读/写”。但如果任务受 CPU 限制，则额外的磁盘头移动不会影响作业。

在我看来，在这个具体情况下你有

一个执行大量 CPU 周期的映射器（即，更多映射器使其运行速度更快，因为 CPU 是瓶颈，而磁盘可以跟上提供输入数据的速度）。
一个几乎不执行 CPU 周期并且主要受 IO 限制的减速器。这会导致使用单个减速器时，您仍然受 CPU 限制，但使用 4 个或更多减速器时，您似乎会受到 IO 限制。因此 4 个减速器会导致磁盘头移动“太多”。

处理这种情况的可能方法：

首先，按照您所做的操作：进行一些测试运行，看看在给定此特定作业和您的特定集群的情况下哪种设置效果最佳。

然后你有三个选择：

接受你所面临的情况
将负载从 CPU 转移到磁盘，或者反之亦然。
获得更大的集群：更多的 CPU 和/或更多的磁盘。

转移负载的建议：

如果 CPU 受限且所有 CPU 均已满载，则减少 CPU 负载：
- 检查代码中是否存在不必要的 CPU 周期。
- 切换到“CPU 影响较低”的压缩编解码器：即从 GZip 转到 Snappy 或“无压缩”。
- 调整作业中映射器/减速器的数量。
如果 IO 受限并且您还剩下一些 CPU 容量：
- 启用压缩：这会使 CPU 工作更加困难，并减少磁盘必须完成的工作。
- 尝试各种压缩编解码器（我建议坚持使用 Snappy 或 Gzip ...我经常使用 Gzip）。
- 调整作业中映射器/减速器的数量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

Hadoop：映射器和缩减器的数量的相关文章

使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在按照 DISCO 示例来计算文件中的单词数将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题但是我想尝试从包含
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
Riak 在 MapReduce 查询中失败。使用哪种配置？

我正在与 riak riak js 结合开发一个 nodejs 应用程序并遇到以下问题运行此请求 db mapreduce add logs run 正确返回存储在存储桶日志中的所有 155 000 个项目及其 ID logs 1GXt

随机推荐

JMeter 使用什么 Maven 插件？ jmeter-maven-plugin 还是 chronos-jmeter-maven-plugin？

我需要设置由 CI 系统自动触发运行的性能测试为此我想使用 JMeter 因为已经存在一些脚本和经验并且我想将其与 Maven 结合起来在我对合理插件的研究过程中我发现存在两个插件 jmeter maven 插件 http wik
无论我输入什么参数，速度函数都不会改变海龟的位置

我制作的程序有两只海龟一只是用户玩家另一只是玩家 2 它们通过一个名为 checkcollision 的函数运行该函数确定海龟是否相交从而将第二只海龟的 x 和 250 250 移动到 250 250 的随机位置y 坐标然而问题
BULK INSERT 失败，行终止符位于最后一行

我正在将使用 cygwin shell 命令编译的 CSV 导入 MS SQL 2014 使用 BULK INSERT import from D tail csv WITH FIELDTERMINATOR ROWTERMINATOR r
如何使用 QSettings 在 Qt 应用程序中加载设置

有两种可能的方法将所有设置加载到某个结构中按需加载值哪种方法更好这取决于您将如何使用您的设置文件您是否希望允许您的应用程序的用户动态地更改文件中的设置例如 ini 文件或者必须通过 GUI 来设置设置如果您使用某些 GUI
d3.js v5 - Promise.all 替换 d3.queue

我已经使用 d3 js v4 一段时间了我了解到 Mike Bostock 已将 v5 版本中的 d3 queue 替换为 Promise 原生 JavaScript 对象我想与您核实一下我编写的这段代码是否正确地异步这些 URL
Java 中 Date(String s) 的未弃用的完全等效项？

我有旧代码使用new Date dateString 解析日期字符串编译代码会产生弃用警告Date java lang String in java util Date has been deprecated javadoc无益地建议我使
带有 lxml 子路径的 XPath 谓词？

我试图理解发送给我的用于 ACORD XML 表单保险中的常见格式的 XPath 他们发给我的 XPath 是为了简洁而被截断 PersApplicationInfo InsuredOrPrincipal InsuredOrPrinc
Hudson -CI 屏幕保护程序设置

您好有没有我可以设置一个屏幕保护程序其中包含在 hudson 中运行的项目列表该列表指示项目的状态假设屏幕保护程序的部分表示项目成功则显示绿色如果项目构建失败则显示红色可能屏幕保护程序必须分区到多个项目您可以在任何合适的环
将一个时间序列分割为另一个不规则时间序列

我正在尝试用一个独特的不规则时间序列分割多个 xts 对象 split xts按天分钟秒等进行分割使用断点需要相等长度的向量当我尝试分割数据时这会产生错误 dd lt c 2014 02 23 2014 03 12 2014 05
如何正确地将 IsPressed 属性绑定到我的命令参数？

我制作了一个自定义按钮来将命令绑定到自定义路由 IsPressedChanged事件以便在按下按钮和释放按钮时执行该命令
Python - TypeError：“int64”类型的对象不可 JSON 序列化

我有一个存储商店名称和每日销售额的数据框我正在尝试使用下面的 Python 脚本将其插入到 Salesforce 但是我收到以下错误 TypeError Object of type int64 is not JSON serializ
Windows 10 上的 VersionNT MSI 属性

我发现当我更新引导程序的清单以支持 Windows 10 兼容性时 MSI 的 InstallUISequence 将正确设置 VersionNT 1000 但 InstallExecuteSequence 将设置 VersionNT 60
将 UserID 从 ASP.Net 安全地传递到 Javascript

在我当前正在开发的应用程序中我们使用 ASP Net 表单身份验证来授予用户对站点的进一步访问权限该网站面向移动用户因此我们试图尽可能摆脱服务器的束缚并利用 KnockoutJS 进行 Web 服务调用并加载数据以便用户可以查看它
Azure 存储将 blob 移动到其他容器

我正在寻找一种将 Azure 中的 blob 从一个容器移动到另一个容器的方法我找到的唯一解决方案是使用 Azure 存储数据移动库但这似乎适用于不同帐户我想将同一帐户内的 blob 移动到另一个容器我没用过Azure Storag
JUnit。并行运行。但所有测试方法都处理单例实例。怎么解决？

所以我有几个JUnit类每个类都包含一个测试方法列表每个方法都是相互独立的没有直接的联系但我们有间接联系所有方法都处理一个单例对象它是Selenium Web Driver实例是的我用1Web Driver我所有测试的实例
如何优雅地结束 spring @Schedule 任务？

我正在尝试让 Spring Boot 服务优雅地结束它有一个方法 Scheduled注解该服务使用 spring data 作为数据库使用 spring cloud stream 作为 RabbitMQ 在计划的方法结束之前数据库和
CSS，如何使水平菜单和子菜单居中？

我正在学习 css 但我不知道菜单和子菜单居中我正在使用 margin auto 或 margin left 和 margin right 为 auto 但它不起作用任何帮助将不胜感激谢谢 HTML div ul li a href
如何在JavaScript中不使用输入类型文件读取包含html的文本文件？

我有一个文本文件assets包含一些要在特定组件的 div 中呈现的 html 的文件夹有没有一种方法可以读取该文件并将内容分配给字符串变量而无需用户与 ngOnInit 中的视图具有输入文件类型进行交互我的发现如果我将 html
如何覆盖 CSS

我有基本的 CSS 经验所以我想知道如何删除由 Primefaces 设置的 CSS 样式 ui inputfield ui widget content ui inputfield ui widget header ui inputfi
Hadoop：映射器和缩减器的数量

我使用不同数量的映射器和缩减器例如 1 个映射器和 1 个缩减器 1 个映射器和 2 个缩减器 1 个映射器和 4 个缩减器在 1 1GB 文件上多次运行 Hadoop MapReduce Hadoop安装在具有超线程的四核机器上以下

Hadoop：映射器和缩减器的数量

Edit

Hadoop：映射器和缩减器的数量 的相关文章

随机推荐

热门标签

Hadoop：映射器和缩减器的数量的相关文章