Hadoop 上理想的减速器数量是多少？

2023-11-25

正如 Hadoop wiki 给出的，计算理想的减速器数量是 0.95 或 1.75 * (节点 * mapred.tasktracker.tasks.maximum)

but 什么时候选择0.95，什么时候选择1.75？决定这个乘数时考虑的因素是什么?

假设您的集群中有 100 个可用的reduce 槽。

当负载因子为 0.95 时，所有 95 个reduce 任务将同时启动，因为有足够的reduce 槽可用于所有任务。这意味着队列中不会有任何任务等待，直到其余任务之一完成为止。当减少任务“小”时，即完成相对较快，或者它们都需要或多或少相同的时间时，我会推荐此选项。

另一方面，当负载因子为 1.75 时，100 个reduce 任务将同时启动，数量与可用的reduce 槽数量相同，其余75 个将在队列中等待，直到有可用的reduce 槽。这提供了更好的负载平衡，因为如果某些任务比其他任务“更重”，即需要更多时间，那么它们将不会成为作业的瓶颈，因为其他减少槽现在不会完成其任务并等待，而是会成为作业的瓶颈。正在执行队列中的任务。这也减轻了每个reduce任务的负载，因为map输出的数据被分散到更多的任务中。

如果我可以表达我的意见，我不确定这些因素是否总是理想的。通常，我使用大于 1.75 的系数（有时甚至是 4 或 5），因为我正在处理大数据，并且我的数据并不适合每台机器，除非我将这个系数设置得更高并且负载平衡也更好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop 上理想的减速器数量是多少？的相关文章

java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配

随机推荐

*.h 或 *.hpp 用于您的类定义

我一直用一个 h文件我的类定义但在阅读了一些 boost 库代码后我意识到它们都使用 hpp 我一直讨厌该文件扩展名我想主要是因为我不习惯它使用有什么优点和缺点 hpp over h 以下是对 C 和 C 头文件进行不同命名的几个原
将数组转换为嵌套对象

假设我有以下数组产品型号版本我想要一个对象例如 product model version 然而该数组是动态的因此它可以有 2 个 3 个或更少的项目如何以最有效的方式实现这一目标 Thanks 只需将其翻过来然后将内部对
避免在复制构造函数和运算符=中重复相同的代码

在 C 中当类包含动态分配的数据时显式定义复制构造函数 operator 和析构函数通常是合理的但这些特殊方法的活动是重叠的更具体地说 operator 通常首先进行一些破坏然后进行与复制构造函数中类似的处理我的问题是如何以最佳
Android 通知未在 Marshmallow 中显示颜色图标

我正在制作应用程序我从中获取数据Parse并将数据传输到Notification以生成并向用户显示但由于某种原因我无法在棉花糖中显示正确的彩色图标在其他所有 Android 版本中它都工作得很好但在 Marshmallow 中
如何在 Android 中签署 PDF

我必须在 Android 应用程序中实现一个允许我签署 PDF 的功能当我说签名时我指的是用户附加到文档末尾的数字签名名字和名字我可以使用三星 Note 4 带手写笔那么在显示屏上书写就不成问题了问题是可以使用 ite
我现在应该如何使用带 PCL 或不带 PCL 的 Azure 移动服务？

我更新到最新版本的 Xamarin 其中完全支持 PCL 我现在如何使用 Azure 移动服务如果我创建 PCL lib 并尝试使用 NuGet 添加它则无法安装 Newtonsoft Json 5 0 8 因为它需要缺少 porta
导出jar后没有声音

我的应用程序有问题当我在 Eclipse 中运行应用程序时声音播放得很好但如果我将应用程序导出到可运行的 jar 声音就不起作用方法播放声音的地方 public static synchronized void playSound
使用 htaccess 重写/重定向，使单个 PHP 文件可以根据 GET/POST 变量显示数据

请耐心等待我尝试了解有关 htaccess 重定向规则的更多信息我是一名专业 UI 人员我正在尽最大努力提高我的编码技能除 HTML CSS PHP 等之外的语言所以我拥有的是一个包含菜单的 index php 文件非常简单如
阻止未经所有者许可复制和使用应用程序的最佳方法是什么？

避免应用程序在所有者不知情的情况下被复制和使用的最佳方法是什么有什么办法可以追踪使用情况吗这意味着应用程序会定期进行通信并提供足够的信息以便我们知道它在哪里以及是否合法当然如果它不合法下一步就是将其关闭打电话回家的软件将很
T-SQL 相当于 Excel“MAX”函数，返回两个数字中较大的一个[重复]

这个问题在这里已经有答案了可能的重复 SQL Server 中是否有像 NET 中的 Math Max 一样接受两个值的 Max 函数在 Excel 中有一个名为 MAX 的函数它接受数字并返回集合中最大的数字 T SQL 中是否有
带有 XML 架构本地副本的 XML 文件

我正在尝试一些 XML 架构示例并且必须使用示例 XML 文件来验证它们该架构是本地文件 someFile xsd 我正在使用 Eclipse 并且希望在 XML 文件中包含一个引用以指向此本地 xsd 文件以便 Eclipse 可以
IE 10, 11. 如何防止带有占位符的文本输入触发焦点输入事件？

在 IE 11 中如果我的电子邮件为空input with a placeholder 然后单击聚焦它 input事件正在被触发有谁知道为什么并且有解决方案吗因为input值真的没有改变吗 var el document getE
JSX 中立即调用的函数表达式

我正在开发 React 项目我正在尝试编译但找不到为什么会出现此语法错误具体来说模式 gt 在这种情况下正在做什么 Module build failed SyntaxError Unexpected token expected 3
如何用 XML 序列化子类及其基类

我可以序列化单个类型类但是有没有办法也可以序列化它的基类例如 class B A 在这里我可以序列化 B 类但是如何序列化 A 类 A必须提前知道即 XmlInclude typeof B public class A publi
在我的 WPF 应用程序中托管 Windows Shell Explorer

是否可以将 Windows 资源管理器文件文件夹浏览器视图嵌入到 WPF 或 WinForms 窗口中我基本上想将文件文件夹浏览器作为我的应用程序窗口的一部分托管我不想重新实现 shell 提供的功能尤其是像 TortoiseSV
如何使用javascript突出显示文本

有人可以帮助我使用一个可以突出显示网页上文本的 JavaScript 函数吗要求是仅突出显示一次而不是像我们在搜索时那样突出显示所有出现的文本你可以使用jquery突出效果但如果您对原始 javascript 代码感兴趣请看看我得
如何在groovy中添加当前日期的年份或月份？

如何在groovy脚本中向当前日期添加一年 def Format1 yyyy MM dd def today new Date def currentDate today format Format1 例如 2015年7月29日至2016年
如何在 Firestore 中跨集合查询数据？

下面的文档中写道如果需要跨集合查询数据请使用根级集合 https cloud google com firestore docs data model 如果有人知道在 Firestore 中跨根级集合查询数据的示例请分享该示例我不确
Java有可索引的多队列线程池吗？

是否有一个 Java 类可以通过 id 添加可执行任务其中具有相同 id 的所有任务保证永远不会同时运行线程数可以限制为固定数量简单的 Map 解决方案可以轻松解决 1 但很难管理 2 同样我所知道的所有线程池类都会从单个队列中提
Hadoop 上理想的减速器数量是多少？

正如 Hadoop wiki 给出的计算理想的减速器数量是 0 95 或 1 75 节点 mapred tasktracker tasks maximum but 什么时候选择0 95 什么时候选择1 75 决定这个乘数时考虑的因素是什么

Hadoop 上理想的减速器数量是多少？

Hadoop 上理想的减速器数量是多少？ 的相关文章

随机推荐

热门标签

Hadoop 上理想的减速器数量是多少？的相关文章