Hadoop 中的reduce 任务什么时候开始？

2023-12-14

Hadoop中reduce任务什么时候开始？它们是否在映射器完成一定百分比（阈值）后开始？如果是这样，这个阈值是固定的吗？通常使用什么样的阈值？

reduce阶段有3个步骤：shuffle、sort、reduce。 Shuffle 是减速器从每个映射器收集数据的地方。这可能在映射器生成数据时发生，因为它只是数据传输。另一方面，排序和归约只有在所有映射器完成后才能开始。你可以通过查看reducer完成百分比来判断哪一个MapReduce正在做：0-33%表示正在做shuffle，34-66%表示正在做sort，67%-100%表示正在做reduce。这就是为什么你的减速器有时会看起来“卡在”33%——它正在等待映射器完成。

减速器根据已完成的映射器百分比阈值开始洗牌。您可以更改参数以使减速器迟早启动。

为什么尽早启动减速机是一件好事？因为它随着时间的推移将数据传输从映射器分散到减速器，如果您的网络是瓶颈，这是一件好事。

为什么过早启动减速器是一件坏事？因为它们“占用”减少槽，同时仅复制数据并等待映射器完成。稍后启动的另一个作业将实际使用reduce slot，但现在无法使用它们。

您可以通过更改默认值来自定义减速器的启动时间mapred.reduce.slowstart.completed.maps in mapred-site.xml。值为1.00将等待所有映射器完成后再启动减速器。值为0.0将立即启动减速机。值为0.5当一半的映射器完成时将启动减速器。您还可以更改mapred.reduce.slowstart.completed.maps在逐个工作的基础上。在新版本的 Hadoop（至少 2.4.1）中，调用的参数是mapreduce.job.reduce.slowstart.completedmaps（感谢用户 yegor256）。

通常情况下，我喜欢保留mapred.reduce.slowstart.completed.maps above 0.9如果系统同时运行多个作业。这样，当减速器除了复制数据之外什么都不做时，作业就不会占用它们。如果您一次只运行一项作业，那么0.1可能是合适的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop 中的reduce 任务什么时候开始？的相关文章

Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
是否可以只迭代一个流一次并执行 2 个或更多操作？

给定代码 List
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
MongoDB - 使用聚合框架或 MapReduce 来匹配文档中的字符串数组（配置文件匹配）

我正在构建一个可以比作约会应用程序的应用程序我有一些结构如下的文档 db profiles find pretty id 1 firstName John lastName Smith fieldValues favouriteColou
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意

随机推荐

当 daemon_reload=yes 时，Ansible 出错，在守护进程重新加载期间出现错误 failure 1：无法执行操作：连接超时

我的处理程序 YAML 文件如下 Yaml 文件位置如下 ansible patching ssm agent yml hosts all gather facts true become true roles ssm agent 角色 s
使用 XHR 进行基本身份验证

我正在尝试从需要基本身份验证的服务器获取一些响应所以当我使用curl作为 curl u user pass http myserver com get send my data 它给了我正确的回应但是当我使用 jquery AJAX 创
使用 length/2 和 ord_subset/2 生成子集

我是序言的初学者我在 swipl 解释器中尝试过 length Lists 3 ord subset Lists 1 2 3 4 false 期望获得所有作为 1 2 3 4 子集的长度为 3 的列表例如 1 2 3 或 1 2 4 为
创建具有可拖动和可调整大小的选择窗口的自定义图片框

我使用以下代码在图片框上绘制一个选择矩形并允许用户选择它并将其拖动到所需的位置我想要实现的是允许用户通过实现调整矩形大小的选项来调整矩形大小目前我已经实现了以下目标如何解决这个问题 public class DraggablePic
复制 mongodb 集合

使用 C 在同一服务器上复制 Mongodb 中的集合的正确方法是什么 MongoVUE 有一个选项重复集合 C 有类似的选项吗没有使用 C 驱动程序复制集合的内置方法但您仍然可以非常简单地执行此操作如下所示 var source
函数只返回一次，为什么？

在我的编码过程中我确实陷入了这个问题我跑了一个foreach循环对于每个项目我都必须从函数中获取特定的值但我只收到一张退回的我不明白发生了什么事我希望你们一定会的下面是我的程序的简短版本最后给出了数据库结构
为什么这个DateTimePicker脚本会导致IE6和IE7无法加载页面

我在asp net MVC 3站点上有几个页面导致IE6和7在加载菜单后提示无法加载页面我已经能够通过以下方式解决此问题DateTimePicker script
使用 NHibernate 更新 Top n

我怎样才能让 NHibernate 产生这个 t sql 请求更新前 n 个任务设置修改其中条件我不想进行事务批量更新请检查一下 13 3 DML 风格的操作引用的代码片段 ISession session sessionFa
在 Windows Phone 应用程序中将动态 BitmapImage 转换为灰度 BitmapImage

我想将位图图像转换为灰度位图图像这是我从方法中获得的因此宽度和高度对我来说是未知的我尝试过研究 WritableBitmapEx 和静态扩展方法等选项但它们对我没有帮助因为我希望返回数据类型为 BitmapImage 然后需要将
如何更改 PostgreSQL 表并使列唯一？

我在 PostgreSQL 中有一个表其架构如下所示 CREATE TABLE foo table id serial NOT NULL PRIMARY KEY permalink varchar 200 NOT NULL text va
定时自动注销和浏览器关闭

我出于学习目的创建了一个非常简单的多用户游戏当用户登录时每个其他用户都会获得所有当前登录用户的更新当用户登录时它只是将该用户在 SQL 数据库中的值设置为 1 当用户注销时该值应为 0 我正在使用 window unload fu
快速读取并与Data.Table的Fread和Rbindlist合并

我正在寻找一种使用 data table 的 fread 和 rbindlist 函数快速读取和合并一堆数据文件的方法我认为如果 fread 可以将文件名向量作为参数那么它可能是一个优雅的行例如 mergeddata rbindlis
如何计算逻辑向量中的 TRUE 值

在 R 中计算数量的最有效惯用的方法是什么TRUE逻辑向量中的值我可以想到两种方法 z lt sample c TRUE FALSE 1000 rep TRUE sum z 1 498 table z TRUE TRUE 498 你喜
Javascript 按名称获取子元素

我正在传递一个 varel变成一个函数 el包含以前抓取的元素使用 getElementById 并且当我 console logel在函数中我得到以下内容当我尝试抓取内部的元素时问题就出现了el using el getElemen
串行端口 - 如何设置字符？

考虑 Baud rate 19200 RTS on DTR on Data bits 8 Stop bits 1 Parity None Set chars Eof 0x00 Error 0x2A Break 0x2A Event 0x00
如果使用 loadHTMLString 加载视图，如何在 uiwebview 中设置 http 标头

我有一个UIWebView我正在加载使用loadHTMLString我需要在请求标头上设置cookie 我知道如何使用loadRequest但不加载网络视图loadHTMLString我没有请求对象有人做过这样的事吗从 loadRequ
使用 open() 错误 22（Windows 路径）

我无法让以下代码正常工作 path C Users jiversen Documents Jsons jsonName json with open path w as outfile json dump df outfile 我收到以下错
类型错误：create_int()：函数参数不兼容

我最近一直在使用 python 学习计算机视觉在制作手部检测器项目时我遇到了这个错误 Traceback most recent call last File c Users idhant OneDrive 007lakshya Idh
比较两个数组并以 github 风格呈现交集/差异

我有两个按字母顺序排序的数组每个数组都包含唯一的值但某些值将在两个数组之间共享示例数组 src apple cherry grape lemon orange strawberry dst apple banana cherry or
Hadoop 中的reduce 任务什么时候开始？

Hadoop中reduce任务什么时候开始它们是否在映射器完成一定百分比阈值后开始如果是这样这个阈值是固定的吗通常使用什么样的阈值 reduce阶段有3个步骤 shuffle sort reduce Shuffle 是减速器从每

Hadoop 中的reduce 任务什么时候开始？

Hadoop 中的reduce 任务什么时候开始？ 的相关文章

随机推荐

热门标签

Hadoop 中的reduce 任务什么时候开始？的相关文章