为什么Hadoop集群中机器台数多反而执行速度慢？

2023-10-28

这里我对这个现象给出解释。由于水平有限，发现错误，请及时留言，或站内和我联系。

这里假设集群中有slave1，slave2，slave3三个节点，其中slave3工作效率低。

一共有6个任务，需要去做，slave1和slave2执行一个任务是1分钟，slave3执行一个任务是2分钟。有一个前提是每个slave完成自身的任务才回去推测执行。

如果让slave1和slave2去做，则需要3分钟，分析如下：

slave1 slave2

3 3

3*1 3*1

并行执行总时间就是单个slave的执行时间3；

那么三台同时去做需要4分钟。

slave1 slave2 slave3

2 2 2

这里slave1和slave2都完成了自身的任务，已经花费了2分钟，剩下最后一个任务考虑到数据的本地性也分给了slave3，slave3执行时间超过一分钟时，jobtracker会觉得slave3可能没有能力完成分配给他的任务，假设在slave1上推测执行，结果slave3结束了，就将运行在slave1上的推测执行任务kill掉，最后执行时间是4秒。

因为在推测执行的时候会两个推测执行的任务会同时完成。

转载请注明出处。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

为什么Hadoop集群中机器台数多反而执行速度慢？的相关文章

如何获取hive中的数据库用户名和密码

正在编写jdbc程序来连接hive数据库我希望在连接 url 中提供用户名和密码我不知道如何使用 hive QL 获取用户名和密码有人可以帮我吗 Exception in thread main java sql SQLNonTran
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
如何为 HDFS 递归列出子目录？

我在 HDFS 中递归创建了一组目录如何列出所有目录对于普通的 UNIX 文件系统我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西递归列出目录内容hadoop dfs
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
在hbase中创建表

我是 hbase 和 hadoop 的新手无论如何我已经成功建立了一个由3台机器组成的hadoop集群现在我需要一些帮助来建立数据库我有一个表评论包含字段 user id comments 对评论的评论可以多个和状态字段相同
Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach

随机推荐

【每日一题】-金牌榜排序

文章目录题目描述输入输出样例解析代码题目描述 2012伦敦奥运会即将到来大家都非常关注奖牌榜的情况现在我们假设奖牌榜的排名规则如下 1 首先gold medal 数量多的排在前面 2 其次silver medal 数量多的
SpringBoot中 Lua函数操作redis

Lua Lua 是一个简洁轻量可扩展的脚本语言它的特性有轻量源码包只有核心库编译后体积很小高效由 ANSI C 写的启动快运行快内嵌可内嵌到各种编程语言或系统中运行提升静态语言的灵活性如 OpenResty 就是
xman的思维导图快捷键_这个良心好用的思维导图软件，居然不用氪金充钱

今天给大家介绍一款免费的在线思维导图工具 GitMind 提供了丰富的功能和模板可免费导出 JPG PNG 图片 PDF 文档以及 TXT 文本等多种格式此外 GitMind 还集成了制作流程图的能力网站展示的流程图示例有泳道图拓扑
Springboot项目使用达梦数据库

下载达梦数据库驱动 Dm7JdbcDriver16 jar 执行maven命令把驱动包打入本地maven仓库 mvn install install file DgroupId com dm DartifactId DmJdbcDriver
学校计算机如何脱控,学校机房脱控方法(已控状态)/极域电子教室脱离老师控制图文教程...

老师没控制的时候刀友应该都会断掉控制吧我就不说了就说说老师老师已经控制了该如何脱离控制拔网线比较麻烦就不说了以下操作之前先检查极域电子教室右键右下角极域电子教室端打开设置把禁止结束学生端进程前面的勾去掉把断网锁屏前面的勾去
部署ELFK

目录 ELFK ES logstash filebeat kibana 环境准备所有节点 Elasticsearch 集群部署在Node1 Node2节点上操作修改elasticsearch主配置文件 es 性能调优参数启动elas
Marriage is Stable

http acm hdu edu cn showproblem php pid 1522 Problem Description Albert Brad Chuck are happy bachelors who are in love w
JVM--三大子系统详解

首先需要了解java的命令 javac 将java文件编译为 class文件里面是一些二进制文件 javap c 将 class文件变为反汇编例如 javap c hello class gt demo txt 可以将class文件转化
GPIO介绍

目录一 GPIO是什么二 STM32引脚分类三 GPIO内部结构四 GPIO的工作模式 4 1 输入模式模拟上拉下拉浮空 4 2 输出模式推挽开漏 4 3 复用功能推挽开漏 4 4 模拟输入输出上下拉无影响一 G
c语言将csv文件存储到数组,读取CSV文件并将值存储到数组中

青春有我我最喜欢的CSV解析器是一个内置在 NET库中的解析器这是Microsoft VisualBasic命名空间中隐藏的宝藏下面是一个示例代码 using Microsoft VisualBasic FileIO var path
ConcurrentHashMap 的实现原理

目录常见问题 1 concurrentHashMap特点 2 concurrentHashMap如何保证效率高又安全的 1 构造函数 2 put方法 2 1 initTable 2 2 addCount方法 3 get方法常见问题 1
【SpinalHDL】Windows10系统搭建SpinalHDL 开发环境

本文主要记载如何从零开始在win平台搭建SpinalHDL开发环境并跑通第一个spinal project demo 1 环境准备 1 1 软件下载首先列出需要安装的软件并逐一对这些软件的功能和其必要性进行说明需要安装的软件 IDEA
继电器的过流过压保护（自恢复保险丝）

简述继电器广泛应用于消费电子产业和工业设备中它具有控制系统又称输入回路和被控制系统又称输出回路它实际上是用较小的电流去控制较大电流的一种自动开关故在电路中起着自动调节安全保护转换电路等作用继电器可能因为过流或者过压而损
arduino/mixly TFT显示SD卡的图片

一器材 SD卡模块 1 8寸TFT屏 ST7735 arduino uno开发板 SD卡二接线 TFT屏 arduino uno GND GND VCC 5V SCL D13 SDA D11 RES D8 DC D10 CS D9 B
Java锁机制

Java锁主要是为了解决线程安全问题当多个线程共享同一个变量时可能会出现同时修改变量的情况这样会导致最终计算结果错误未解决该问题 Java提供了各种锁来确保数据能够被正常修改和访问最常用的比如synchronized 一互斥同步
python计算机视觉学习第三章——图像到图像的映射

目录引言一单应性变换 1 1 直接线性变换算法 1 2 仿射变换二图像扭曲 2 1 图像中的图像 2 2 分段仿射扭曲 2 2 图像配准三创建全景图 3 1 RANSAC 随机一致性采样 3 2 拼接图像四总结引言本章
[4G&5G专题-119]：5G培训应用篇-4-5G典型行业应用的解决方案(车联网、智慧医疗、智能教育、智能电网）

目录前言前言 1 总目录前言 2 本章第1章 5G行业应用介绍第2章车联网解决方案 2 1 车联网概述 2 2 车联网需求分析 2 3 车联网解决方案第3章智慧医疗解决方案第4章智能教育解决方案第5章智能电网解决方案
Mybatis配置多数据源

前言 Spring Boot项目使用Mybatis 既要从上游系统同步数据又要操作本系统的数据库所以需要引入双数据源配置Mybatis 步骤一配置双数据源连接数据库 1 禁用Spring Boot数据源的自动装配在启动类 Sp
请求调页存储管理方式的模拟含详细代码和实验结果截图

请求调页存储管理方式的模拟实验目的通过对页面页表地址转换和页面置换过程的模拟加深对请求调页系统的原理和实现过程的理解实验内容假设每个页面中可存放10条指令分配给一作业的内存块数为4 用C语言模拟一作业的执行过程该作业共有3
为什么Hadoop集群中机器台数多反而执行速度慢？

这里我对这个现象给出解释由于水平有限发现错误请及时留言或站内和我联系这里假设集群中有slave1 slave2 slave3三个节点其中slave3工作效率低一共有6个任务需要去做 slave1和slave2执行一个任务是1

热门标签