关于Hadoop分布式计算：多个Map分布在不同节点上执行

2023-11-15

1 背景&问题

学习Hadoop已经快一年了，也是似懂非懂的样子。由于项目的原因，再次启动Hadoop，一直以为这个很简单就能够实现多个机器一起完成一个任务，其实并不然。在实验过程中，发现Map的数量并不能通过设置“mapreduce.job.maps"来改变，这方面的资料也有很多。而且最大问题是，只有当输入文件分块达到8时才会出现7个分布在一个节点上，另外一个分布在另一个节点上。这个是与资源申请有关“Containers”（具体可以参考牛人“董的博客”），每个节点最多能容纳8个Containers（可以通过web查看），大致解释是一个Job对应一个Containers，然后每个Map也是。但是输入文件分块多，导致map数量变多，这样消耗的时间会更多。怎么才能做到多个Map比较均匀分布在不同的机器上呢？

2 解决过程

第一章中，已经描述了，只有分块很多时，才能分布在不同节点上，但这并不是有效的方法。于是抱着尝试的心态“如果有多个Job呢，每个Job分成3个Map（用3个输入文件），能不能达到并行的效果”。今天，做了几个实验，猜对了，比如：6000条记录放在一个文本里，只有一个Map执行；如果将6000行纪录分割成6部分，两个Job分别处理3个小文件。同时执行这两任务，第一个测试耗时：10185s，第二个测试耗时：7572s。下图是将6000条记录分成3个Job每个Job对应4个小文件（当作四个splits），执行3个Job任务如下：

每个节点上均分配了4个Map任务，另外3个是ApplicationMaster，这里不讨论。

2.1 201610
发现上述方法治标不治本，于是又查找资料，只需修改yarn-site.xml配置文件即可，关于这些参数说明，网上资源还是很多，这里先不多说了，后续。

<property>
	<name>yarn.scheduler.minimum-allocation-mb</name>
	<value>256<alue>
</property>

<property>
	<name>yarn.nodemanager.resource.memory-mb</name>
	<value>4096</value>
</property>

一个节点上运行的任务数目主要由两个因素决定，一个是NodeManager可使用的资源总量，一个是单个任务的资源需求量，比如一个NodeManager上可用资源为8 GB内存，8 cpu，单个任务资源需求量为1 GB内存，1cpu，则该节点最多运行8个任务。NodeManager上可用资源是由管理员在配置文件yarn-site.xml中配置的，相关参数如下：
yarn.nodemanager.resource.memory-mb：总的可用物理内存量，默认是8096
yarn.nodemanager.resource.cpu-vcores：总的可用CPU数目，默认是8

对于任务的相关参数如下：
yarn.scheduler.minimum-allocation-mb：最小可申请内存量，默认是1024
yarn.scheduler.minimum-allocation-vcores：最小可申请CPU数，默认是1
yarn.scheduler.maximum-allocation-mb：最大可申请内存量，默认是8096
yarn.scheduler.maximum-allocation-vcores：最大可申请CPU数，默认是4

3 总结

后面继续把数据量增多，感觉这样做还可以。因为网上谈这方面基本没有，所以先把思路纪录下来，后面再把实验进行可视化，进一步证明这样做的可行性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

分布式计算

关于Hadoop分布式计算：多个Map分布在不同节点上执行的相关文章

Hadoop 构建在 Windows 中失败：native.sln 中缺少 zconf.h？

我正在尝试在使用 Windows 10 家庭版的开发计算机上构建以下 hadoop 版本 hadoop 2 7 3 src 以下是我本地开发环境的详细信息 Windows 10家庭版英特尔酷睿 i5 6200U CPU 2 30GHz 内
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引

随机推荐

CAN总线详解及STM32的CAN通信编程指南

对于CAN通信而言本人之前也未接触了解过由于实习的技术要求因此也花费了一段时间对CAN通信进行学习并且实现了基于STM32的CAN环回静默模式通信因此写一遍比较详细的文章对该内容进行总结本文的参考资料有STM32的中文参考手册
【JAVA】Could not resolve all dependencies for configuration ‘:detachedConfiguration1‘

build gradle 中添加 id net linguica maven settings version 0 5 plugins id org springframework boot version 2 3 3 RELEASE id
【华为OD统一考试B卷

华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷和OD统一考试 B卷你收到的链接上面会标注A卷还是B卷请注意根据反馈目前大部分收到的都是
centos7 安装jdk17

默认情况下 yum 仓库中是没有jdk 17 的只有jdk 11 所以我们不能直接用yum 安装需要手动下载进行配置工作下载文件 wget https download oracle com java 17 latest jdk 17
网页与服务器数据库数据交互,网页与ACCESS数据库如何实现数据交互?

1 打开access 单机菜单栏创建选择表单击列选择下拉菜单中的字段类型单机列名更改字段名称 2 添加完成后单击保存成test accdb 新建c 窗体程序 3 using System using System Collectio
今日算法中数据结构知识练习 (7-19)【4】

Date 2019 07 19 1 两个指针 P 和 Q 分别指向单链表的两个元素 P 所指元素是 Q 所指元素前驱的条件是 P gt next Q 2 串是一种特殊的线性表其特殊性体现在数组元素是一个字符 3 下列文件中属于逻辑结构文
uniapp onHide()和onUnload()的使用

小程序onHide 和onUnload onHide 触发的场景导航页1 gt gt 导航页2 会触发导航页1 onHide 导航页 gt gt 子页面会触发导航页 onHide 子页面1 gt gt 子页面2 会触发子页面1 onHi
linux查询mysql内存使用率_MySQL内存使用率无限增长

背景收到内存报警的信息以后从监控中发现MySQL服务器的内存使用率在不断的增长附图虽然进行了重启但是内存占用率依然会不停的增长大约在半个月左右的时间内又把内存消耗完毕场景未搭建场景数据库版本 5 7 12 分析 PS 时间
精简CUDA教程——CUDA Runtime API

精简CUDA教程 CUDA Runtime API tensorRT从零起步迈向高性能工业级部署就业导向课程笔记讲师讲的不错可以去看原视频支持下 Runtime API 概述环境图中可以看到 Runtime API 是基于 Dr
（C语言）在屏幕上输出对应的图案（* ** *** *****.....）

在屏幕上输出如下的图案根据上面图片可以看出来前7行中下一行的星比前一行多出两个星第8行到第13行是下一行比前一行少2个星代码为 include
el-select远程搜索:remote-method遇到的坑

在使用远程搜索的时候就是每次发请求获取数据然后选择会出现选择后总是会出现选择紊乱的情况在使用debugger后排查了很久发现每次选择内容后都会触发 remote method这个事件也就是继续会发请求然后获取到新的数据重新赋值
什么是值传递，什么是引用传递

一般认为 java中基础类型数据传递都是值传递 java中实例对象的传递是引用传递值传递是对基本型变量而言传递的是该变量的一个副本不影响该原变量而引用传递是一般对于对象型变量而言传递的是该对象地址的副本并不是原对象本身 1 值传
linux bash环境配置文件

linux bash环境配置文件你是否会觉得奇怪怎么我们什么动作都没有进行但是一进入 bash 就取得一堆有用的变量了这是因为系统有一些环境配置文件案的存在让 bash 在启动时直接读取这些配置文件以规划好 bash 的操作环
ubuntu切换国内镜像源，加速apt-get下载速度

ubuntu切换国内镜像源加速apt get下载速度如题使用apt get命令安装包时由于系统自带的下载源在国外服务器上故下载速度较慢若切换为国内源将显著提升下载速度下列是设置步骤 STEP 1 查找适合自己系统的镜像源配置
深入理解线程的原理和用法

Java中的线程程序进程和线程 1程序是一段静态的代码它是应用程序执行的蓝本 2进程是程序的一次动态执行过程它对应了从代码加载执行到执行完毕的一个完整过程作为蓝本的程序可以被多次加载到系统的不同内存区域分别执行形成不同的进程
某某analysis参数算法分析

作者 TheWeiJun 来源逆向与爬虫的故事今天给大家带来一个干货分享由于想要查看某些APP的详细信息需要通过APP名称去某麦网站进行搜索查看而整个过程中涉及到逆向分析为了方便大家学习本次完整流程记录如下目录一确定要获
java可变参数函数_Java 变参函数的实现

Java的变参函数实现实际上参数是一个数组其简单用法如下 public class variableParamTest private static void variableParam Object args for Object v
vue实现任务周期cron表达式选择组件

vue cron表达式 Cron表达式的详细用法 vue cron 基于vue的cron表达式组件项目开发过程中遇到了需要在from表单输入cron表达式的情况但对cron表达式没有深刻了解的用户来说输入一个正确的cron表达式有些困
实现文件上传进度条及解决request.upload.addEventListener in not a function问题

使用axios上传文件时需要进度条可通过监听axios的onUploadProgress获取当前文件上传进度进度条可以用antd的Progress 实现过程中出现问题request upload addEventListener in
关于Hadoop分布式计算：多个Map分布在不同节点上执行

1 背景问题学习Hadoop已经快一年了也是似懂非懂的样子由于项目的原因再次启动Hadoop 一直以为这个很简单就能够实现多个机器一起完成一个任务其实并不然在实验过程中发现Map的数量并不能通过设置 mapreduce jo

关于Hadoop分布式计算：多个Map分布在不同节点上执行

关于Hadoop分布式计算：多个Map分布在不同节点上执行 的相关文章

随机推荐

热门标签

关于Hadoop分布式计算：多个Map分布在不同节点上执行的相关文章