Hadoop学习——MapReduce的简单介绍及执行步骤

2023-11-19

MapReduce概述

  MapReduce是一个分布式的计算框架(编程模型),最初由由谷歌的工程师开发,基于GFS的分布式计算框架。后来Cutting根据《Google Mapreduce》,设计了基于HDFSMapreduce分布式计算框架。

  mapreduce实现了分而治之的思想,map的拆分和封装,reduce的计算和规约。

  MR框架对于程序员的最大意义在于,不需要掌握分布式计算编程,不需要考虑分布式编程里可能存在的种种难题,比如任务调度和分配、文件逻辑切块、位置追溯、工作。这样,程序员能够把大部分精力放在核心业务层面上,大大简化了分布式程序的开发和调试周期。

MapReduce的进程

  MapReduce框架有两个进程,启动成功后会有如下两个:

  1. ResourceManager:MapReduce的管理者进程,1.0时叫JobTrakcer。它是在namenode上。
  2. NodeManager:MapReduce的工作进程,2.0时叫TaskTracker,它在datanode上。我理解的是,map任务和reduce任务即属于这个进程层级上的工作内容。
    在这里插入图片描述

JobTracker / ResourceManager工作职能:

  A.知道管理哪些机器,即管理哪些NodeManager

  B.要有检测机制,能够检测到NodeManager的状态变换,通过RPC心跳来实现。

  C.任务的分配和调度,ResourceManager能够做到细粒度的任务分配,比如某一个任务需要占用多大内存,需要多少计算资源。

注:ResourceManager是hadoop2.0版本之后引入了yarn,有yarn来管理hadoop之后,jobtracker就被替换成了ResourceManager

TaskTracker / NodeManager工作职能:

  能够收到ResourceManager发过来的任务,并进行任务的处理。这里处理任务指的是Map任务Reduce任务

MapReduce的两类任务

  1. MapTask(map任务)
  2. ReduceTask(reduce任务)

MapReduce任务执行大致步骤

在这里插入图片描述

  在计算的时候,首先会对数据进行逻辑切片,主要包含了切片的描述信息而并不包含真正的数据,然后再交给mapper执行。
  ① Map 任务

  Map任务数 = 文件块数,Map任务用于
读取输入文件内容,对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。对输出的key、value进行分区。对相同分区的数据,按照key进行排序(默认按照字典顺序进行排序)、分组。相同key的value放到一个集合中。(可选)分组后的数据进行归约。

  ② Reduce 任务

  对多个map任务的输出,按照不同的分区,通过网络(http协议)copy到不同的reduce节点。这个过程并不是map将数据发送给reduce,而是reduce主动去获取数据,然后再做处理。

  以上仅仅是简单的介绍,下一篇记录在JAVA代码层次上的mapreduce的具体写法。Hadoop学习——MapReduce的组件及简单API

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop学习——MapReduce的简单介绍及执行步骤 的相关文章

  • Amazon MapReduce 日志分析最佳实践

    我正在解析 Apache Nginx Darwin 视频流服务器 生成的访问日志 并按日期 引用者 用户代理聚合每个交付文件的统计信息 每小时都会生成大量日志 而且这个数字在不久的将来可能会急剧增加 因此通过 Amazon Elastic
  • 远程执行hadoop作业时出现异常

    我正在尝试在远程 hadoop 集群上执行 Hadoop 作业 下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
  • java.lang.IllegalArgumentException:错误的 FS:,预期:hdfs://localhost:9000

    我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存 但在stderr中检查时它没有查找值 它显示以下错误 lookupfile文件已经存在于hdfs中 并且似乎已正确加载进入缓存 如标准输出中
  • 如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat?

    我想编写多个输出文件 如何使用 Job 而不是 JobConf 来执行此操作 创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
  • Hive(查找连续 n 列中的最小值)

    我在 Hive 中有一个表 有 5 列 即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作 上表中的 4 列表示用户执行第一个
  • Hadoop 安全模式恢复 - 花费太长时间!

    我有一个包含 18 个数据节点的 Hadoop 集群 我在两个多小时前重新启动了名称节点 并且名称节点仍处于安全模式 我一直在寻找为什么这可能花费太长时间 但找不到好的答案 发帖在这里 Hadoop 安全模式恢复 花费大量时间 https
  • 在 Hive 中分解一行 XML 数据

    我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中 我们正在尝试检索数据级别 并将其标准化或分解为单行进行处理 你知道 就像表格一样 已经尝试过分解功能 但没有得到我们想要的 示例 XML
  • 为什么组合器输入记录的数量比映射的输出数量多?

    Combiner 在 Mapper 之后 Reducer 之前运行 它将接收给定节点上的 Mapper 实例发出的所有数据作为输入 然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
  • hadoop2.2.0追加文件发生AlreadyBeingCreatedException

    我遇到了一个关于hadoop2 2 0追加操作的问题 我通过 HDFS java API 将一些字节附加到 hdfs 文件 首先 如果在附加操作之前文件不存在 我将创建目标文件 代码如下 String fileUri hdfs hadoop
  • Oozie SSH 操作

    Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令 我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了 这里真正的问题可能是什么 请指出解决方案 logs AUTH FAILE
  • R+Hadoop:如何从HDFS读取CSV文件并执行mapreduce?

    在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
  • hive 从两个数组创建映射或键/值对

    我有两个具有相同数量值的数组 它们映射为 1 1 我需要从这两个数组创建一个键 值对或映射 键 值 任何想法或提示都会有帮助 当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
  • 带有安全 Kafka 抛出的 Spark 结构化流:无权访问组异常

    为了在我的项目中使用结构化流 我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成 我正在运行下面的示例代码来检查集成 我能够在 Spark 本地模式下的
  • 在映射器的单个输出上运行多个减速器

    我正在使用地图缩减实现左连接功能 左侧有大约 6 亿条记录 右侧有大约 2300 万条记录 在映射器中 我使用左连接条件中使用的列来创建键 并将键值输出从映射器传递到减速器 我遇到性能问题 因为两个表中的值数量都很高的映射器键很少 例如分别
  • 将 CSV 转换为序列文件

    我有一个 CSV 文件 我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用 我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
  • 猪的组连接等效吗?

    试图在 Pig 上完成这个任务 寻找 MySQL 的 group concat 等效项 例如 在我的表中 我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
  • HDFS:使用 Java / Scala API 移动多个文件

    我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件 例如 我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
  • 更改 Spark Streaming 中的输出文件名

    我正在运行一个 Spark 作业 就逻辑而言 它的性能非常好 但是 当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时 输出文件的名称格式为 part 00000 part 00001 等 有没有办法更改输出文件名 谢谢
  • 在 Windows 7 64 位中删除 Spark 临时目录时出现异常

    我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试 我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
  • Pig 10.0 - 将元组分组并在 foreach 中合并包

    我在用着Pig 10 0 我想在 foreach 中合并包 假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组 并将包与一组语义合并以获

随机推荐

  • Python沙雕故事生成器

    Python故事生成器 本文章小编来给大家分享使用Python制作一个故事生成器 仅供娱乐 一 知识归纳 StringVar 控件变量 python中在使用界面编程时 用于跟踪数值不断发生变化的变量 确保数值的变更可以随时在根窗口上面显示出
  • YOLO3 -- 介绍

    YOLO介绍 YOLO官网 YOLO You Only Look Once 是目标检测模型 目标检测是计算机视觉中比较简单的任务 用来在一张图片中找到某些特定的物体 目标检测不仅要求我们识别这些物体的种类 同时要求我们标出这些物体的位置 Y
  • 【深度学习系列】用Tensorflow进行图像分类

    上个月发布了四篇文章 主要讲了深度学习中的 hello world mnist图像识别 以及卷积神经网络的原理详解 包括基本原理 自己手写CNN和paddlepaddle的源码解析 这篇主要跟大家讲讲如何用PaddlePaddle和Tens
  • eaxyx界面学习

    1 easyX的原理 基于Windows图形编程 将Windows下的复杂程序过程进行封装 仅给用户提供一个简单熟悉的接口 用户对于图形库中函数的调用 最终都会由Windows底层的API实现 在官网搜索eaxyx下载点击安装即可 接着引用
  • 恒合仓库 - 商品管理模块、上传照片、添加采购单、添加出库单、商品分类

    商品管理模块 文章目录 商品管理模块 一 分页查询商品 1 1 实体类 1 1 1 Store 仓库 1 1 2 Brand 品牌 1 1 3 ProductType 商品分类 1 1 4 Supply 供应商 1 1 5 Place 产地
  • Linux网络连接出现问题

    报错截图 1 先查看NetworkManager是否启动 查看NetworkManager是否启动 systemctl status NetworkManager 在Linux系统中 可以通过以下命令启动NetworkManager服务 s
  • 小程序项目时间选择器用法

    项目需求是要实现这种形式 但是相信大家都试了各种插件 都不太合适 uView框架也不能满足自己的需要 推荐使用 uview ui plus 基本上小程序遇到的单选多选 日期 省市区 都可以完美的实现 可以通过插件市场安装使用 但是要实现ui
  • matplotlib画动态三维图

    从txt文本中读取数据并画动态三维点图 程序中实现动态三维图绘制 添加图标题 坐标轴标题 坐标轴数值范围 两种绘图模式 一种动态画图 所有点均保留 另一种每次仅显示一个点 三维坐标轴设置区间 需要通过Axes3D创建ax 否则其他方式无法设
  • Openface的安装和使用

    openface的安装与使用 环境 我的电脑是笔记本电脑 win10系统 用的是pycharm和annaconda 一 首先下载openface安装包 并且安装 1 下载地址 https codeload github com cmusat
  • FeignClient 在 oauth2 中与 hystrix 线程策略冲突问题造成的权限问题

    FeignClient 在 oauth2 中与 hystrix 线程策略冲突问题造成的权限问题 FeignClient 在 oauth2 中与 hystrix 线程策略冲突问题造成的权限问题 问题描述 问题原因 问题解决方法 方法1 直接禁
  • 关系型数据库的规范化

    规范化是通过修改表以减少冗余和矛盾的一系列动作 关系型数据库定义了3中范式 第一范式 列仅包含原子值 没有重复的组 第二范式 满足第一范式 非部分函数依赖 如果表中一些组合键的 但不是全部 值确定了一个非键列的值 则表包含部分函数依赖 第二
  • LeetCode Java 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。

    给定一个整数数组 nums 和一个目标值 target 请你在该数组中找出和为目标值的那两个整数 并返回他们的数组下标 你可以假设每种输入只会对应一个答案 但是 你不能重复利用这个数组中同样的元素 方法一 遍历 看到这个题便想到数组遍历 就
  • 商城项目 pc----商品详情页

    目录 vue路由滚动行为 排他思想 放大镜 加入购物车操作 项目实战 Promise 特点 用法 then 执行顺序 拓展 async await Promise优缺点 Promise方法 浏览器缓存 为什么需要本地存储呢 window s
  • 思科路由器IPv6各种路由协议配置

    一 基础配置 R1 Router gt ena Router conf t Router config host R1 R1 config int g0 0 R1 config if ipv add 2001 3 1 64 R1 confi
  • Java多线程(四):什么是死锁以及如何解决死锁

    目录 1 什么是死锁 2 死锁产生的原因 3 如何解决死锁问题 3 1 改变环路等待条件 3 2 破坏请求并持有条件 1 什么是死锁 死锁 是指两个或两个以上的进程在执行过程中 由于竞争资源或者由于彼此通信而造成的一种阻塞的现象 若无外力作
  • 【微信小程序】定时器超时处理设置方法【setInterval()和setTimeout()】

    2020年2月13日 0次阅读 共550个字 0条评论 0人点赞 QueenDekimZ Set Timeout Solution setTimeout和setInterval 函数都属于定时任务 一 settimeout延迟一段时间执行函
  • css中float用法

    float浮动 指将指定元素悬浮于所在整体之上 即将垂直排列的元素转换为水平同行显示 平时写出的HTML是具有先后顺序的 对于这个顺序我们称之为标准流 而浮动则是脱离标准流的另一个独立标准 下面给出float定义 float left 左浮
  • 阿里云大佬告诉你为什么学不会设计模式,归根到底还是方法不对

    最近总有读者在后台跟我说 工作几年 自己的代码质量似乎没有什么提升 我觉得他的情况非常典型 很多人应该或多或少都有过类似的经历 毕业几年 几乎一直在做复制黏贴的工作 偶尔会遇到原有业务扩展的需求 想简单应付一下完事的话 也不难 无非就是多加
  • 查询水果价格 (15分)

    给定四种水果 分别是苹果 apple 梨 pear 桔子 orange 葡萄 grape 单价分别对应为3 00元 公斤 2 50元 公斤 4 10元 公斤 10 20元 公斤 首先在屏幕上显示以下菜单 1 apple 2 pear 3 o
  • Hadoop学习——MapReduce的简单介绍及执行步骤

    MapReduce概述 MapReduce是一个分布式的计算框架 编程模型 最初由由谷歌的工程师开发 基于GFS的分布式计算框架 后来Cutting根据 Google Mapreduce 设计了基于HDFS的Mapreduce分布式计算框架