MapReduce的基本工作原理

2023-11-11

MapReduce的基本模型和处理思想：

三个层面上的基本构思

1.如果对付大数据处理：分而治之

对相互之间不具有计算依赖关系的大数据，实现并行最自然的办法就是采取分而治之的策略。

2.上升到抽象模型：Mapper与Reduce

MPI等并行计算方法缺少高层并行编程模型，程序员需要自行指定存储，计算，分发等任务，为了克服这一缺陷，MapReduce借鉴了Lisp函数式语言中的思想，用Map和Reduce两个函数提供了高层的并发编程模型抽象。

3.上升到架构：统一架构，为程序员隐藏系统层细节

MPI等并行计算方法缺少统一的计算框架支持，程序员需要考虑数据存储、划分、分发、结果收集、错误恢复等诸多细节；为此,MapReduce设计并提供了同意的计算框架，为程序员隐藏了绝大多数系统层面的处理系统。

大数据分而治之

建立Map和Reduce抽象模型

借鉴函数式程序设计语言Lisp中的思想，定义了Map和Reduce两个抽象的操作函数：

Map:(k1:v1)->[(k2:v2)]
Reduce:(k2:[v2])->[(k3:v3)]

每个map都处理结构、大小相同的初始数据块，也就是（k1:v1）,其中k1是主键，可以是数据块索引，也可以是数据块地址；

v1是数据。经过Map节点的处理后，生成了很多中间数据集，用[]表示数据集的意思。而Reduce节点接收的数据是对中间数据合并后的数据，也就是把key值相等的数据合并在一起了，即(k2:[v2])；再经过Reduce处理后，生成处理结果。

例如要把一个统计一篇英语文章中各个单词出现的次数

1.有一个待处理的大数据，被划分成大小相同的数据库(如64MB)，以及与此相应的用户作业程序。

2.系统中有一个负责调度的主节点(Master)，以及数据Map和Reduce工作节点(Worker).

3.用户作业提交个主节点。

4.主节点为作业程序寻找和配备可用的Map节点，并将程序传送给map节点。

5.主节点也为作业程序寻找和配备可用的Reduce节点，并将程序传送给Reduce节点。

6.主节点启动每一个Map节点执行程序，每个Map节点尽可能读取本地或本机架的数据进行计算。(实现代码向数据靠拢，减少集群中数据的通信量)。

7.每个Map节点处理读取的数据块，并做一些数据整理工作(combining,sorting等)并将数据存储在本地机器上；同时通知主节点计算任务完成并告知主节点中间结果数据的存储位置。

8.主节点等所有Map节点计算完成后，开始启动Reduce节点运行；Reduce节点从主节点所掌握的中间结果数据位置信息，远程读取这些数据。

9.Reduce节点计算结果汇总输出到一个结果文件，即获得整个处理结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce

MapReduce的基本工作原理的相关文章

Hadoop分区器

我想问一下Hadoop分区器它是在Mappers中实现的吗如何衡量使用默认哈希分区器的性能是否有更好的分区器来减少数据偏差 Thanks 分区器不在映射器内以下是每个映射器中发生的过程每个映射任务将其输出写入循环缓冲存储器而不是
将 MapReduce 作业的输出记录到文本文件

我一直在使用这个 jobclient monitorandprintjob 方法将映射缩减作业的输出打印到控制台我的用法是这样的 job client monitorAndPrintJob job conf job client getJ
CouchDB 视图：MapReduce 中可以接受多少处理？

我一直在尝试使用 CouchDB 进行 MapReduce 一些示例显示了映射归约函数中可能存在的一些繁重逻辑在一种特殊情况下他们在映射内执行 for 循环在发出您选择的文档之前 MapReduce 是否会在每个可能的文档上运行如果
在spark中设置textinputformat.record.delimiter

在 Spark 中可以设置一些 hadoop 配置设置例如 System setProperty spark hadoop dfs replication 1 这有效复制因子设置为 1 假设是这种情况我认为这种模式在常规 hado
MongoDB 根据 _id 统计每分钟新文档数

我想创建每分钟存储多少新文档的统计数据由于具有标准 ObjectID 的 id 字段已经包含文档创建的时间戳我认为应该可以以某种方式使用它在 Stackoverflow 上我发现了以下映射归约代码可以在有用于创建数据的专用字段时完
MapReduce：ChainMapper 和 ChainReducer

我需要将 MapReduce jar 文件拆分为两个作业以获得两个不同的输出文件每个文件来自两个作业的每个减速器我的意思是第一个作业必须生成一个输出文件该文件将作为链中第二个作业的输入我在 hadoop 版本 0 20 中读到了一
Hadoop 减少多种输入格式

我在 HDFS 中有两个数据格式不同的文件如果我需要减少两个数据文件那么作业设置会是什么样子例如想象一下常见的字数统计问题在一个文件中使用空格作为世界分隔符在另一个文件中使用下划线在我的方法中我需要针对各种文件格式使用不同的映
Spark 在 Hbase 的 InputSplit 期间给出空指针异常

我正在使用 Spark 1 2 1 Hbase 0 98 10 和 Hadoop 2 6 0 从 hbase 检索数据时出现空点异常找到下面的堆栈跟踪 sparkDriver akka actor default dispatcher 2
在mongo中执行优先级查询

样本文件 name John age 35 address join month 3 的员工优先级为 1 地址包含字符串 Avenue 的员工优先级为 2 地址包含字符串 Street 的员工优先级为 3 地址包含字符串 Road 的员工优
如何从mapreduce中的reducer输出中删除r-00000扩展

我能够正确重命名我的减速器输出文件但 r 00000 仍然存在我在我的减速器类中使用了 MultipleOutputs 这是详细信息不确定我缺少什么或我需要做什么额外的事情 public class MyReducer extends
PHP MongoDB映射减少数据库断言失败

我第一次使用 PHP MongoDB 进行 Map Reduce 运行 MapReduce 命令时遇到错误 My code map function emit this topic id re date this date posted r
使用 Google AppEngine MapReduce 处理所有记录后，如何从计数器获取值？

使用 Google AppEngine MapReduce 处理所有记录后如何从计数器获取值或者我在这里错过了计数器的用例示例代码来自http code google com p appengine mapreduce wiki Us
使用 CouchDB 视图替换 SQL 中的多个联接

我正在为我的应用程序实现过滤功能但在 CouchDB 上编写视图时遇到问题在 SQL 中这将是一个具有多个连接的语句如何替换 CouchDB 中的多重连接本文涵盖单连接 http www cmlenz net archives 2
如何读取 RCFile

我正在尝试将一个小的 RCFile 约 200 行数据读入 HashMap 中以进行 Map Side 连接但是在将文件中的数据变为可用状态时遇到了很多麻烦这是我到目前为止所拥有的其中大部分来自这个例子 http sumit1001
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re

随机推荐

解决window平台下的.ssh/id_rsa bad permission问题

参考链接 https www cnblogs com clblacksmith p 11677135 html
解决问题：List集合add元素，添加多个对象出现重复的问题

首先我们在new 一个对象的时候对象的id是唯一确定的将对象add入list中时放入list中的其实是对象的引用而每次循环只是简单的set 对象的属性 set新的属性值而add进list中的对象还是同一个对象id 也就是同一个对象
渗透必备工具-BurpSuite

目录介绍爆破解码 BurpSuite burpsuite基本可以说是渗透的必备工具用起来也很简单方便通常使用它可以进行一些截包分析修改包数据暴力破解扫描等很多功能用得最多的应该是开代理截包分析数据和爆破解码加密 bu
Ubuntu 22.04 LTS root登录、修改当前用户名和主机名

前言 Ubuntu 22 04 默认不开启root用户配置操作 1 开启 root 以普通用户登录系统创建root用户的密码 opt opt sudo passwd root SSH 放行 opt opt sudo sed i s Pe
jeecgboot 上传文件

jeecgboot框架中文件上传接口 jeecg boot sys common upload 支持本地上传配置云上传等多种方式上传文件 local为本地存储还需要配置jeecg path upload minio为使用MinIO线上存
tcp/ip协议详解

1 TCP IP协议族是一个四层协议系统自低而上分别是数据链路层网络层传输层应用层 1 数据链路层实现了网卡接口的网络驱动程序以处理数据在物理媒介上的传输 ARP协议将目标机器的IP地址转换为其物理地址数据链路层使用物理地址
Oracle_SQL_序列与groupby同时用

暂做记录大小 19 6 KB 查看图片附件
Re48：读论文 kNN-LMs Generalization through Memorization: Nearest Neighbor Language Models

诸神缄默不语个人CSDN博文目录论文名称 Generalization through Memorization Nearest Neighbor Language Models 模型简称 kNN LMs 本文是2020年ICLR论文
Linux系统的组成
过滤器（Filter）与拦截器（Interceptor )区别

过滤器 Filter Servlet中的过滤器Filter是实现了javax servlet Filter接口的服务器端程序主要的用途是设置字符集控制权限控制转向做一些业务逻辑判断等其工作原理是只要你在web xml文件配置好要
uni-calendar日历组件日期范围默认选中及优化存在日期范围后点击第一下、第二下选中为下一日期范围

1 日期范围默认选中该组件未提供默认选择日期范围需对组件进行修改步骤如下 1 在 uni calendar 文件下找到 uni calendar vue 文件 props 中增加 defaultRange type Array def
Vue2.0中el-table的循环写法

文章目录一般写法偷懒写法在有开发任务的一周过得是相当快这一周的开发学到不少东西首先回忆一下在代码中使用到的table循环一般写法现在学会了偷懒之前写的代码就跟搬运工一样表格中的每一列都会去写一行代码
php://filter绕过死亡exit

文章目录 php filter绕过死亡exit 前言 EIS 2019 EzPOP 绕过exit 参考 php filter绕过死亡exit 前言最近写了一道反序列化的题其中有一个需要通过php filter去绕过死亡exit 的小tr
事务回滚

转自 https blog csdn net ProGram BlackCat article details 88230287 spring的事务边界是在调用业务方法之前开始的业务方法执行完毕之后来执行commit or rollbac
安装tensorflow-gpu和tensorflow_federated

前言在安装tensorflow gpu前要先安装CUDA和cuDNN 具体安装步骤可以见上一篇文章记录Win10正确安装CUDA和cuDNN的过程记录一些坑安装tensorflow gpu 我电脑上安装的CUDA版本为10 2 cu
专业三复习

mysql复习 C Users 86131 gt mysql uroot proot C Users 86131 gt mysql uroot proot mysql gt show databases Database informati
[MySQL]获取某个字段中某个字符的个数

例获取account name字段中的个数 select length account name length REPLACE account name from user
【LeetCode算法系列题解】第6~10题

CONTENTS LeetCode 6 N 字形变换中等 LeetCode 7 整数反转中等 LeetCode 8 字符串转换整数 atoi 中等 LeetCode 9 回文数简单 LeetCode 10 正则表达式匹配困难 Lee
RabbitMQ-TTL消息存活时间

文章目录 TTL是什么 TTL的测试小结 TTL是什么 TTL全称Time To Live 存活时间过期时间当消息到达存活时间后还没有被消费会被自动清除 RabbitMQ可以对消息设置过期时间也可以对整个队列 Queue 设置过
MapReduce的基本工作原理

MapReduce的基本模型和处理思想三个层面上的基本构思 1 如果对付大数据处理分而治之对相互之间不具有计算依赖关系的大数据实现并行最自然的办法就是采取分而治之的策略 2 上升到抽象模型 Mapper与Reduce MPI等并行计

MapReduce的基本工作原理

MapReduce的基本模型和处理思想：

MapReduce的基本工作原理 的相关文章

随机推荐

热门标签

MapReduce的基本工作原理的相关文章