MapReduce原理及简单实现

2023-05-16

MapReduce将数据的处理分成了两个步骤，Map和Reduce。Map将输入的数据集拆分成一批KV对并输出，对于每一个<k1, v1>，Map将输出一批<k2, v2>；Reduce将Map对Map中产生的结果进行汇总，对于每一个<k2, list(v2)>（list(v2)是所有key为k2的value），Reduce将输出结果<k3, v3>。

以单词出现次数统计程序为例，map对文档中每个单词都输出<word, 1>，reduce则会统计每个单词对应的list的长度，输出<word, n>：

map(String key, String value):
// key: document name
// value: document contents
for each word w in value:
EmitIntermediate(w, “1″);

reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));
MapReduce的流程如下：

将输入拆分成M个段，产生M个Map任务和R个Reduce任务。
创建1个master和n个worker，master会将Map和Reduce分派给worker执行。
被分配了Map任务的worker从输入中读取解析出KV对，传递给用户提供的Map函数，得到中间的一批KV对。
将中间的KV对使用分区函数分配到R个区域上，并保存到磁盘中，当Map任务执行完成后将保存的位置返回给master。
Reduce worker根据master传递的参数从文件系统中读取数据，解析出KV对，并对具有相同key的value进行聚合，产生<k2, list(v2)>。如果无法在内存中进行排序，就需要使用外部排序。
对于每一个唯一的key，将<k2, list(v2)>传递给用户提供的Reduce函数，将函数的返回值追加到输出文件中。
当所有任务都完成后，MapReduce程序返回
MapReduce的整个流程并不复杂，就是将数据分片后提交给map执行，执行产生的中间结果经过处理后再交给reduce执行，产生最终结果。

当worker发生故障时，可以通过心跳等方法进行检测，当检测到故障之后就可以将任务重新分派给其他worker重新执行。

当master发生故障时，可以通过检查点（checkpoint）的方法来进行恢复。然而由于master只有一个，比较难进行恢复，因此可以让用户检测并重新执行任务。

对于输出文件来说，需要保证仍在写入中的文件不被读取，即保证操作的原子性。可以通过文件系统重命名操作的原子性来实现，先将结果保存在临时文件中，当执行完成后再进行重命名。使用这种方法就可以将有副作用的write变为幂等（总是产生相同结果的运算，如a = 2就是幂等的，而a += 2则不是）的重命名。

影响任务的总执行时间的重要因素就是落伍者：在运算中某个机器用了很长时间才完成了最后的几个任务，从而增加了总的执行时间。对于这种情况，可以在任务即将完成时，将剩余的任务交给备用者进程来执行，无论是最初的worker完成了任务还是备用者完成了，都可以将任务标记为完成。

对于map产生的结果，通过分区函数来将相同key的KV对分配给同一个reduce来执行。默认的分区函数是hash(key) % R，但在某些情况下也可以选择其他分区函数。如key为URL时，希望相同主机的结果在同一个输出中，那么就可以用hash(hostname(key)) % R作为分区函数。

实现部分是基于MIT 6.824的实验完成的。

type Coordinator struct {
mapJobs []Job
reduceJobs []Job
status int
nMap int
remainMap int
nReduce int
remainReduce int
lock sync.Mutex
}

func MakeCoordinator(files []string, nReduce int) *Coordinator {
c := Coordinator{}
c.status = MAP
c.nMap = len(files)
c.remainMap = c.nMap
c.nReduce = nReduce
c.remainReduce = c.nReduce
c.mapJobs = make([]Job, len(files))
c.reduceJobs = make([]Job, nReduce)
for idx, file := range files {
c.mapJobs[idx] = Job{[]string{file}, WAITTING, idx}
}
for idx := range c.reduceJobs {
c.reduceJobs[idx] = Job{[]string{}, WAITTING, idx}
}
c.server()
return &c
}

func (c *Coordinator) timer(status *int) {
time.Sleep(time.Second * 10)

c.lock.Lock()
if *status == RUNNING {
	log.Printf("timeout\n")
	*status = WAITTING
}
c.lock.Unlock()

}

func (c *Coordinator) AcquireJob(args *AcquireJobArgs, reply *AcquireJobReply) error {
c.lock.Lock()
defer c.lock.Unlock()
fmt.Printf(“Acquire: %+v\n”, args)
if args.CommitJob.Index >= 0 {
if args.Status == MAP {
if c.mapJobs[args.CommitJob.Index].Status == RUNNING {
c.mapJobs[args.CommitJob.Index].Status = FINISHED
for idx, file := range args.CommitJob.Files {
c.reduceJobs[idx].Files = append(c.reduceJobs[idx].Files, file)
}
c.remainMap–
}
if c.remainMap == 0 {
c.status = REDUCE
}
} else {
if c.reduceJobs[args.CommitJob.Index].Status == RUNNING {
c.reduceJobs[args.CommitJob.Index].Status = FINISHED
c.remainReduce–
}
if c.remainReduce == 0 {
c.status = FINISH
}
}
}
if c.status == MAP {
for idx := range c.mapJobs {
if c.mapJobs[idx].Status == WAITTING {
reply.NOther = c.nReduce
reply.Status = MAP
reply.Job = c.mapJobs[idx]
c.mapJobs[idx].Status = RUNNING
go c.timer(&c.mapJobs[idx].Status)
return nil
}
}
reply.NOther = c.nReduce
reply.Status = MAP
reply.Job = Job{Files: make([]string, 0), Index: -1}
} else if c.status == REDUCE {
for idx := range c.reduceJobs {
if c.reduceJobs[idx].Status == WAITTING {
reply.NOther = c.nMap
reply.Status = REDUCE
reply.Job = c.reduceJobs[idx]
c.reduceJobs[idx].Status = RUNNING
go c.timer(&c.reduceJobs[idx].Status)
return nil
}
}
reply.NOther = c.nMap
reply.Status = REDUCE
reply.Job = Job{Files: make([]string, 0), Index: -1}
} else {
reply.Status = FINISH
}
return nil
}
在Coordinator中保存所有的任务信息以及执行状态，worker通过AcquireJob来提交和申请任务，要等待所有map任务完成后才能执行reduce任务。这里就简单的将每一个文件都作为一个任务。

func doMap(mapf func(string, string) []KeyValue, job *Job, nReduce int) (files []string) {
outFiles := make([]os.File, nReduce)
for idx := range outFiles {
outFile, err := ioutil.TempFile("./", "mr-tmp-")
if err != nil {
log.Fatalf(“create tmp file failed: %v”, err)
}
defer outFile.Close()
outFiles[idx] = outFile
}
for _, filename := range job.Files {
file, err := os.Open(filename)
if err != nil {
log.Fatalf(“cannot open %v”, filename)
}
content, err := ioutil.ReadAll(file)
if err != nil {
log.Fatalf(“cannot read %v”, filename)
}
file.Close()
kva := mapf(filename, string(content))
for _, kv := range kva {
hash := ihash(kv.Key) % nReduce
js, _ := json.Marshal(kv)
outFiles[hash].Write(js)
outFiles[hash].WriteString("\n")
}
}
for idx := range outFiles {
filename := fmt.Sprintf(“mr-%d-%d”, job.Index, idx)
os.Rename(outFiles[idx].Name(), filename)
files = append(files, filename)
}
return
}

func doReduce(reducef func(string, []string) string, job Job, nMap int) {
log.Printf(“Start reduce %d”, job.Index)
outFile, err := ioutil.TempFile("./", "mr-out-tmp-")
defer outFile.Close()
if err != nil {
log.Fatalf(“create tmp file failed: %v”, err)
}
m := make(map[string][]string)
for _, filename := range job.Files {
file, err := os.Open(filename)
if err != nil {
log.Fatalf(“cannot open %v”, filename)
}
scanner := bufio.NewScanner(file)
for scanner.Scan() {
kv := KeyValue{}
if err := json.Unmarshal(scanner.Bytes(), &kv); err != nil {
log.Fatalf(“read kv failed: %v”, err)
}
m[kv.Key] = append(m[kv.Key], kv.Value)
}
if err := scanner.Err(); err != nil {
log.Fatal(err)
}
file.Close()
}
for key, value := range m {
output := reducef(key, value)
fmt.Fprintf(outFile, “%v %v\n”, key, output)
}
os.Rename(outFile.Name(), fmt.Sprintf(“mr-out-%d”, job.Index))
log.Printf(“End reduce %d”, job.Index)
}

//
// main/mrworker.go calls this function.
//
func Worker(mapf func(string, string) []KeyValue,
reducef func(string, []string) string) {
CallExample()
var status int = MAP
args := AcquireJobArgs{Job{Index: -1}, MAP}
for {
args.Status = status
reply := AcquireJobReply{}
call(“Coordinator.AcquireJob”, &args, &reply)
fmt.Printf(“AcReply: %+v\n”, reply)
if reply.Status == FINISH {
break
}
status = reply.Status
if reply.Job.Index >= 0 {
// get a job, do it
commitJob := reply.Job
if status == MAP {
commitJob.Files = doMap(mapf, &reply.Job, reply.NOther)
} else {
doReduce(reducef, &reply.Job, reply.NOther)
commitJob.Files = make([]string, 0)
}
// job finished
args = AcquireJobArgs{commitJob, status}
} else {
// no job, sleep to wait
time.Sleep(time.Second)
args = AcquireJobArgs{Job{Index: -1}, status}
}
}
}
worker通过RPC调用向Coordinator.AcquireJob申请和提交任务，之后根据任务类型执行doMap或doReduce。

doMap函数读取目标文件并将<filename, content>传递给map函数，之后将返回值根据hash(key) % R写入到目标中间文件中去。

doReduce函数则从目标文件中读取KV对并加载到内存中，对相同的key进行合并（这里我是用map来做的，但是之后看论文发现是用排序来做的，这样可以保证在每个输出文件中的key是有序的）。合并之后就将<key, list(value)>交给reduce函数处理，最后把返回值写入到结果文件中去。

亚马逊测评 www.yisuping.cn

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce原理及简单实现的相关文章

RS422串口测试工装研究

1 设备组成 ETst USB系统主要由硬件部分与软件部分组成硬件部分包括1553B板卡 RS232 422 485板卡 CAN总线板卡 AD采集板卡 DA转换板卡 DI DO板卡等所有硬件板卡均采用USB的接口形式 xff0c 从而灵
mysql锁系列之MDL元数据锁之三

基础材料 xff1a centos7 5 mysql 5 7 24 前一篇说明了元数据锁的相关加锁顺序 xff0c 今天再结合online DDL更深入的研究一下这个加锁顺序究竟如何这里先简单说明一下online DDL锁升降级的过程 x
【记录】MPU6050原理快速入门（附手册）

目录 MPU6050 MPU6050主要参数 MPU6050通信接口 MPU6050电路向MPU6050的一个寄存器写一个字节的数据从MPU6050的一个寄存器读一个字节的数据 MPU6050 MPU6050是一个运动处理传感器 xff
关于写论文的小技巧[一]：公式编号

论文公式怎么编号对齐用的是word自带的公式 xff0c 编辑好公式之后如下图所示 xff1a 在公式框内容 xff0c 公式末尾出加上 xff08 1 xff09 xff0c 这里1就是你想要编辑的公式序号 xff0c 然后将光标跳到最
步进电机和伺服电机有什么区别？

步进电机和伺服电机二者都是控制电机 xff0c 都能精确控制速度但是二者控制速度的原理不同 xff1a 伺服电机是闭环控制 xff08 通过编码器反馈等完成 xff09 xff0c 即 xff1a 会实时测定电机的速度后自动加以调整 xf
C# FTP上传和下载文件操作

目录 1 初始化FTP2 上传文件3 下载文件4 代码描述我们使用C 需要通过FTP访问服务器时 xff0c 那么上位机就要作为客户端 xff0c 通过连接FTP服务来上传下载文件这里用实际代码和简要的文字描述一下 1 初始化FTP 见
Win10+GTX1650显卡下安装Tensorflow-gpu1.14的踩坑过程及训练目标检测模型

Win10 43 GTX1650显卡下安装Tensorflow gpu1 14的踩坑过程及训练目标检测模型作为一个刚接触深度学习的小白 xff0c 因目标检测的任务需求 xff0c 在网上查阅了大量前辈写的相关blog xff0c 学到了
Ros中的命名空间

Ros中的命名空间在发布或者定阅时 xff0c 有这么一行代码 ros init argc argv 34 publish node A 34 ros NodeHandle nh ros Publisher sub pub 61 nh a
c++读取yaml文件

1 安装yaml库安装yaml cpp yaml cpp 是一个开源库 xff0c 地址在 github 上 xff0c https github com jbeder yaml cpp yaml cpp 默认构建的就是静态库 xff0c
pip3安装私有仓库的包时指定用户名和密码

公司使用nexus3部署的私有仓库 xff0c 并且关闭了匿名下载的功能因此在安装pip包时需要交互输入用户名和密码 xff0c 但是在某些情况下 xff0c 比如dockerfile中需要无交互进行安装 xff0c 这种情况下就需要在命
kubesphere集群中使用devops构建python项目时，流水线一直处于运行状态

首先kubesphere的devops内置了多种podTemplate xff0c 但可惜的时在3 2 2版本中虽然内置了python的podTemplate 但是并没有为其设置镜像模板所以在构建python项目的devops时需要我们手
在kubenetes中使用helm部署gitlab时，dependencies容器出现Database has not been initialized yet错误

在kubenetes中使用helm部署gitlab时 xff0c gitlab webservice default 7954fbb66 vqt62一直在init2 3 xff0c 查看dependencies容器日志出现如下错误 xff1
Visual Studio 项目模板、文件模板、代码段和环境设置

很久前使用过 xff0c 那个时候还没有开始写博客 xff0c 好久不用就都忘记了 xff0c 这两天浓浓跟我说起让我配置一下 xff0c 我都忘的是放在那里去了 xff0c 后悔没有早点开始写博客 xff0c 如果学习的时候就开始写博客
docker镜像加速国内镜像站大全

镜像加速源 Docker中国官方镜像加速 https registry docker cn com 网易163镜像加速 http hub mirror c 163 com 中科大镜像加速 https docker mirrors ustc
nextcloud为用户配置容量配额后，在网页左下角并未生效的解决办法

项目场景 xff1a 在服务器中 xff0c 使用docker部署nextcloud xff0c 并暴露18090端口并使用nginx做反向代理访问nextcloud 问题描述使用管理员账号在后台为用户重新设置配额后 xff0c 用户界
Docker部署Nexus3，并使用Nginx进行反向代理集成LDAP

1 使用docker compose部署 span class token function mkdir span p srv nexus nexus compose span class token function mkdir span
VMware vCenter Server 7.0重置root密码图文教程

1 做快照为避免不可知意外发生 xff0c 最好还是给VMware vCenter Server虚拟机做个快照吧 2 重启VCSA虚拟机使用VMware Remote Console打开并重启虚拟机 xff0c 在启动引导页按e键 xf
VMware vCenter Server密码过期，重置密码推荐方式

VMware vCenter Server密码过期后 xff0c 在登陆vCenter Server 管理 x x x x 5480 界面是无法登陆的 xff0c 会提示 Exception in invoking authenticati
Nextcloud将一个带密码的目录分享出来，当用户使用密码访问该共享时报错的解决方案

Nextcloud将一个带密码的目录分享出来 xff0c 当用户使用密码访问该共享时报错报错截图如下所示 xff1a 那么 xff0c 出现整个报错我们首先需要找到整个报错的原因 xff0c 无疑查看日志是最好的方式在上面的截图最后一
Linux系统下修改系统和进程的Max open files

1 修改 etc security limits conf soft nofile span class token number 16384 span hard nofile span class token number 16384 s

随机推荐

wordpress使用数据库命令批量更换域名

UPDATE wp options SET option value span class token operator 61 span replace span class token punctuation span option va
让普通用户执行docker相关指令时无需sudo

环境信息操作系统 xff1a Ubuntu 22 04 LTS 桌面版 Docker xff1a 20 10 17 当前账号是arlo xff0c 直接执行docker xxx命令会报以下错误 xff1a arlo 64 inboc pc
Ubuntu 18.4安装elasticsearch 8.3.2 + kibana 8.3.2

集群规划主机名IP地址角色els master10 20 2 200ELS MASTERkibana10 20 2 203KIBANA els安装 wget https artifacts elastic co downloads ela
粤嵌gec6818开发板轮流显示颜色

粤嵌gec6818开发板轮流显示颜色 include lt stdio h gt include lt sys types h gt include lt sys stat h gt include lt fcntl h gt includ
UBuntu安装Docker-ce时出现 Errors were encountered while processing:“, “ docker-ce“错误

在UBuntu 18 04系统上安装Docker ce时出现如下错误 xff1a Errors were encountered span class token keyword while span processing span cla
python build时出现ERROR: Failed building wheel for evdev解决方案

错误 note This error originates from a subprocess and is likely not a problem with pip ERROR Failed building wheel span cl
使用parted命令为磁盘扩容

1 查看现有磁盘大小 xff1a root 64 inboc nfs span class token comment df h span Filesystem Size Used Avail Use Mounted on udev 16G
在Ubuntu Desktop系统中打开jnlp扩展名的文件

今天超微服务器出现了点问题 xff0c 无法通过SSH进行连接需要登录到IPMI进行重启 xff0c 目前使用的UBuntu Desktop系统 xff0c 记录下在UBuntu桌面系统中打开jnlp的操作 xff1a span clas
vsphere中的虚拟机配置直通GPU后，启动时出现模块“DevicePowerOn”打开电源失败的解决方案

1 虚拟机配置GPU直通配置后 xff0c 如果直接启动虚拟机 xff0c 将会出现模块 DevicePowerOn 打开电源失败的错误提示 xff0c 解决办法如下 xff1a 在虚拟机设置中的虚拟机选项中的配置参数中添加如下参数即
Ubuntu系统中清理DNS缓存

在下一篇文章中 xff0c 我们将看一看我们如何在Ubuntu中刷新DNS缓存 DNS被认为是Internet连接的关键部分之一目的是更快地访问访问的网站更常见的是 xff0c 我们的机器会跟踪DNS记录 xff0c 或者将其缓存迄
Active Directory账号登陆confluence报773错误解决办法

confluence集成的Active Directory xff0c 在使用AD账号进行登录时总是登录不上使用管理账号在后台进行测试时提示如下错误 xff1a 可认证测试用户 span class token builtin class
【Keil5】*** Target ‘xxx‘ uses ARM-Compiler ‘Default Compiler Version 5‘ which is not available.解决方法

出现这个报错的原因在Keil 5 37以后安装compiler version 6 xff0c 如果要使用compiler version 5 xff0c 需要自己安装下载链接官网 https developer arm com dow
ubuntu 18.04.6 使用内核源码安装内核

文章目录前言一编译内核以及安装二编译内核模块总结参考资料前言上一篇我在ubuntu 18 04 更换内核版本后 xff0c 这篇我们在ubuntu 18 04上用内核源码编译其它版本的内核 xff0c 并进行安装 ubuntu 1
关于CMMI和敏捷过程改进

问题 xff1a 如果按照CMMI从1到5的思路 xff0c 建设企业的信息化制度 xff08 不是为了评定等级 xff0c 是为了实现项目规范管理 xff09 xff0c 可行吗 xff1f 需要关注哪些问题点呢 xff1f 公司如果是个
【PX4_BUG】You should uninstall ModemManager as it conflicts with any non-modem serial device

将编译好的固件下载到无人机 xff0c 需要输入命令 make px4 fmu v2 default upload 这里运行时可能会有报错 WARNING You should uninstall ModemManager as it co
【PX4-AutoPilot教程-2】搭建并运行第一个应用程序

搭建并运行第一个应用程序本文主要说明如何搭建并运行你的第一个板载应用程序 Firmware src examples px4 simple app文件夹下默认已经有一个完整的例程 xff0c 如果遇到了问题可以作为参考如果需要自己重新编
【PX4-AutoPilot教程-1】PX4源码文件目录架构分析

PX4源码文件目录架构分析 PX4源代码的结构复杂 xff0c 这是源代码的总目录结构 xff08 以v1 13 0为例 xff09 xff1a Firmware boards build cmake Documentation integ
【PX4-AutoPilot教程-3】uORB主题订阅发布机制理解、应用和代码阅读

uORB主题订阅发布机制 1 PX4 Pixhawk的软件体系结构 PX4 Pixhawk的软件体系结构主要被分为四个层次 xff0c 这可以让我们更好的理解PX4 Pixhawk的软件架构和运作 xff1a 应用程序的API xff1a
2020-11-23

https blog csdn net guofei fly article details 104136008 utm medium 61 distribute pc relevant none task blog BlogCommend
MapReduce原理及简单实现

MapReduce将数据的处理分成了两个步骤 xff0c Map和Reduce Map将输入的数据集拆分成一批KV对并输出 xff0c 对于每一个 lt k1 v1 gt xff0c Map将输出一批 lt k2 v2 gt xff1b R

MapReduce原理及简单实现

MapReduce原理及简单实现 的相关文章

随机推荐

热门标签

MapReduce原理及简单实现的相关文章