深入理解混洗过程

2023-05-16

混洗过程:Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle(混洗过程)。

map方法之后,首先进入getpartition方法,标记数据属于那个分区,并打上分区编号,因为后续的数据都是按分区处理。
不同分区数据会进入不同的reduce里面,然后进入环形缓冲区(默然100M),左侧存索引,右侧存数据,当到达80%的时候进行反向溢写,原因是留给溢写时间,不至于等待,让环形缓冲区高效运转,利用率更高。在溢写之前,对数据进行一次排序,排序的手段为快排,是对key的索引按照字典顺序,快排完后进行第一次溢写,溢写文件有两个,一个是spill.index和一个真正落地的文件spill.out。其中,combiner为可选流程,在聚合的场景下是可以使用的,传输到reduce端的数据量减少了。第二次溢写。。。第n次溢写。然后对数据进行归并排序,归并排序后还可以选combiner流程,之后还可以设置它相应的压缩,可减少网络传输内容,传输效率提高(一种优化手段)。之后数据按分区写入磁盘，然后等待reduce端来拉取。

reduce拉取数据之后,先尝试放入内存缓冲,若内存不够,会溢写到磁盘上。最后进行一次大排序,即对每个map来的数据归并排序,还可以按照相同的key分组,相同的key进入reduce方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深入理解混洗过程

深入理解混洗过程的相关文章

Telink Mesh 开发（1）调试log打印

Telink Mesh SDK 调试log打印 Telink 官网论坛建议使用GPIO模拟串口打印log xff0c 推荐阅读Telink官网发布的最新SDK使用手册 xff0c 更新了不少东西一使用串口打印log1 使能uart lo
蓝牙Mesh基础（3）蓝牙Mesh协议--总览

蓝牙Mesh协议总览Bearer Layer xff08 承载层 xff09 Network Layer xff08 网络层 xff09 Low Transport Layer xff08 下层传输层 xff09 Upper Transp
蓝牙Mesh基础（9）设备配网

设备配网 xff08 启动配置 xff09 设备配网过程配网PDU配网PDU如何传输呢设备配网过程首先 xff0c 需要配网的设备先进行未配网广播 xff0c 这个广播不同于普通的ble广播 xff0c 广播数据结构类型 xff08 A
弱网络环境模拟--树莓派搭建ATC

弱网络环境模拟树莓派搭建ATC 1 硬件和系统2 搭建过程3 遇到的问题1 Failed to start hostapd service Unit hostapd service is masked2 django python版本问题
OpenCV双目相机测距程序

本文主要分享一个双目测距的实现程序 xff0c 用的bumblebee2相机使用的OpenCV自带的BM算法在OpenCV3中 xff0c StereoBM算法发生了比较大的变化 xff0c StereoBM被定义为纯虚类 xff0c
stm32 printf 串口输出

在使用STM32调试时 xff0c 经常使用串口发送信息 xff0c 为了方便调试与串口发送信息 xff0c 用printf xff08 xff09 函数实现通过串口打印信息 1 添加包含printf xff08 xff09 函数的头文件
【slighttpd】基于lighttpd架构的Server项目实战(7)—http-parser

对于http服务器 xff0c http request的解析是比较麻烦的 xff0c 由于我们的重点并不在这上面 xff0c 所以这一部分不打算自己编写 xff0c 而是使用开源的http parser库 xff0c 下面我们将使用该库来
C#实现以图搜图

朋友们 xff0c 如需转载请标明出处 xff1a http blog csdn net jiangjunshow 前言最近在逛淘宝时发现了淘宝的图片搜索功能 xff0c 可能是我太Low了这个技术点已经实现很长时间了想想自己能不能实现
床长人工智能教程 - 前言

朋友们如需转载请标明出处 xff1a http blog csdn net jiangjunshow 人工智能被认为是一种拯救世界终结世界的技术毋庸置疑 xff0c 人工智能时代就要来临了 xff0c 科幻电影中的场景将成为现实 xf
如何做接口测试呢？接口测试有哪些工具【小白都会系列】

回想入职测试已经10年时间了 xff0c 初入职场的我对于接口测试茫然不知后来因为业务需要 xff0c 开始慢慢接触接口测试从最开始使用工具进行接口测试到编写代码实现接口自动化 xff0c 到最后的测试平台开发回想这一路走来感触颇深
C++有限状态自动机解析HTTP协议

一 HTTP请求报文格式 HTTP请求报文主要由四部分组成 xff0c 分别为请求头请求行空行请求体 xff1b 请求方法请求方法包括GET HEAD PUT POST TRACE OPTIONS DELETE等 xff1b xff
解析URL

简介在github有轮子http parser解析器小的就不再造轮子了 xff0c 哈哈 xff08 造这个轮子真不是一时半会的事 xff09 目前该解析器用于nodejs的http解析 xff0c 另还有大家熟知的tcpflow 以及
ubuntu 串口调试助手

ubuntu 下的串口调试助手推荐有两个 PuTTY 和 CuteCom PuTTY 除了串口通讯功能外还有 SSH 和 Telnet 等功能 CuteCom 只能用于串口通讯但串口界面更友好安装串口工具 ubuntu 标准安装源中包含
数据的存储（1）：字节序与比特序

前言在计算机的发展过程中 xff0c 由于不同硬件体系在数据高低有效位及存储方式理解上的差异 xff0c 出现了大端和小端这两种截然相反的对数据的位进行解释的模式大小端模式本身没有优劣之分 xff0c 但我们在开发过程中 xff0c 需
[C/C++后端开发学习] 11 实现一个简单的HTTP服务器

文章目录实现GET方法约定GET时URI的格式状态机与websocket协议兼容实现几个辅助函数GET请求一个html页面一张图片或一个PDF文件实现POST方法实现一个简单的服务框架POST请求报文处理的代码块POST响应报文处理的
C++ Primer Plus习题及答案-第六章

习题选自 xff1a C 43 43 Primer Plus 第六版内容仅供参考 xff0c 如有错误 xff0c 欢迎指正 1 简单文件输入输出 xff08 写入到文本文件中 xff09 对于文件输入 xff0c C 43 43 使用
航模电池-LiPo锂聚合物电池（未完待续）

一外形 1 一般有几个电芯 xff0c 就是几 S xff0c 比如三个电芯就是3S 2 从电池上 xff0c 会引出两组导线 xff0c 一组细的 xff0c 一组粗的细的一组 xff0c 由一根红线和若干根黑线组成 xff0c 最前
visual studio 编译C++程序，加快编译速度

网上很多有关于选择预编译选项出现 xff0c fatal error C1083 无法打开预编译头文件 pch No such file or directory xff0c 这样的错误 xff0c 好多人会选择直接不使用预编译选项如果工
C++中标准名称空间出错（cout,cin,endl是一个未知标识符）

相信有很多小伙伴刚刚学习C 43 43 都有出现cout cin endl为未知标识符原因是 xff1a lt iostream gt 头文件没有namespace std库解决方法有3种 xff0c 如下方法1 xff1a 加 us

随机推荐

C++源文件编译过程

对于C 43 43 源文件 xff0c 从文本到可执行文件一般需要四个过程 xff1a 预处理阶段编译阶段汇编阶段链接阶段预处理阶段 xff1a 对源代码文件中文件包含关系 xff08 头文件 xff09 预编译语句 xff08 宏
最短路径算法之AStar算法(一) AStar算法的证明

本文并不试图对A Star算法进行一个入门式的讲解 xff0c 因为光是那个讲解就有可能会占据很长的篇幅 xff0c 而且网上已经有讲解的文章 xff0c 讲的肯定比我好所以 xff0c 本文是面向已经对A Star算法有了一定了解的人
最短路径算法之AStar算法(三) 《A* Pathfinding for Beginners》一文中的两个问题

现在 xff0c 看看网上流传的很广的一篇文章 A Pathfinding for Beginners xff0c 经典的A STar算法的入门文章 xff0c 也是我前面推荐的阅读文章个人认为 xff0c 这篇入门文章的算法不能找出最短
最短路径算法之AStar算法(四) 可变H函数

前面的文章已经讨论过 xff0c 当H函数可变时 xff0c 前面给出的AStar算法伪过程存在问题 xff0c 并且通过实际的例子证明了问题的存在现在 xff0c 让我们具体分析一下问题究竟出现在什么地方我们回顾一下AStar算法的证
物流定位系统项目qt代码

头文件 ifndef USER INTERFACE H define USER INTERFACE H include lt QWidget gt include lt QLabel gt include lt QMouseEvent gt
python中运用urllib.request简单抓取网页数据

urllib request 1 抓取百度首页 1 from urllib import request 2 3 url 4 根据url获取数据 xff0c 下载数据到本地 5 正则orXpath处理数据 6 数据转储 7 8 url 61
STM32基础知识之串口通信协议

串口通信协议串口的硬件缓存允许收发一次大小都是一字节 xff08 比如0xAA xff09 xff0c 而由串口多次发送的数据的多个字节组成了一帧数据 xff0c 这帧数据被缓存在了软件定义的一个数组中一帧数据的典型格式如下第一次发送
DataX实现mysql全量数据同步到hdfs

目录一 xff1a 什么是DataX 1 1 DataX的概述 xff1a 1 2 DataX的设计 xff1a 1 3 支持的数据库 1 4 框架设计 xff1a 1 5 运行原理 xff1a 1 6 与 Sqoop 的对比二 xff
16KM数传电台

1 http www dlmytech com products detail productId 61 85 html
C语言中怎么将int类型的数据转换为字符串（STM32程序）

61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61
字节序(byte order)和位序(bit order)

一网络字节序与主机字节序在Linux网络编程中 xff0c 经常碰到网络字节序与主机字节序的相互转换说到网络字节序与主机字节序需要清晰了解以下几个概念 1 字节序字节序 xff0c 顾名思义 xff0c 指字节 Byte 在内存中存
虚拟机和主机相互ping不通方法总结

一虚拟机和主机相互ping不通的解决方法 1 主要检查几个方面 xff1a 1 xff09 检查虚拟网卡有没有被禁用 2 xff09 检查虚拟机与物理机是否在一个VMNet中 3 xff09 检查虚拟机的IP地址与物理机对应的VMNet是
grafana告警规则设置

Linux 内存告警配置问题 xff1a Template variables are not supported in alert queries 解决办法 xff1a 单独配置个告警的视图 xff0c 用正则匹配出所有的主机或者每
无法启动此程序因为计算机中丢失vcruntime140_1.dll

安装mysql8的时候发现需要VCRUNTIME140 1 dll文件该文件在C Windows System32下面解决方法推荐去微软官网下载最新的2015 2019vc 43 43 支持包 https support micros
Failed to start mysqld.service: Unit not found问题解决方案

1 首先安装mariadb server yum install y mariadb server 2 启动服务 systemctl start mariadb service 3 添加到开机启动 systemctl enable mari
【常见】CSS3进度条Loading动画（一）

现在 xff0c GIF 格式的进度条已经越来越少 xff0c CSS 进度条如雨后春笋般涌现 CSS3的崛起 xff0c 更使得动态效果得以轻松实现 xff0c 未来 xff0c 必定是CSS3的天下 xff0c 所以今天我就来分享一下几
ssh免密报错:Could not resolve hostname : Name or service not known

解决方法 xff1a 需要将对应的ip地址加到文件名 etc hosts中如 xff1a 192 168 128 129 cdh1 192 168 128 130 cdh2 192 168 128 131 cdh3
Failed to execute operation: No such file or directory

安装iptables服务 yum span class token function install span iptables services 然后再执行 xff1a systemctl enable iptables service
为什么块的大小不能设置太小，也不能设置太大？

xff08 1 xff09 HDFS的块设置太小 xff0c 会增加寻址时间 xff0c 程序一直在找块的开始位置 xff1b xff08 2 xff09 如果块设置的太大 xff0c 从磁盘传输数据的时间会明显大于定位这个块开始位置所需的
深入理解混洗过程

混洗过程 Map方法之后 xff0c Reduce方法之前的数据处理过程称之为Shuffle 混洗过程 map方法之后首先进入getpartition方法标记数据属于那个分区并打上分区编号因为后续的数据都是按分区处理不同分区数据会

深入理解混洗过程

深入理解混洗过程 的相关文章

随机推荐

热门标签

深入理解混洗过程的相关文章