大数据开发教程——MapReduce原理及编程

2023-10-27

什么是MapReduce?

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。

MapReduce的来源

MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。

Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。

但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此自发明MapReduce以后,Google公司内部进一步将其广泛应用于很多大规模数据处理问题。Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。

MapReduce提供了以下的主要功能:

1)数据划分和计算任务调度:
2)数据/代码互定位:
3)系统优化:
4)出错检测和恢复:

MapReduce框架介绍

MR的数据处理流程

在这里插入图片描述

MR模型的适用场景

  • 搜索:网页爬取、倒排索引、PageRank。
  • Web访问日志分析:分析和挖掘用户在web上的访问、购物行为特征,实现个性化推荐;分析用户访问行为。
  • 文本统计分析:比如莫言小说的WordCount、词频TFIDF分析;学术论文、专利文献的引用分析和统计;维基百科数据分析等。
  • 海量数据挖掘:非结构化数据、时空数据、图像数据的挖掘。
  • 机器学习:监督学习、无监督学习、分类算法如决策树、SVM等。
  • 自然语言处理:基于大数据的训练和预测;基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。
  • 广告推荐:用户点击(CTR)和购买行为(CVR)预测。

Mapreduce框架应用

  • Definition:

map: (K1,V1) → list (K2,V2)
reduce: (K2,list(V2)) → list (K3,V3)
map和reduce的输入输出都是key-value
我们写mapreduce程序需要指定:

map阶段的key,value类型
reduce阶段的key,value类型

  • Mapper (map)

Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 类
KEYIN:map阶段的输入类型
VALUEIN:map阶段的输出类型
KEYOUT:reduce阶段的数据类型
VALUEOUT:reduce阶段的输出类型

  • Combiner (optional)

作用:本地数据优化(必须要做的)
可以选择的,配置就行了

  • Partitioner(数据分区)

map阶段处理完成,传输到reduce阶段的策略

相同的key的数据会被发送到同一个reduce
举例:统计所有湖北省的手机号有多少个

手机号如果是150,159开头的当作key进行分区

Default is the HashPartitioner that performs a modulo against the numOfPartitions to return the partition number (默认值是HashPartitioner,它对numOfPartitions执行取模以返回分区号)
源代码: return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks

  • Shuffle and Sort

指的是:数据由map到reduce的过程
数据经过网络传输和排序

  • Reducer (reduce)

Reducer<K2, V2, K3, V3>类

K2:map阶段输入类型
V2:map阶段输出类型
K3:最终输出到HDFS key的类型
V3:最终输出到HDFS value的类型

  • Job:启动mapreduce
//1.获取配置对象
Configuration conf = getConf();
//2.创建job对象
conf.set("fs.defaultFS","hdfs://hadoop5:8020");
Job job = Job.getInstance(conf, "WordCountMapReduce");
job.setJarByClass(this.getClass());
​
// 3.设置输入路径和格式,指定数据源,也就是hdfs上的目录
//input path
FileInputFormat.addInputPath(job,new Path(args[0]) );
//input format
job.setInputFormatClass(TextInputFormat.class);
​
// 4.设置输出路径和格式,数据输出,最终结果保存在哪里
// output path and output format
FileOutputFormat.setOutputPath(job,new Path(args[1]));
job.setOutputFormatClass(TextOutputFormat.class);
​
//5 设置map类和reduce类
job.setMapperClass(WordCountMapper.class);
// map阶段输出key和value的类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
​
//6. 设置Combiner,Map阶段完成后的优化策略,可以让数据本地聚合
job.setCombinerClass(WCReducer.class);
​
// 7. reduce类
job.setReducerClass(WordCountReducer.class);
// reduce阶段输出key和value的类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
​
//8.提交程序
job.waitForCompletion(true) ? 0 : 1;

视频课程戳⬇⬇⬇
领取更多大数据开发学习教程

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据开发教程——MapReduce原理及编程 的相关文章

随机推荐

  • 警告 Invalid cookie header: "Set-Cookie:

    1 根据网上的办法设置cookie if httpGet getFirstHeader Set Cookie null String cookie httpGet getFirstHeader Set Cookie getValue htt
  • Linux安全之SSH 密钥创建及密钥登录

    在我们平时使用Linux系统时候 通常使用的Linux SSH登录方式是用户名加密码的登录方式 今天来探讨另外的一种相对安全的登录方式 密钥登录 我们知道SSH登录是用的RSA非对称加密的 所以我们在SSH登录的时候就可以使用RSA密钥登录
  • 成员内部类

    heartbeat this hearbeat People this heartbeat
  • Java Stream操作--常用方法

    什么是 Stream Stream 流 是一个来自数据源的元素队列并支持聚合操作 元素是特定类型的对象 形成一个队列 Java中的Stream并不会存储元素 而是按需计算 数据源 流的来源 可以是集合 数组 I O channel 产生器g
  • 会员管理系统

    一 介绍 这个会员管理系统 目前是一个专门用于房地产的会员管理系统 也可用于其他行业 功能如下 代金券模块 代金券按金额进行定额与扣减 业主模块 平台 房地产商 为了吸引会员 业主 为业主设置楼栋以及房屋 以及自动生成业主卡号 储值卡模块
  • 使用Tomcat过程中遇到无法访问http:localhost:8080的解决方法

    我们在Tomcat网站下载Apache Tomcat Welcome 后解压在电脑上面 一 检查Tomcat配置的环境变量 1 Tomcat需与jdk搭配使用 所以首先需要jdk的环境变量是已经配置好了 才可以保证Tomcat可以进行使用
  • 工作3年的程序员出去面试,结果连JVM怎么运行都不知道!

    V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 目录 知识点 写好的 Java 代码 他是如何运行起来的 他运行起来以后是如何变成 JVM 进程的 JVM 进程又是如何运行我们写的代码的 总结 知识点 今天给大家分
  • Docker集群编排工具之Kubernetes(K8s)学习

    Kubernetes K8s 介绍 Kubernetes安装及使用 Kubernetes使用 如果您喜欢这篇文章 别忘了点赞和评论哦
  • Modbus RTU 协议详解

    https blog csdn net qq153471503 article details 124317894 目录 Modbus是什么 Modbus分类 Modbus RTU协议数据帧结构 功能码01 读线圈状态 功能码02 读离散量
  • 在mac系统中安装node

    在mac系统中安装node js 这里使用软件包安装方式 首先打开node js的中文网站http nodejs cn download 选择16 15 0版本 下载完成之后 点击安装 出现如下页面 点击继续 点击继续 点击同意软件许可协议
  • Error Domain=NSCocoaErrorDomain Code=3840 “JSON text did not start with array or object and option t

    问题 问题是表现在移动端客户端上 移动端调用服务端接口 返回错误如下 Error Domain NSCocoaErrorDomain Code 3840 JSON text did not start with array or objec
  • pip 批量安装和卸载package

    文章目录 1 pip批量安装package 2 pip批量卸载package 3 pip换国内源 1 pip批量安装package 将需要安装的包保存在aa txt中 cd到aa txt所在目录 运行 pip install r aa tx
  • AndroidUtil - 基于Android网络连接状态全面深度检查

    一个通用的完整网络连接状态检查工具 netState ping dns http 异步执行 使用低级api 保持独立通用 public class NetworkChecker private static final String TAG
  • mysql-proxy

    mysql proxy简介 mysql proxy是mysql官方提供的mysql中间件服务 上游可接入若干个mysql client 后端可连接若干个mysql server 它使用mysql协议 任何使用mysql client的上游无
  • 2013年8月28日星期三(8-2,裁剪Cohen_sutherland算法)

    这节就是只保留裁剪区域内的像素 这个例子用直线表示 分为4种情况 1 直线完全在裁剪区外 不用处理 2 直线完全在裁剪区之内 也无需改动 直接光栅化 3 直线的一个端点在裁剪区之外 必须进行裁剪 4 直线的两个端点都在裁剪区之外 但部分在裁
  • 两个div重叠显示

    想要将兄弟div元素进行重叠 将父元素position设置为relative 子元素position设置为absolute 使用z index设置谁显示在上层 谁显示在下层
  • TLSv1.2协议了解

    首先明确TLS的作用三个作用 1 身份认证 通过证书认证来确认对方的身份 防止中间人攻击 2 数据私密性 使用对称性密钥加密传输的数据 由于密钥只有客户端 服务端有 其他人无法窥探 3 数据完整性 使用摘要算法对报文进行计算 收到消息后校验
  • poj 3980 取模运算

    Description 编写一个C函数mod int n int m 实现取模运算 Input 输入包含多行数据 每行数据是两个整数a b 1 lt a b lt 32767 数据以EOF结束 Output 于输入的每一行输出a b Sam
  • SQLServer JDBC 驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接

    网上有不少人遇到过使用jdbc连接sqlserver出错的情况 错误信息为 Caused by com microsoft sqlserver jdbc SQLServerException 驱动程序无法通过使用安全套接字层 SSL 加密与
  • 大数据开发教程——MapReduce原理及编程

    什么是MapReduce MapReduce是一种编程模型 用于大规模数据集 大于1TB 的并行运算 概念 Map 映射 和 Reduce 归约 是它们的主要思想 都是从函数式编程语言里借来的 还有从矢量编程语言里借来的特性 MapRedu