一、MapReduce已死，Spark称霸

2023-11-09

一、MapReduce已死，Spark称霸

2014-09-17 11:20 王家林 Spark亚太研究院字号： T | T

综合评级：

《Spark亚太研究院系列丛书——Spark实战高手之路从零开始》本书通过Spark的shell测试Spark的工作；使用Spark的cache机制观察一下效率的提升构建Spark的IDE开发环境；通过Spark的IDE搭建Spark开发环境；测试Spark IDE开发环境等等。本节为大家介绍MapReduce已死，Spark称霸。

AD：51CTO 网+ 第十二期沙龙：大话数据之美_如何用数据驱动用户体验

一、MapReduce已死，Spark称霸

由于Hadoop的MapReduce高延迟的死穴，导致Hadoop无力处理很多对时间有要求的场景，人们对其批评越来越多，Hadoop无力改变现在而导致正在死亡。正如任何领域一样，死亡是一个过程，Hadoop正在示例这样的一个过程，Hadoop的死亡过程在2012年已经开始

1，原先支持Hadoop的四大商业机构纷纷宣布支持Spark；

2，Mahout前一阶段表示从现在起他们将不再接受任何形式的以MapReduce形式实现的算法，另外一方面，Mahout宣布新的算法基于Spark；

3，Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark；

4，Google已经开始将负载从MapReduce转移到Pregel和Dremel上；

5，FaceBook则将负载转移到Presto上；

现在很多原来使用深度使用Hadoop的公司都在纷纷转向Spark，国内的淘宝是典型的案例。在此，我们以使用世界上使用Hadoop最典型的公司Yahoo！为例，大家可以看一下其数据处理的架构图：

而使用Spark后的架构如下：

大家可以看出，现阶段的Yahoo！是使用Hadoop和Spark并存的架构，而随着时间的推进和Spark本身流处理、图技术、机器学习、NoSQL查询的出色特性，最终Yahoo！可能会完成Spark全面取代Hadoop，而这也代表了所有做云计算大数据公司的趋势。

或许有朋友会问，Hadoop为何不改进自己？

其实，Hadoop社区一直在改进Hadoop本身，但事实是无力回天：

1，Hadoop的改进基本停留在代码层次，也就是修修补补的事情，这就导致了Hadoop现在具有深度的“技术债务”，负载累累；

2，Hadoop本身的计算模型决定了Hadoop上的所有工作都要转化成Map、Shuffle和Reduce等核心阶段，由于每次计算都要从磁盘读或者写数据，同时真个计算模型需要网络传输，这就导致了越来越不能忍受的延迟性，同时在前一个任务运行完之前，任何一个任务都不可以运行，这直接导致了其无力支持交互式应用；

那么，为什么不全部重新写一个更好的Hadoop呢?答案是Spark的出现使得没有必要这样做了。

Spark是继Hadoop之后，成为替代Hadoop的下一代云计算大数据核心技术，目前SPARK已经构建了自己的整个大数据处理生态系统，如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术，并且是Apache顶级Project，可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。

国外一些大型互联网公司已经部署了Spark。甚至连Hadoop的早期主要贡献者Yahoo现在也在多个项目中部署使用Spark；国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用Spark技术用于自己的商业生产系统中，国内外的应用开始越来越广泛。Spark正在逐渐走向成熟，并在这个领域扮演更加重要的角色。

喜欢的朋友可以添加我们的微信账号：

51CTO读书频道二维码

51CTO读书频道活动讨论群：342347198

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

云数据库

一、MapReduce已死，Spark称霸的相关文章

云数据库MySQL的选择

架构介绍 xff1a 云数据库MySQL支持四种架构 xff1a 高可用版金融版单节点高IO版基础版其中单节点高IO版的只用于只读版本对比 xff1a 企业级别 xff0c 刚刚好公司没有自己的服务器机房的时候可以做对比选择一般
淘宝TDDL数据库分库分表

淘宝TDDL数据库分库分表 2014 06 04 23 18 3334人阅读评论 0 收藏举报分类数据库 1 分库分表而且分库规则非常灵活 2 主键生成策略目前TDDL提供的id生成主要还是依托数据库来进行的 oracle可以直
Hadoop Core、HBase 、ZooKeeper

adoop HBase ZooKeeper三者关系与安装配置复制链接 qqjue 论坛徽章 18 电梯直达 1
Hypertable 快速安装，仅需上载一个RPM包，零编译

Hypertable 快速安装仅需上载一个RPM包零编译 Hypertable 快速安装仅需下载一个RPM包零编译本文采用单机安装 1 Hypertable 安装 Hypertable 的几种安装方式单机安装于单机采用本地
Hadoop 2.4.0+zookeeper3.4.6+hbase0.98.3分布式集群搭建

Hadoop 2 4 0 zookeeper3 4 6 hbase0 98 3分布式集群搭建博客分类 hadoop Ip 主机名程序进程 192 168 137 11 h1 Jdk Hadoop hbase Namenode DFSZ
开源大数据利器汇总

所有分类 gt 服务器软件 gt 分布式云计算大数据开源大数据利器汇总开源 2015 05 21 21 00 00 发布您的评价 0 0 收藏 0收藏类别名称官
阿里云数据库配置IP白名单操作方法（以MySQL为例）

阿里云数据库RDS创建成功后首次连接访问RDS需要配置IP白名单在阿里云RDS控制台即可配置IP白名单阿里云百科来详细说下阿里云服务器RDS配置白名单的方法阿里云服务器配置IP白名单阿里云百科以MySQL云数据库为例 RDS My
分布式系统设计的求生之路

作者作者 Simon 腾讯后台开发高级工程师链接 http wetest qq com lab view id 105 著作权归作者所有商业转载请联系WeTest获得授权非商业转载请注明出处分布式系统理念渐渐成为了后台架构技术的重
分布式数据库资料

Hadoop是很多组件的集合主要包括但不限于MapReduce HDFS HBase ZooKeeper MapReduce模仿了Google MapReduce HDFS模仿了Google File System HBase模仿了Goo
Hash算法的使用

Hash算法的使用标签默认分类发表时间 2011 08 06 06 35 作者 GliderX khsing 分享到出处 http hi baidu com gliderx 在对语料文本进行2 3元切分时需要借助hash表来获得切
分布式查找过程[HBase]Region location

HBase的table是该region切分的 client操作一个row的时候如何知道这个row对应的region是在哪台Region server上呢这里有个region location过程主要涉及到2张系统表 ROOT META
一、MapReduce已死，Spark称霸

一 MapReduce已死 Spark称霸 2014 09 17 11 20 王家林 Spark亚太研究院字号 T T 综合评级想读 35 在读 13 已读 2 品书斋鉴 0 已有50人发表书评 Spark亚太研究院系列丛书 Spark
Hypertable sql

First create a new namespace called Test CREATE NAMESPACE Test and make it the current namespace USE Test Now let s crea
HBase介绍（列存储）

HBase介绍列存储 2013 11 26 23 25 5871人阅读评论 2 收藏举报分类云存储 2 Hbase简介 started by chad walters and jim 2006 11 G release paper
Hypertable 简介一个 C++ 的Bigtable开源实现

1 Introduction 随着互联网技术的发展尤其是云计算平台的出现分布式应用程序需要处理大量的数据 PB级在一个或多个云计算平台中成千上万的计算主机如何保证数据的有效存储和组织为应用提供高效和可靠的访问接口并且保持良好的
分布式数据库需要考虑的(BigTable VS Dynamo)

分布式数据库需要考虑的 BigTable VS Dynamo 在设计评价分布式数据库的时候需要考虑一些最基本的特性我想这些特性可能包括 1 存储系统一种是类似BigTable将存储交给GFS去做 GFS会保证写入数据的完整另外一种是
hadoop初级到资深

hadoop初级到资深 2015 06 13 12 08 165人阅读评论 0 收藏举报分类 hadoop 3 1 hadoop是什么适合大数据的分布式存储与计算平台 2 hadoop版本有哪些 Apache 官方版本 1 1 2
1.1.3　Hadoop生态系统

1 1 3 Hadoop生态系统 2013 05 08 09 38 16 我来说两句收藏我要投稿本文所属图书 gt Hadoop技术内幕深入解析Hadoop Common和HDFS架构设计与实现原理 Hadoop技术内幕共两册分别
云数据库知识学习——概述

一云计算是云数据库兴起的基础云计算是分布式计算并行计算效用计算网络存储虚拟化负载均衡等计算机和网络技术发展融合的产物云计算是由一系列可以动态升级和被虚拟化的资源组成的用户无需掌握云计算的技术只要通过网络就可以访问这些资源
hadoop使用（五）

博客园闪存首页新随笔联系管理订阅随笔 247 文章 122 评论 571 hadoop使用五第1章引言 1 1 编写目的对关于hadoop的文档及资料进行进一步的整理 1 2 相关网站毋庸置疑 http hadoop

随机推荐

基于STM32F407的SDCard读写操作

基于STM32F407的SDCard读写操作目录基于STM32F407的SDCard读写操作硬件电路 SD卡结构示意图管脚连接 SDIO方式 SDCard初始化 SDCacr寄存器介绍 SDCacr初始化代码在之前没有做过SD卡相
解神者x2服务器维护,解神者X2服务器维护中？登不上与连网失败解决攻略

解神者X2连网失败怎样解决等待开放测试才能顺利加入创意手游小编带来测试详情应对线上挑战登不上与连网失败解决攻略星辰跃迁测试预下载已开启测试时间为 7月29日10 00 8月5日16 00 欢迎大家登船测试类型不限量删档
使用DLL在多个进程间共享全局变量

默认情况下同一个程序启动多个进程它们各自的变量值是不会相互影响的第二个实例启动后在修改全局变量的时候系统会运用内存管理系统copy on write的特性来防止修改了第一个实例的数据即系统会再分配一些内存并将全局变量复制到这块
c语言中文件,c语言中文件的使用方法

c语言中文件的使用方法一文件指针的定义 FILE fp 注意FILE的大写二文件的打开 fp fopen 路径文件名文件格式后缀文件的使用方法注意路径下为而不是三文件的使用方法 1 r 模式 1 1 打开文件进行只读操
ansible 一键部署 kubernetes高可用框架

ansible 一键部署 kubernetes高可用框架 kube router版分享一个自己写的k8s搭建项目 github https github com Fear2014 kubernetes ansible deploy 框架说
2021-06-10

NFS Network File System 网络文件系统是FreeBSD支持的文件系统中的一种它允许网络中的计算机不同的计算机不同的操作系统之间通过TCP IP网络共享资源主要在unix系列操作系统上使用在NFS的应用中
Android开发插件化来龙去脉（附全套学习视频）(1)，app架构图

Step3 通过反射获取到pluginClassLoader中的pathList字段 Object pluginDexPathList ReflectUtil getField BaseDexClassLoader class plugin
pyltp实现NER以及实体统计

pyltp实现NER以及实体统计人工智能火热 NLP技术也蓬勃发展今天主要讲述NLP中的一项基础任务NER的实现首先介绍一下NER 命名实体识别 Named entity recognition 是NLP的一项子任务旨在实现从文本中
【华为OD统一考试B卷

华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷和OD统一考试 B卷你收到的链接上面会标注A卷还是B卷请注意根据反馈目前大部分收到的都是
目标跟踪（1）SORT Windows实战+代码解析

1 Windows实战下载代码解压文件安装SORT所需的环境进入到sort环境下 pip install r requirements txt 有两种使用方式 1 不基于视频 python sort py 2 基于视频先下载视频
V神入围时代杂志2021年100位最具影响力人物名单

人们的目光总是会关注那些与众不同的天才很多孩子少年时展现天赋但长大之后有些不尽如人意让人忍不住伤仲永不过有些天才却一直在神坛上让人仰望 9月15日晚上时代杂志正式公布了2021年最具影响力100人名单以太坊创始人Vi
python 通达信自动下载收盘和财务数据

python 通达信自动下载收盘和财务数据自动启动通达信鼠标自动操作通达信直接从官网下载免费版可下载财务数据自动识别屏幕尺寸目前为1440x900 1920x1080 1366 768 三种代码 try 下面需替换为自己电脑上
Vue vue.config.js 的详解与配置

Vue的 vue config js 配置 1 为什么要配置 vue config js 由于 vue cli 3 也学习了 rollup 的零配置思路所以项目初始化后没有了以前熟悉的 build 目录也就没有了 webpack ba
我的世界服务器怎么开维修,我的世界服务器怎么开？

我的世界服务器游戏规则指令详细 1 achievement give 玩家名用于赐予玩家成就 2 blockdata 用于编辑指定坐标的数据标签 3 clear 物品数据清空该玩家的物品栏或只清除特定的物品 4 difficult
在eclipse中使用MyBatisGenerator方法

方法一 1 直接在pom xml文件中引入mybatis generator maven plugin
使用EasyPoi实现Excel的按模板样式导出

模板文件 1690342020350导出测试 xlsx 导出文件如下 1 横向遍历 fe 使用 fe命令可以实现集合数据的横向拓展比如模板代码是 fe maths t score 导出的excel里面就会显示会自当前列向右拓展效果可
计算机程序设计员( 国家职业标准三级),计算机程序设计员国家职业标准

计算机程序设计员国家职业标准计算机程序设计员国家职业标准 1 职业概况 1 1职业名称计算机程序设计员 1 2职业定义利用现代信息技术从事计算机软件编制和设计工作的人员 1 3职业等级本职业共设三个等级分别为程序员国家职业资
【数据结构】长篇详解堆,堆的向上/向下调整算法,堆排序及TopK问题

文章目录堆的概念性质图解向上调整算法算法分析代码整体实现向下调整算法算法分析整体代码实现堆的接口实现初始化堆销毁堆插入元素删除元素打印元素判断是否为空取首元素实现堆堆排序创建堆调整堆整合步骤 To
linux vscode 安装与配置简单的程序例子

linux vscode 安装与配置简单的程序例子关于vscode 这里说三个要点 1 下载与安装 2 插件 3 编译配置下载与安装首先去官网下载文件 https code visualstudio com docs dv linu
一、MapReduce已死，Spark称霸

一 MapReduce已死 Spark称霸 2014 09 17 11 20 王家林 Spark亚太研究院字号 T T 综合评级想读 35 在读 13 已读 2 品书斋鉴 0 已有50人发表书评 Spark亚太研究院系列丛书 Spark

一、MapReduce已死，Spark称霸

一、MapReduce已死，Spark称霸

一、MapReduce已死，Spark称霸 的相关文章

随机推荐

热门标签

一、MapReduce已死，Spark称霸的相关文章