1.1.3　Hadoop生态系统

2023-11-14

1.1.3　Hadoop生态系统

2013-05-08 09:38:16 我来说两句

本文所属图书 > Hadoop技术内幕：深入解析Hadoop Common和HDFS架构设计与实现原理

Hadoop技术内幕共两册，分别从源代码的角度对Common+HDFS和MapReduce的架构设计与实现原理进行了极为详细的分析。本书由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔，对Common和HDFS的源代码进行了分析... 立即去当当网订购

经过几年的快速发展，Hadoop现在已经发展成为包含多个相关项目的软件生态系统。狭义的Hadoop核心只包括Hadoop Common、Hadoop HDFS和Hadoop MapReduce三个子项目，但和Hadoop核心密切相关的，还包括Avro、ZooKeeper、Hive、Pig和HBase等项目，构建在这些项目之上的，面向具体领域、应用的Mahout、X-Rime、Crossbow和Ivory等项目，以及Chukwa、Flume、Sqoop、Oozie和Karmasphere等数据交换、工作流和开发环境这样的外围支撑系统。它们提供了互补性的服务，共同提供了一个海量数据处理的软件生态系统，Hadoop生态系统如图1-1所示。

加载中...

下面详细介绍生态系统的组成。

1. Hadoop Common

从Hadoop 0.20版本开始，原来Hadoop项目的Core部分更名为Hadoop Common。Common为Hadoop的其他项目提供了一些常用工具，主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务，并为运行在该平台上的软件开发提供了所需的API。

2. Avro

Avro由Doug Cutting牵头开发，是一个数据序列化系统。类似于其他序列化机制，Avro可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数据的存储与交换。Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能。

3. ZooKeeper

在分布式系统中如何就某个值（决议）达成一致，是一个十分重要的基础问题。ZooKeeper作为一个分布式的服务框架，解决了分布式计算中的一致性问题。在此基础上，ZooKeeper可用于处理分布式应用中经常遇到的一些数据管理问题，如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper常作为其他Hadoop相关项目的主要组件，发挥着越来越重要的作用。

4. HDFS

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

5. MapReduce

MapReduce是一种计算模型，用以进行大数据量的计算。Hadoop的MapReduce实现，和Common、HDFS一起，构成了Hadoop发展初期的三个组件。MapReduce将应用划分为Map和Reduce两个步骤，其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

6. HBase

Google发表了BigTable系统论文后，开源社区就开始在HDFS上构建相应的实现HBase。HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

7. Hive

Hive是Hadoop中的一个重要子项目，最早由Facebook设计，是建立在Hadoop基础上的数据仓库架构，它为数据仓库的管理提供了许多功能，包括：数据ETL（抽取、转换和加载）工具、数据存储管理和大型数据集的查询和分析能力。Hive提供的是一种结构化数据的机制，定义了类似于传统关系数据库中的类SQL语言：Hive QL，通过该查询语言，数据分析人员可以很方便地运行数据分析业务。

8. Pig

Pig运行在Hadoop上，是对大型数据集进行分析和评估的平台。它简化了使用Hadoop进行数据分析的要求，提供了一个高层次的、面向领域的抽象语言：Pig Latin。通过Pig Latin，数据工程师可以将复杂且相互关联的数据分析任务编码为Pig操作上的数据流脚本，通过将该脚本转换为MapReduce任务链，在Hadoop上执行。和Hive一样，Pig降低了对大型数据集进行分析和评估的门槛。

9. Mahout

Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构。

10. X-RIME

X-RIME是一个开源的社会网络分析工具，它提供了一套基于Hadoop的大规模社会网络/复杂网络分析工具包。X-RIME在MapReduce 的框架上对十几种社会网络分析算法进行了并行化与分布式化，从而实现了对互联网级大规模社会网络/复杂网络的分析。它包括HDFS存储系统上的一套适合大规模社会网络分析的数据模型、基于MapReduce实现的一系列社会网络分析分布式并行算法和X-RIME处理模型，即X-RIME工具链等三部分。

11. Crossbow

Crossbow是在Bowtie和SOAPsnp基础上，结合Hadoop的可扩展工具，该工具能够充分利用集群进行生物计算。其中，Bowtie是一个快速、高效的基因短序列拼接至模板基因组工具；SOAPsnp则是一个重测序一致性序列建造程序。它们在复杂遗传病和肿瘤易感的基因定位，到群体和进化遗传学研究中发挥着重要的作用。Crossbow利用了Hadoop Stream，将Bowtie、SOAPsnp上的计算任务分布到Hadoop集群中，满足了新一代基因测序技术带来的海量数据存储及计算分析要求。

12. Chukwa

Chukwa是开源的数据收集系统，用于监控大规模分布式系统（2000+以上的节点, 系统每天产生的监控数据量在T级别）。它构建在Hadoop的HDFS和MapReduce基础之上，继承了Hadoop的可伸缩性和鲁棒性。Chukwa包含一个强大和灵活的工具集，提供了数据的生成、收集、排序、去重、分析和展示等一系列功能，是Hadoop使用者、集群运营人员和管理人员的必备工具。

13. Flume

Flume是Cloudera开发维护的分布式、可靠、高可用的日志收集系统。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。同时，Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。此外，Flume还具有能够将日志写往各种数据目标（可定制）的能力。总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统。

14. Sqoop

Sqoop是SQL-to-Hadoop的缩写，是Hadoop的周边工具，它的主要作用是在结构化数据存储与Hadoop之间进行数据交换。Sqoop可以将一个关系型数据库（例如MySQL、Oracle、PostgreSQL等）中的数据导入Hadoop的HDFS、Hive中，也可以将HDFS、Hive中的数据导入关系型数据库中。Sqoop充分利用了Hadoop的优点，整个数据导入导出过程都是用MapReduce实现并行化，同时，该过程中的大部分步骤自动执行，非常方便。

15. Oozie

在Hadoop中执行数据处理工作，有时候需要把多个作业连接到一起，才能达到最终目的。针对上述需求，Yahoo开发了开源工作流引擎Oozie，用于管理和协调多个运行在Hadoop平台上的作业。在Oozie中，计算作业被抽象为动作，控制流节点则用于构建动作间的依赖关系，它们一起组成一个有向无环的工作流，描述了一项完整的数据处理工作。Oozie工作流系统可以提高数据处理流程的柔性，改善Hadoop集群的效率，并降低开发和运营人员的工作量。

16. Karmasphere

Karmasphere包括Karmasphere Analyst和Karmasphere Studio。其中，Analyst提供了访问保存在Hadoop里面的结构化和非结构化数据的能力，用户可以运用SQL或其他语言，进行即时查询并做进一步的分析。Studio则是基于NetBeans的MapReduce集成开发环境，开发人员可以利用它方便快速地创建基于Hadoop的MapReduce应用。同时，该工具还提供了一些可视化工具，用于监控任务的执行，显示任务间的输入输出和交互等。需要注意的是，在上面提及的这些项目中，Karmasphere是唯一不开源的工具。

正是这些项目的发展，带来了廉价的处理大数据的能力，让Hadoop成为大数据行业发展背后的驱动力。如今，Hadoop已成为分布式大数据处理事实上的标准。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

云数据库

1.1.3　Hadoop生态系统的相关文章

云数据库MySQL的选择

架构介绍 xff1a 云数据库MySQL支持四种架构 xff1a 高可用版金融版单节点高IO版基础版其中单节点高IO版的只用于只读版本对比 xff1a 企业级别 xff0c 刚刚好公司没有自己的服务器机房的时候可以做对比选择一般
淘宝TDDL数据库分库分表

淘宝TDDL数据库分库分表 2014 06 04 23 18 3334人阅读评论 0 收藏举报分类数据库 1 分库分表而且分库规则非常灵活 2 主键生成策略目前TDDL提供的id生成主要还是依托数据库来进行的 oracle可以直
Hadoop 2.4.0+zookeeper3.4.6+hbase0.98.3分布式集群搭建

Hadoop 2 4 0 zookeeper3 4 6 hbase0 98 3分布式集群搭建博客分类 hadoop Ip 主机名程序进程 192 168 137 11 h1 Jdk Hadoop hbase Namenode DFSZ
开源大数据利器汇总

所有分类 gt 服务器软件 gt 分布式云计算大数据开源大数据利器汇总开源 2015 05 21 21 00 00 发布您的评价 0 0 收藏 0收藏类别名称官
阿里云数据库配置IP白名单操作方法（以MySQL为例）

阿里云数据库RDS创建成功后首次连接访问RDS需要配置IP白名单在阿里云RDS控制台即可配置IP白名单阿里云百科来详细说下阿里云服务器RDS配置白名单的方法阿里云服务器配置IP白名单阿里云百科以MySQL云数据库为例 RDS My
Hbase split的三种方式和split的过程

Hbase split的三种方式和split的过程在Hbase中split是一个很重要的功能 Hbase是通过把数据分配到一定数量的region来达到负载均衡的一个table会被分配到一个或多个region中这些region会被分配到
Spanner vs. F1：谷歌两大数据管理利器的整体对比及关联 2016-05-22 20:36 757人阅读评论(0) 收藏举报目录(?)[+] http://www.csdn.net/a

Spanner vs F1 谷歌两大数据管理利器的整体对比及关联 2016 05 22 20 36 757人阅读评论 0 收藏举报目录 http www csdn net article 2013 10 10 2817138 f1 a
分布式系统设计的求生之路

作者作者 Simon 腾讯后台开发高级工程师链接 http wetest qq com lab view id 105 著作权归作者所有商业转载请联系WeTest获得授权非商业转载请注明出处分布式系统理念渐渐成为了后台架构技术的重
分布式数据库资料

Hadoop是很多组件的集合主要包括但不限于MapReduce HDFS HBase ZooKeeper MapReduce模仿了Google MapReduce HDFS模仿了Google File System HBase模仿了Goo
Hash算法的使用

Hash算法的使用标签默认分类发表时间 2011 08 06 06 35 作者 GliderX khsing 分享到出处 http hi baidu com gliderx 在对语料文本进行2 3元切分时需要借助hash表来获得切
分布式查找过程[HBase]Region location

HBase的table是该region切分的 client操作一个row的时候如何知道这个row对应的region是在哪台Region server上呢这里有个region location过程主要涉及到2张系统表 ROOT META
一、MapReduce已死，Spark称霸

一 MapReduce已死 Spark称霸 2014 09 17 11 20 王家林 Spark亚太研究院字号 T T 综合评级想读 35 在读 13 已读 2 品书斋鉴 0 已有50人发表书评 Spark亚太研究院系列丛书 Spark
Hypertable sql

First create a new namespace called Test CREATE NAMESPACE Test and make it the current namespace USE Test Now let s crea
HBase介绍（列存储）

HBase介绍列存储 2013 11 26 23 25 5871人阅读评论 2 收藏举报分类云存储 2 Hbase简介 started by chad walters and jim 2006 11 G release paper
Hypertable 简介一个 C++ 的Bigtable开源实现

1 Introduction 随着互联网技术的发展尤其是云计算平台的出现分布式应用程序需要处理大量的数据 PB级在一个或多个云计算平台中成千上万的计算主机如何保证数据的有效存储和组织为应用提供高效和可靠的访问接口并且保持良好的
分布式数据库需要考虑的(BigTable VS Dynamo)

分布式数据库需要考虑的 BigTable VS Dynamo 在设计评价分布式数据库的时候需要考虑一些最基本的特性我想这些特性可能包括 1 存储系统一种是类似BigTable将存储交给GFS去做 GFS会保证写入数据的完整另外一种是
hadoop初级到资深

hadoop初级到资深 2015 06 13 12 08 165人阅读评论 0 收藏举报分类 hadoop 3 1 hadoop是什么适合大数据的分布式存储与计算平台 2 hadoop版本有哪些 Apache 官方版本 1 1 2
1.1.3　Hadoop生态系统

1 1 3 Hadoop生态系统 2013 05 08 09 38 16 我来说两句收藏我要投稿本文所属图书 gt Hadoop技术内幕深入解析Hadoop Common和HDFS架构设计与实现原理 Hadoop技术内幕共两册分别
云数据库知识学习——概述

一云计算是云数据库兴起的基础云计算是分布式计算并行计算效用计算网络存储虚拟化负载均衡等计算机和网络技术发展融合的产物云计算是由一系列可以动态升级和被虚拟化的资源组成的用户无需掌握云计算的技术只要通过网络就可以访问这些资源
hadoop使用（五）

博客园闪存首页新随笔联系管理订阅随笔 247 文章 122 评论 571 hadoop使用五第1章引言 1 1 编写目的对关于hadoop的文档及资料进行进一步的整理 1 2 相关网站毋庸置疑 http hadoop

随机推荐

Py的ipykernel：Python库介绍、安装及使用攻略

Py的ipykernel Python库介绍安装及使用攻略 ipykernel是一个用于在Jupyter Notebook中运行Python代码的包它可以将Python代码转化为可以在IPython内核上运行的格式下面我们将详细介绍如
C/C++中如何获取数组的长度？

C C 中没有提供直接获取数组长度的函数对于存放字符串的字符数组提供了一个strlen函数获取长度那么对于其他类型的数组如何获取他们的长度呢其中一种方法是使用sizeof array sizeof array 0 在C语言中习惯上
ctfhub技能树部分wp(潦草笔记)

备份文件下载 vim缓存在使用vim时会创建临时缓存文件关闭vim时缓存文件则会被删除当vim异常退出后因为未处理缓存文件导致可以通过缓存文件恢复原始文件内容隐藏文件index php swp前加以 index php 为例
仿牛客网项目第三章:开发社区核心功能（详细步骤和思路）

目录 1 过滤敏感词 1 1 目的 1 2 实现方法 1 3 前缀树 1 4 敏感词过滤步骤为发帖子做准备 2 发布帖子 2 1 AJAX介绍 2 2 AJAX使用实例 3 帖子详情 3 1 实现功能 3 2 实现过程 4 事务管理 4
little endian && big-endian

java 的ClassFile采用big endian存储数据 Intel x86 采用little endian Motorola采用big endian 0x1234 Intel 地址 0x4000 0000 0x34 0x4000 0
vue-使用sass定义全局样式及变量

vue cli2使用sass定义全局样式及变量 vue cli2创建的vue项目使用sass预处理器需按顺序安装以下插件其中sass loader版本和node sass需要安装固定版本其他的依赖不要求版本亲测有效如果不不固定sas
unity Domain Reload & scene Reload 静态变量重置

关闭 Domain Reload 选项后 c 的静态变量在下次运行时不会怎么重置需要手动添加重置代码使用下面的属性设置重置变量函数 using UnityEngine public class StaticCounterExampleF
ns.ajax,UIWebView使用NSURLProtocol(拦截)，ajax加载失败的问题

问题 ajax跨域访问是一个老问题了解决方法很多比较常用的是JSONP方法 JSONP方法是一种非官方方法而且这种方法只支持GET方式不如POST方式安全即使使用jquery的jsonp方法 type设为POST 也会自动变为GE
解决eclipse新建dynamic web project没有apache的Runtime environment问题

在新建eclipse web项目时候想选择Tomact服务器不过运行时环境选择中没有没有出现下图的Apache目录吗网络上好像没有找到教程其实很简单只是没有装上相应的插件解决步骤如下 1 打开Help gt Install N
ThinkPad BIOS 设置详解

ThinkPad BIOS 设置详解 ThinkPad BIOS 设置详解主流新机型在网上查看了相关资料发现好多都是T40或者更老的BIOS设置信息不适合现在的主流以及新机型于是找到分享该贴希望对各位有所帮助简洁的分割线 T
Python-错误与异常处理

通常情况下在try语句块中写我们想要的逻辑发生错误和异常时Python解释器会采用raise方法即将异常抛出 except语句可以承接raise方法抛出的异常并对异常做出处理 Python中有三种异常捕获与处理形式第一种 try ex
为什么MySQL字符串不加引号索引失效？《死磕MySQL系列十一》

群里一个小伙伴在问为什么MySQL字符串不加单引号会导致索引失效这个问题估计很多人都知道答案没错是因为MySQL内部进行了隐式转换本期文章就聊聊什么是隐式转换为什么会发生隐式转换文章目录系列文章一几大索引失效原因二从规
解决git中文乱码

1 配置git bash idea 随便找地方打开git bash 右击窗口进入options 分别将text选项的Locale改为zh CN character set改为UTF 8 如图所示 2 命令执行我改了这个就好了如果不行在
C++基础知识（二）

C 基础知识二文章目录 C 基础知识二 1 指针与引用 2 日期与时间 3 cerr与clog 1 指针与引用 C 有两种指针运算符一种是取地址运算符另一种是间接寻址运算符它们都是单目运算符返回操作数的内存地址如 var读作
Vulkan【15】图形管线（Graphics Pipline）

创建图形管线本节的代码是 14 init pipeline cpp 你越来越接近把这些拉到一起来渲染一个立方体下一步是通过设置图形管道来配置GPU来进行渲染一个图形管线由着色阶段管线布局渲染过程和固定功能管线阶段组成您在前面的部
一个栈的入栈序列是 a,b,c,d,e,则栈的不可能的输出序列是（）。

一个栈的入栈序列是 a b c d e 则栈的不可能的输出序列是 a edcba b decbac dceab d abcde 堆栈讲究先进后出后进先出选项1是abcde先入栈然后依次出栈正好是edcba 选项2是abcd先依次入栈
python 数据清洗豆瓣电影_python 数据清洗篇

前面我们用pandas做了一些基本的操作接下来进一步了解数据的操作数据清洗一直是数据分析中极为重要的一个环节本篇主要演示 python 数据清洗的数据合并转换过滤排序数据合并在pandas中可以通过merge对数据进行合并操
【Python搞搞轻量Blog】第一发 Flask入门

我发现很多小伙伴一直想着有自己的一个博客而且还想自己写一个你们都这么爱折腾我就给你们搞一个轻量级级别的Blog 准备我们要用Python来写一套轻量级的博客那么必须要有Python方面的基础如果有HTML和CSS的基础食用更佳
Ren'Py引擎源代码解读(1)——脚本文件加载

因为想要尝试把Ren Py移植到Cocos上尽可能的使用原来的rpy文件这就难免要解析rpy文件因此就参考了一下Ren Py自己是怎么解析脚本的文件加载那么从哪里看起呢先简要看一下Ren Py的启动过程启动脚本肯定是根目录下的
1.1.3　Hadoop生态系统

1 1 3 Hadoop生态系统 2013 05 08 09 38 16 我来说两句收藏我要投稿本文所属图书 gt Hadoop技术内幕深入解析Hadoop Common和HDFS架构设计与实现原理 Hadoop技术内幕共两册分别

1.1.3 Hadoop生态系统

本文所属图书 > Hadoop技术内幕：深入解析Hadoop Common和HDFS架构设计与实现原理

1.1.3 Hadoop生态系统 的相关文章

随机推荐

热门标签

1.1.3　Hadoop生态系统

1.1.3　Hadoop生态系统的相关文章