大数据简介

2023-11-20

预备篇

知识

大数据简介

HDFS架构概述（负责Hadoop储存功能）

YAPN概述

MapReduce将计算过程分为两个阶段：Map和Reduce

HDFS，YARN，MapReduce三者关系

大数据生态体系

应用场景

知识

java se,maven,idea,linux,shell

大数据简介

百度百科

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

计算机单位

大数据的五个“v”

海量数据shi'shi'ji'suan

结构化数据，例如mysql中的表格

非结构化数据

Hadoop

Hadoop概述

Welcome! - The Apache HTTP Server Project

Apache Hadoop

Hadoop的历史

Hadoop三大发行版本

1）Apache Hadoop

官网地址：http://hadoop.apache.org

下载地址：https://hadoop.apache.org/releases.html

2）Cloudera Hadoop

官网地址：https://www.cloudera.com/downloads/cdh

下载地址：https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_download.html

（1）2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。

（2）2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。

（4）Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。

3）Hortonworks Hadoop

官网地址：https://hortonworks.com/products/data-center/hdp/

下载地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

（2）公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。

（3）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。

（4）2018年Hortonworks目前已经被Cloudera公司收购。

Hadoop优势

Hadoop的组成

HDFS架构概述（负责Hadoop储存功能）

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统

一般情况下，NameNode和SecondaryNameNode,放到不同的服务器中

YAPN概述

Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

如果想在海量数据中查找指定的数据通过Map分配给每个服务器，每个服务器检索自己的服务器，当每个服务器找到之后通过Reduce交给汇总服务器。

HDFS，YARN，MapReduce三者关系

当客户端发出请求，集群开始工作，ResourceManager就会找一个NodeManager开启一个

Container,AppMstr会向ResourceManager申请资源，服务器1和2中通过MapTask找对应的资源，每一个MapTask独立工作，不管有没有检索到都会返回一个结果，通过Reduce Task把内容写到磁盘上。然后在NameNode进行记录，2NN也记录一次数据

大数据生态体系

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

数据源：一般由三种，数据库表格（结构化数据），文件日志,xml,json（半结构化数据，可以转换成结构化数据），视频,ppt等（非结构化数据，无法转换成结构化数据）

对于结构化数据可以使用sqoop数据传递，来同步mysql中的数据，半结构化数据用flume日志收集来处理，非结构化数据可以用kafka来处理，kafka也可以处理结构化数据和半结构化数据

HDFS和Hbase和Kafka都可以进行数据存储

YARN负责资源调度

MapReduce基于硬盘进行计算

Spark一部分基于内存进行计算

MapReduce上由一个Hive专门用于查询数据，MapReduce需要写代码来查询效率较低，Hive可以使用类似sql语句的方式查询

Spark Sql可以用于类似sql的方式查询数据

Hive，Spark Mlib， Spark都是离线计算，对时间要求不高的

Spark Streaming和Flink和storm用于实时计算，对时间要求较高，比如案例要求实时计算交易额

Storm已经被淘汰了,目前比较流行Flink

比如集群中由100多个任务，不一定都同时运行，可以把非重要的任务安排到凌晨执行，或者先安排比较重要的任务先执行，由调度器进行调度

zookeeper整个大数据平台的协调者和调度者，不会频繁事务，只要启动起来即可

业务层，业务相关，比如销量展示

应用场景

（以上内容为本人大数据笔记，分享给大家，如有不足，还望斧正）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据简介的相关文章

如何在 Intellij IDEA 实时模板 groovy 脚本中将变量传递给 groovy 代码？

我有一个groovyScript in my IntellijIDEA 实时模板如下所示 groovyScript D test groovy v1 on my D test groovy我有这样的代码 if v1 abc abc 现在我
在 IntelliJ 插件中创建后台任务

我正在开发一个 IntelliJ idea 插件并希望在后台任务中运行代码在后台任务对话框和 UI 之外的另一个线程中可见我发现了以下内容助手类 https github com inmite android selector cha
尽管设置为 1.7，IntelliJ IDEA 13 仍使用 Java 1.5

尽管在所有项目设置中指定了 JDK 1 7 包括File gt Project Structure gt Project Project SDK 则产生以下错误IntelliJ 13当尝试编译一些使用菱形运算符的简单 Java 7 代码时
如何识别 Antlr 语法中的行首？

在我使用的语言中某些关键字必须位于行的开头这主要是因为语言中的字符串值可以跨越多行并且字符串可以轻松包含这些关键字我可以轻松处理旧的 yacc lex 语法实现因为词法分析器使用普通的正则表达式来匹配文本模式例如 descrip
从 IntelliJ IDEA 中的版本控制中删除文件

我正在使用 IntelliJ IDEA 社区版 2016 1 我已将我的项目放在 Git 下并将其托管在 GitHub 上 When I first hit that Share Project on GitHub button ever
如何将 Jar 库添加到 IntelliJ Idea SBT Scala 项目？

我创建了一个 IntelliJ Idea SBT Scala 项目例如海科西伯格的文章 http heikoseeberger blogspot com 2010 08 how to setup scala project with s
无法从“https://services.gradle.org/distributions/gradle-2.1-all.zip”安装 Gradle 发行版

我是 gradle 新手我只是尝试在 IntelliJ 中创建一个新的 Android Gradle 项目填写完必需品后它开始下载一些东西这花了几个小时所以我决定强制退出 IDE 并再次打开项目 And now I am gett
IntelliJ Idea 15 显示依赖包和项目包

IntelliJ Idea 15 CE 在项目的包视图中显示来自库依赖项的包仅当项目的根包与某些依赖项的根包相同时才会发生这种情况对于前我的项目的根包是org 所以所有的依赖关系也有org包状org apache logging也被
如何在Android Studio中启动Dart项目？

在安装 Flutter 插件的过程中据说还会安装 Dart 插件所以我把它们都安装了但是当我打开文件 gt 新建菜单时我看到新建 Flutter 项目新建项目但没有看到有关 Dart 的内容在新建项目对话框中我仅看到
如何更改 PyCharm/Intellij Idea 中的自动完成行为？

当您从中间重写某些变量属性或函数而 PyCharm 让旧字符串的其余部分保留在那里时这是非常烦人的我的光标位于 s 和之间我按了 ctrl space 现在当我使用建议完成时它不会删除该函数的其余部分是否可以让它删除其余的功
如何在IntelliJ中快速输入记录器定义？

是否有一些实时模板或其他东西可以将记录器定义添加到类中在 Eclipse 中我有一个模板 private static final Logger log LoggerFactory getLogger enclosing type cla
如何在 Intellij IDEA 中构建和运行 Storm Topology

我按照 Storm Starter 说明并在 IntelliJ 中导入了 Twitter Storm 为了测试我编辑了感叹拓扑一点并使用以下 Maven 命令来构建并运行它 mvn f m2 pom xml compile exec ja
Android Studio 中的多个光标会自动出现在每个匹配的文本处吗？

我一直在使用多个光标ALT SHIFT 有时我需要大约 20 个光标并且希望它们位于文本同一部分的开头每次都这样做很乏味这有捷径吗就像想象文件中有 20 个文本 foo 的实例那么我只想选择一个理想情况下它应该自动为同一位置的所
有没有办法在 JetBrains IDE 之间同步设置？

同步相似设置的最佳方式是什么捷脑公司 http www jetbrains com IDE 例如我有PyCharm http www jetbrains com pycharm and PhpStorm http www jetbrains
IntelliJ 不会从 Maven 依赖项加载 javafx 包 (JavaFX 17)

我正在尝试获取一个 Maven JavaFX 项目该项目是从javafx 原型 fxml原型且未经编辑可在最新版本的 IntelliJ 中运行需要明确的是该项目是该原型的直接复制我只是想让一个例子起作用可以说我是 Maven 的
Intellij IDEA 断点停止在 JAR 中，而不是我的项目的源代码中

我在 java 文件中设置了一个断点我通过 maven jetty 插件启动了 jetty 我设置断点的java文件也打包成JAR了 Intellij 在断点处停止但它显示了打包到 JAR 中的文件而不是 java 文件它的行为就像我
IntelliJ Idea：将简单的 Java servlet（无 JSP）部署到 Tomcat 7

我尝试按照教程进行操作here http wiki jetbrains net intellij Creating a simple Web application and deploying it to Tomcat部署 servlet
如何在 IntelliJ 12 中创建一个有效的新 Google App Engine 项目？

首先我要说的是我之前没有 GAE 经验我正在尝试让 GAE 在 IntelliJ 12 中工作但遇到了问题想知道是否有人可以看看我正在做的事情并告诉我是否有任何奇怪的地方这里 Steps 使用 JDK 1 7 0 51 在 Inte
IntelliJ：查看本地和 git 提交/分支之间所有已更改文件的差异

使用 IntelliJ 的 diff 查看器是检查代码的一种非常好的方法因为您可以使用 IntelliJ 代码编辑器的所有功能重构完成等在本地版本中进行更改不幸的是我还没有弄清楚当你在 IntelliJ 中进行代码审查时如何做最
如何在 IntelliJ Kotlin 项目中使用条件断点动态调试变量时更改值？

在 Java 项目中通过 mis 调试时可以实现这一点使用条件断点为属性或变量设置值 Java断点 https i stack imgur com I4JL2 png 不幸的是同样的事情在 Kotlin 项目中是不可能的错误是赋值

随机推荐

【Web常规漏洞】SSRF服务端请求伪造漏洞

文章目录参考概念产生原因可能存在漏洞的代码漏洞分类潜在危害漏洞利用漏洞防御漏洞绕过概念 SSRF Server Side Request Forgery 服务器端请求伪造是一种利用漏洞伪造服务器端发起请求一般情况下
windows服务器被当矿机的问题处理实战-conhosts.exe

windows服务器被当矿机的问题处理实战 conhosts exe 服务器最近比较卡调开任务管理器查看 CPU占用偏高发现进程 conhosts exe 占用CPU 75 通过pid查询该进程通过syn sent向陌生IP 163
STM32G30C8T6hal库串口非固定长度

1 由于从标准库转到hal库还是特别不适应串口测试遇到了一下问题记录一下 2 hal库串口的配置不再赘述 hal库串口接收完毕可调用回调函数接收的字节为固定长度才会回调感觉非常麻烦而且要重新开启接收中断特别不适用于项目想按照
最新网络工程毕设选题题目推荐

文章目录 0 简介 1 如何选题 2 最新网络工程选题 2 1 Java web SSM 系统 2 2 大数据方向 2 3 人工智能方向 2 4 其他方向 4 最后 0 简介学长搜集分享最新的网络工程专业毕设毕设选题难度适中适合作为毕
python爬虫，多线程与生产者消费者模式

使用队列完成生产者消费者模式使用类创建多线程提高爬虫速度 https sc chinaz com tupian index html https sc chinaz com tupian index 2 html https sc chi
elasticsearch 安装教程

一 jdk安装 es要求jdk版本在1 8以上所以先安装jdk1 8 安装步骤 1 安装完Centos6 5的Base Server版会默认安装OpenJDK 首先需要删除OpenJDK 命令 rpm qa grep java 显示如下
头条员工自爆：拿遍BAT和TMD的offer，面试过于NB！

最近看到一位今日头条员工在脉脉发帖称最近两次找工作 BAT TMD的offer几乎拿了个遍但一般一家只能待两年原因是面试的时候表现过于NB 导致下家对自己期望值过高实际工作中面临的阻力很大的时候就会退缩自己的能力项可能是面试每次
Android 网络管理

系统中对网络的判断和选在是在Connectivityervice这个服务中来处理的在系统启动的时候会启动这个系统服务系统启动完毕后 ConnectivityService在系统启动的时候就启动了在android内部用framewor
如何学好C语言的数据结构与算法？

C语言的数据结构与算法难就难在链表学会了链表可能后面就一点都不难了书籍推荐数据结构与算法分析 C语言描述版要深入学习的话可以选择这本书因为针对链表的讲解是比较详细的所以可以很快理解链表跟着书上一点点实现基本操作增删改查
Vue中的过滤器

过滤器定义对要显示的数据进行特定格式化后再显示适用于一些简单逻辑的处理语法 1 注册过滤器 Vue filter name callback 全局或 new Vue filters 局部 2 使用过滤器 xxx 过滤器名或 v
动态修改日志级别，太有用了！

首发于公众号 BiggerBoy 背景我们在系统中一般都会打印一些日志并且在开发测试生产各个环境中的日志级别可能不一样在开发过程中为了方便调试打印了很多debug日志但是生产环境为了性能为了节约存储资源我们会将日志级别设置为
linux shell进行数值计算

出于项目需要需要用脚本执行计算最简单的方法1 这里写算式可以写变量 Desktop cat test sh a 102 c a 123 echo a a echo a 123 c Desktop test sh a 102 a 123
【软件测试】用例篇

一什么是测试用例测试用例向被测试系统发起的一组集合这组集合包含测试数据测试步骤测试平台预期结果二为什么在测试前要设计测试用例三基于需求设计测试用例 3 1测试是我们测试人员进行测试的依据 3 2测试人员首先要分析需求
A-LOAM总结-(前端+后端)算法流程分析

文章目录 scanRegistration cpp 雷达信息预处理进程 laserOdometry cpp laserMapping cpp A LOAM算法流程主要运行以下3个cpp文件流程框图在文末 scanRegistration
(C语言)输出数组的最大值及其对应下标的最小值

本题源自pintia cn 题目要求代码测试结果图 PTA测试结果题目要求本题要求编写程序找出给定的n个数中的最大值及其对应的最小下标下标从0开始输入格式输入在第一行中给出一个正整数n 1
为什么学完Python后的薪资这么高？

人工智能和大数据概念的兴起带动了Python的快速增长 Python语言逻辑简洁入门简单生态丰富几乎成为几个新兴领域的不二选择而除了这两个领域 Python还有更多的适用领域爬虫 web 自动化运维等领域都非常适合Python发
详细的Python Flask的操作

本篇文章是Python Flask 建站框架入门课程编程实战微课 w3cschool微课的学习笔记根据课程整理而来本人使用版本如下 Python 3 10 0 Flask 2 2 2 简介 Flask是一个轻量级的可定制的web框架
推荐｜5种商业AI产品的技术架构设计！

来源达观数据概要今天我们就特别推荐达观数据的几个商业产品设计技术架构希望对于广大技术有帮助做任何一个商业产品设计技术架构都是首先要考虑的特别是面对海量数据的AI商业项目更是如此今天我们就特别推荐达观数据的几个商业产品设计技术
Vue中key

相信很多小伙伴跟我一样在使用v for的时候对key值的存在和必要性有疑问通过ESlint进行代码检查的时候不加上key还会报错想知道key为什么存在可以先想想key为什么产生会不会是尤雨溪灵光一闪就给Vue添加上了key 也有可能
大数据简介

预备篇目录知识大数据简介计算机单位大数据的五个 v Hadoop Hadoop概述 Hadoop的历史 Hadoop三大发行版本 1 Apache Hadoop 2 Cloudera Hadoop 3 Hortonworks Ha

大数据简介

知识

大数据简介

计算机单位

大数据的五个“v”

Hadoop

Hadoop概述

Hadoop的历史

Hadoop三大发行版本

1）Apache Hadoop

2）Cloudera Hadoop

3）Hortonworks Hadoop

Hadoop优势

Hadoop的组成

HDFS架构概述（负责Hadoop储存功能）

YAPN概述

MapReduce将计算过程分为两个阶段：Map和Reduce

HDFS，YARN，MapReduce三者关系

大数据生态体系

应用场景

大数据简介 的相关文章

随机推荐

热门标签

大数据简介的相关文章