《云计算-刘鹏》学习笔记-第一章:大数据与云计算

2023-11-16


0 笔记说明

参考书籍为《云计算-第三版》,作者为刘鹏。
在这里插入图片描述


1 大数据时代

大数据的定义如下:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。

大数据具有以下的特征,即4V+1C

1、数据量大(Volume):存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。下面是存储单位的换算公式:

1EB=1024PB=260字节
1PB=1024TB=250字节
1TB=1024GB=240字节
1GB=1024MB=230字节
1MB=1024KB=220字节
1KB=1024B=210字节

2、多样(Variety):数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽,数据的来源更加多样。

3、快速(Velocity):数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。

4、价值密度低(Value):需要对大量的数据进行处理,挖掘其潜在的价值。大数据明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。

5、复杂度(Complexity):对数据的处理和分析的难度大


2 云计算——大数据的计算

可用公式描述大数据与云计算的关系:G=f(x),其中x是大数据,f是云计算,G是目标。即,云计算是处理大数据的手段,大数据与云计算就像是一枚硬币的正反面——大数据是需求,云计算是手段:没有大数据,就不需要云计算;没有云计算,就无法处理大数据。

云计算有长、短两种定义:

1、长定义是:云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。

2、短定义:云计算是通过网络按需提供可动态伸缩廉价计算服务

上述长定义中的资源池称为“”。“云”是一些可以自我维护和管理虚拟计算资源,通常是一些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。

云计算将计算资源集中起来,并通过专门软件实现自动管理,无须人为参与。用户可以动态申请部分资源,支持各种应用程序的运转,无须为烦琐的细节而烦恼,能够更加专注于自己的业务,有利于技术创新、降低成本和提高效率。

云计算的核心理念是资源池,与网格计算池的概念非常相似。网格计算池将计算和存储资源虚拟成为一个可以任意组合分配的集合,池的规模可以动态扩展,分配给用户的处理能力可以动态回收重用。这种模式能够大大提高资源的利用率,提升平台的服务质量。

云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、将基础设施作为服务IaaS(Infrastructure as a Service)、将平台作为服务PaaS(Platform as a Service)和将软件作为服务SaaS(Software as a Service)等概念混合演进并跃升的结果。从研究现状上看,云计算具有以下特点:

1、超大规模。“云”需要具有相当的规模,如谷歌云计算已经拥上百万台服务器。“云”能赋予用户前所未有的计算能力。

2、虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无须了解应用运行的具体位置,只需要一台计算机或手机,就可以通过网络获取各种能力超强的服务。

3、高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。

4、通用性。云计算不局限于特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。

5、高可伸缩性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

6、按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、电和煤气那样计费。

7、极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云:“云”的自动化管理使数据中心管理成本大幅降低;“云”的公用性和通用性使资源的利用率大幅提升;“云”设施可以建在电力资源丰富的地区,从而大幅降低能源成本。因此“云”具有前所未有的性价比。

按照服务类型大致可以将云计算分为三类:将基础设施作为服务(IaaS)、将平台作为服务(PaaS)和将软件作为服务(SaaS),如下图所示:
在这里插入图片描述
1、IaaS将硬件设备等基础资源封装成服务供用户使用,如亚马逊云计算AWS(Amazon Web Services)的弹性计算云EC2和简单存储服务S3。在IaaS环境中,用户相当于在使用裸机和磁盘,既可以让它运行Windows,也可以让它运行Linux,因而几乎可以做任何想做的事情,但用户必须考虑如何才能让多台机器协同工作。AWS提供了在节点之间互通消息的接口简单队列服务SQS(Simple Queue Service)。IaaS最大的优势在于它允许用户动态申请或释放节点,按使用量计费。运行IaaS的服务器规模达到几十万台之多,用户因而可以认为能够申请的资源几乎是无限的。同时,IaaS是由公众共享的,因而具有更高的资源使用效率。

2、PaaS对资源的抽象层次更进一步,它提供用户应用程序的运行环境,典型的如Google App Engine。PaaS自身负责资源的动态扩展和容错管理,用户应用程序不必过多考虑节点间的配合问题。但是用户的自主权降低,必须使用特定的编程环境并遵照特定的编程模型,只适用于解决某些特定的计算问题。例如,Google App Engine只允许使用Python和Java语言、基于称为Django的Web应用框架、调用Google App Engine SDK来开发在线应用服务。

3、SaaS的针对性更强,它将某些特定功能或应用软件封装成服务

总之:
1、IaaS提供的是计算或存储资源类型的服务;
2、PaaS提供的是运行用户自定义应用程序的环境;
3、SaaS提供的是某些专门用途的服务供应用调用。


3 云计算发展现状

1、亚马逊的云计算称为Amazon Web Services(AWS),它率先在全球提供了弹性计算云EC2(Elastic Computing Cloud)和简单存储服务S3(Simple Storage Service),为企业提供计算和存储服务。收费的服务项目包括存储空间、带宽、CPU资源以及月租费。月租费与电话月租费类似,存储空间、带宽按容量收费,CPU根据运算量时长收费。目前,AWS服务的种类非常齐全,包括计算服务、存储与内容传输服务、数据库服务、联网服务、管理和安全服务、分析服务、应用程序服务、部署与管理服务、移动服务和企业应用程序服务等。

2、谷歌是最大的云计算技术的使用者。谷歌搜索引擎就建立在分布在200多个站点、超过100万台的服务器的支撑之上,而且这些设施的数量正在迅猛增长。谷歌的平台,包括谷歌地球、地图、Gmail、Docs等也同样使用了这些基础设施。

3、微软紧跟云计算步伐,于2008年10月推出了Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型——通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。目前,微软的云平台包括几十万台服务器。微软将Windows Azure定位为平台服务:一套全面的开发工具、服务和管理系统。它可以让开发者致力于开发可用和可扩展的应用程序。微软将为Windows Azure用户推出许多新的功能,不但能更简单地将现有的应用程序转移到云中,而且可以加强云托管应用程序的可用服务,充分体现出微软的“云”+“端”战略。


4 云计算实现机制

由于不同厂家提供了不同的解决方案,目前还没有一个统一的技术体系结构,书中综合了不同厂家的方案,构造了一个供读者参考的云计算体系结构如下图所示,它概括了不同解决方案的主要特征,每一种方案或许只实现其中部分功能,或许也还有部分相对次要功能尚未概括进来:
在这里插入图片描述
云计算技术体系结构分为以下四层:

1、物理资源层:物理资源层包括计算机、存储器、网络设施、数据库和软件等。

2、资源池层:资源池层是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池等。构建资源池更多的是物理资源的集成和管理工作,例如研究在一个标准集装箱的空间如何装下2000个服务器、解决散热和故障节点替换的问题并降低能耗。

3、管理中间件层:管理中间件层负责对云计算的资源进行管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务。管理中间件层负责:

  • 资源管理:资源管理负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽它,并对资源的使用情况进行监视统计;
  • 任务管理:任务管理负责执行用户或应用提交的任务,包括完成用户任务映象(Image)部署和管理、任务调度、任务执行、生命期管理等;
  • 用户管理:用户管理是实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等;
  • 安全管理:安全管理保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等。

4、SOA构建层:SOA(Service-Oriented Architecture,面向服务的体系结构)构建层将云计算能力封装成标准的Web Services服务,并纳入SOA体系进行管理和使用,包括服务接口、服务注册、服务查找、服务访问和服务工作流等。

在这四层结构中,中间两层,即管理中间件层和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。

基于上述体系结构,以IaaS为例,简述云计算的实现机制,如下图所示:
在这里插入图片描述
1、用户交互接口类应用Web Services方式提供访问接口,获取用户需求。

2、服务目录是用户可以访问的服务清单

3、系统管理模块负责管理和分配所有可用的资源,其核心是负载均衡

4、配置工具负责在分配的节点上准备任务运行环境

5、监视统计模块负责监视节点的运行状态,并完成用户使用节点情况的统计

上图的执行过程并不复杂,用户交互接口允许用户从目录中选取并调用一个服务,该请求传递给系统管理模块后,它将为用户分配恰当的资源,然后调用配置工具为用户准备运行环境。


5 云计算压倒性的成本优势

由于云计算有:

1、更低的硬件和网络成本;

2、更低管理成本和电力成本;

3、更高的资源利用率;

4、容错能力非常强。

这就是云计算成为划时代技术的根本原因。

对云计算用户而言,云计算的优势也是无与伦比的,对于用户:不用开发软件,不用安装硬件,用低得多的使用成本,就可以快速部署应用系统,而且可以动态伸缩系统的规模,可以更容易地共享数据。租用公共云的企业不再需要自建数据中心,只需申请账号并按量付费。


END

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《云计算-刘鹏》学习笔记-第一章:大数据与云计算 的相关文章

  • 只需一个提示词解除GPT-4的字符限制!

    ChatGPT的内存有限 GPT 3 5 turbo的限制为4897个令牌 而GPT 4的最大限制为8192 如果您在使用GPT 4进行聊天时超过8192个令牌 约6827个单词 它就会开始遗忘 我想出了一种新的技巧 可以轻松将对话扩展10

随机推荐

  • Linux项目实战C++轻量级Web服务器源码分析TinyWebServer

    目录 文章简介 一 先跑起来项目 二 再看项目结构 三 逐个击破 立下flag 文章简介 TinyWebServer是Linux下C 轻量级Web服务器 助力初学者快速实践网络编程 搭建属于自己的服务器 作为新手拿它练手入门再好不过的不二之
  • 蓝桥杯 试题 算法训练 拿金币

    问题描述 有一个N x N的方格 每一个格子都有一些金币 只要站在格子里就能拿到里面的金币 你站在最左上角的格子里 每次可以从一个格子走到它右边或下边的格子里 请问如何走才能拿到最多的金币 输入格式 第一行输入一个正整数n 以下n行描述该方
  • TQ2440移植u-boot2016.11全过程记录-【7】NAND FLASH方式启动U-BOOT

    TQ2440移植u boot2016 11 NAND FLASH方式启动U BOOT S3C2440 U BOOT启动方式说明 NOR FLASH启动 S3C2440会直接在NOR上运行程序 在NOR上中的代码需要初始化芯片时钟 初始化SD
  • 关于疫情超走心的文案

    1 盼小城无恙 等烟火寻常 2 以后不在嫌弃人山人海 因为那样才是国泰民安 3 没有一个冬天不会过去 没有一个春天不会到来 4 疫情终时 这人间仍是星河滚烫 水木清华 江山如故 5 待我跨过这病与疾 春和希望都扑面而来 6 疫情结束 是今年
  • h2 mysql 对比_轻量级数据库比较:SQLite、H2和MySQLEmbedded

    对 PHP程序员来说 SQLite可以快速的搭建数据库开发环境 提供轻松 自容器 无配置 无独立服务的数据库环境 所有数据保存在一 对 PHP程序员来说 SQLite可以快速的搭建数据库开发环境 提供轻松 自容器 无配置 无独立服务的数据库
  • 在ubuntu中添加新硬盘

    前言 安装新硬盘这种事情并不会经常 发生同样它也并不复杂 本文将向你说明如何在现有的Ubuntu系统下安装一个新硬盘 并为它设置好分区然后使用它 在动手之前 你需要先考虑下面三个关于新硬盘使用方面的问题 该硬盘是否只会在Ubuntu下使用
  • 数据清洗基础—Kettle 数据转换与清洗、数据抽取操作

    实验一 数据清洗基础 Kettle 数据转换与清洗 数据抽取操作 1 实验题目 Kettle 数据转换与清洗 数据抽取操作 2实验目和要求 2 1熟悉 Kettle 的开发环境 并掌握 Kettle 环境的配置与安装 2 2能使用 Kett
  • 复习Python第八节之json数据

    目录 JSON数据学习 1 数据交换 2 json语法 1 什么是json 2 json的库函数 3 dumps 与dump 以及loads 与load 函数之间的差别 4 Json来模拟以下数据库 文本文档当作数据库 5 使用json案例
  • Srping MVC ant路径匹配

    背景 最近有一个功能设计path匹配 开发说支持ant匹配 这是我第一次听说这个词 赶紧补一下功课 Ant匹配规则 1 前言 1 SpringMVC的路径匹配规则是按照Ant来的 实际上不只是SpringMVC 整个Spring框架的路径解
  • 流媒体协议部分开源库简单比对

    流媒体协议部分开源库简单比对 版本说明 版本 作者 日期 备注 0 1 ZY 2019 2 14 初稿 目录 文章目录 流媒体协议部分开源库简单比对 版本说明 目录 目前找到的比较中意的开源库 live555 media server JR
  • 如何用计算机打出平方,x的平方怎么在电脑上打出来(常见数学符号打法图文)...

    很多小白都会这样问 数学的平方 立方怎么打出来 诸如X Y Z 等等这些右下角的角标数字又是怎么打 根号怎么打出来 一些圆形符号 对数函数 极限符号 积分 尤其是定积分 又是怎么才能在pc端去打出来呢 本篇文章介绍几种比较基础的方法 拿平方
  • 第十三届蓝桥杯单片机客观题真题考点整理

    蓝桥杯 单片机设计与开发大赛马上就要进行 最后冲刺阶段将自己整理的资料上传一下 最后一个星期主要冲刺选择题 现在将选择题的考点附上 第八届预赛 单片机 定时器工作状态 晶振 中断优先级 IO口 数码管消隐 内存分布 IO口 复位 振荡器 模
  • PLC学习札记

    PLC概念相关 PLC编程 PLC系统 通过了解概念 知道了plc的核心是对继电器编程 什么是继电器 继电器 最后 阅读PLC指导手册 结合之前学习的知识 融会贯通 PLC编程手册 FX系列 pdf 指令表运行机制 仅限于本项目
  • 人脸识别解决方案全套文件大合集,120份全新精选,有这个就够了

    人脸识别解决方案全套文件大合集 120份全新精选 有这个就够了 一 人脸识别4个特点 二 人脸识别的 4 个步骤 三 人脸识别的 5 个难点 四 人脸识别算法的发展轨迹 五 人脸识别的典型应用 六 下载人脸识别全套解决方案 一 人脸识别4个
  • ubuntu14.04 Git Github环境搭建设置

    一 安装Git sudo apt get update 获得最近的软件包的列表 sudo apt get install git git core git gui git doc git svn git cvs gitweb gitk gi
  • python是完全面向对象的语言、并且完全支持_Python

    Python是一种高级动态 完全面向对象的语言 函数 模块 数字 字符串都是对象 并且完全支持继承 重载 派生 多继承 有益于增强源代码的复用性 运算语句 表达式 函数调用和赋值 各种类型的数据对象 可以通过各种运算组织成复杂的表达式 调用
  • 第一章 dolphinscheduler基础环境搭建

    官方链接 https dolphinscheduler apache org 1 准备工作 1 解压安装包 tar xzvf apache dolphinscheduler 1 3 9 bin tar gz C opt module apa
  • uni-app 1、app-plus的使用,#ifdef MP只兼容小程序

    最近开始查看uni app的一些项目 在pages json里面发现app plus 百度了下看见一些网友的解释是app跟h5端执行 小程序则不执行 只测试过微信小程序 据说其他小程序也不执行 代码如下 path pages index i
  • mysql中的全文索引

    查询操作在数据量比较少时 可以使用like模糊查询 但是对于大量的文本数据检索 效率很低 如果 使用全文索引 查询速度会比like快很多倍 在MySQL 5 6 以前的版本 只有MyISAM存储引擎支持全 文索引 从MySQL 5 6开始M
  • 《云计算-刘鹏》学习笔记-第一章:大数据与云计算

    文章目录 0 笔记说明 1 大数据时代 2 云计算 大数据的计算 3 云计算发展现状 4 云计算实现机制 5 云计算压倒性的成本优势 0 笔记说明 参考书籍为 云计算 第三版 作者为刘鹏 1 大数据时代 大数据的定义如下 海量数据或巨量数据