大数据简介&大数据应用场景

2023-11-09

背景

互联网信息化技术高速发展,企业生产过程中产生的数据量呈指数级上升。我们看一组统计:

  • 1986年,全球只有0.02EB也就是约21000TB的数据量

  • 2007年,全球就是280EB也就是约300000000TB的数据量,翻了14000倍

  • 2012年,每天会产生2.5EB的数据量

  • 基于IDC的报告预测,从2013年到2020年,全球数据量会从4.4ZB猛增到44ZB,2025年,全球会有163ZB的数据量

单位换算如下:

1GB = 1024 MB 1TB = 1024 GB 1PB = 1024 TB 1EB = 1024 PB 1ZB = 1024 EB 1YB = 1024 ZB 1BB = 1024 YB 1NB = 1024 BB 1DB = 1024 NB

对普通人来讲,TB算是一个能理解的数据量级,谁还没10来个TB的硬盘或网盘。PB也就1024个TB,也还行,一个普通人,终其一生,把其所有的音乐、视频、图片、文件加起来可能都不会把一个PB给用完。

1PB到底有多大?假如手机播放MP3的速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB存量的歌曲可以连续播放2000年。当然,这里有点夸大,按每分钟10M来算,即歌曲都粗略换成无损歌曲,1PB存量的歌曲也可以连续播放200年,也就是,普通人是没那个命去听完1PB音乐的。1PB 也相当于50%的全美学术研究图书馆藏书咨询内容。

1EB是1024个PB,无损歌曲直接给你播204800年,播起来就是真正的没完没了。基本上,要对PB级以上的数据进行一些联机分析,数据挖掘等就是大数据领域需要解决的问题。传统的事务型数据库并没能力在秒级内运算如此海量的数据。

事实上随着关系型数据库分布式技术的成熟,通过数据水平+垂直分片集群等技术,不存在数据量大到无法处理的情况。因为水平+垂直分片理论上可以无限扩容。既然如此,为何还出现了Hadoop、Kudu、Spark等大数据处理框架?关键还是处理时间问题,比如我们将万亿订单数据通过地区+用户ID分片片键对数据进行水平划分,这些一来,数据量无论有多大,查询某个地区某个用户的订单数据的效率不会随着数据规模增大而变慢的。但是如果需求改成,统计所有订单产生的总销额,此时相当于对数据库的全表扫描进行统计,对于分片集群来讲,就是对所有的分片进行全表扫描,然后统计所有分片的统计结果。传统的关系型数据库通常是行式存储,统计某一列数据的和需要扫描所有数据行,得到那列数据再加以统计,在数据量特别大时,效率是极慢的。

以mysql为例,通过B+聚簇索引树将所有数据行组织起来,以索引的根节点开始分裂成不同范围的索引页,根节点保存所有数据页,数据页与数据页之间通过双向的指针连接,在数据页内部是真正的数据行,数据行之间用单向指针连接。这样的数据组织形式,很明显,对于主键查询,范围查询,效率极高,因为数据都在叶子节点,数据节点之间又有指针,想要定位某范围的数据是相对容易的。但对于需要全表扫描统计某一列的和,此时不得不扫描过所有数据,其效率可想而知。

此时,为解决此类问题,一些列式存储数据库开始出现并广泛应用。这类数据库侧重于统计,决策等场景,也称为联机分析处理(Online Analyze Process,OLAP)数据库,此类数据库处理的数据量通过在PB级以上。而上面提到的事务型数据库通常也称为联机事务处理(Online Transaction Process,OLTP)数据库。当然OLTP数据库单库能处理的数据量通常是GB级。不管是哪种类型的数据库,其最终扩容必然是数据的垂直和水平分片。

大数据的定义

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据是数据集合,信息资产,当这些数据集合大到常规数据库处理软件(如关系型数据库mysql、oracle、DB2等)无法处理,或说难以处理时,此时我们可以认为这类数据为大数据,当然,数据量巨大不过是大数据的一个基础特征,它还具有其它的一些特征。

大数据的特点

IBM提出大数据5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

  • 大量:大数据需要处理的数据集大小通常在PB级以上

  • 高速:在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。

  • 多样:数据形式和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

  • 低价值密度:数据价值密度相对较低。通常能产生海量数据的业务数据,极有可能是低价值密度的,大数据要解决的问题是,从海量数据中挖掘出它们的价值。最显而易见的就是车联网领域,车子在跑的过程中,产生各种驾驶数据,这些数据的价值密度看起来极低,但实际上,基于这些数据做出的各种预警却对行车安全产生了极大的价值,那么用户就会为这些价值买单,因为它极大的保障了司机和乘客的生命安全。

  • 真实性:确保数据的真实性,才能保证数据分析的正确性

大数据应用场景

大数据可以应用到诸多领域,如仓储物流、电商零售、汽车、物联网、电信、生物医学、人工智能、智慧城市等等领域,包括在疫情防控战中,大数据技术也发挥了重要的作用。应用场景是人想出的,大数据几乎可以应用到任何领域,上面提到的不过是目前应用得相对成熟的领域而已,大数据具有无限可能,等待人们去发掘。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据简介&大数据应用场景 的相关文章

  • 7. AES加密之base64编码

    整个加密的流程 编码算法 base64算法 与加密解密无关 只是对数据进行编码 方便在网络间进行传输 import org junit jupiter api Test import java nio charset StandardCha

随机推荐

  • SpringBoot+EasyCaptcha实现验证码功能

    一 EasyCaptcha简介 Java图形验证码 支持gif 中文 算术等类型 可用于Java Web JavaSE等项目 开源地址 https github com whvcse EasyCaptcha 二 SpringBoot项目如何
  • 华为OD机试真题-最多获得的短信条数【2023.Q1】

    题目内容 某云短信厂商 为庆祝国庆 推出充值优惠活动 现在给出客户预算 和优惠售价序列 求最多可获得的短信总条数 输入描述 第一行客户预算M 其中 0 M 10 6 第二行给出售价表 P1 P2 Pn 其中 1 n 100 Pi为充值 i
  • python3 在线解析jpg图片或解析本地jpg,判断jpg是否损坏

    一 JPEG图片格式详解 JPEG图片格式组成部分 SOI 文件头 APP0 图像识别信息 DQT 定义量化表 SOF0 图像基本信息 DHT 定义Huffman表 DRI 定义重新开始间隔 SOS 扫描行开始 EOI 文件尾 二 数据结构
  • SIEM的内容

    20200920 昨天看到了与SIEM相关的内容 但是除了一篇文章给我讲解了他们部分的SOC架构与方案 这个算是SIEM的升级版吧 其他的文章都没有给我非常好的反馈 这里来记录一下 文章列表 1 Security Correlation T
  • 反射与泛型

    文章目录 Class API demo reflect set action Class API getField getField String name 能获取 public 的字段 包括父类的 getDeclaredField Str
  • Linux E:Could not get lock /var/lib/dpkg/lock - open (11:Resource temorarily unavailable)

    1 错误提示如下图所示 2 解决方法 1 找到并杀掉所有的apt get和apt进程 运行命令 ps A grep apt 2 3 使用命令 sudo kill 9 进程号 或者 sudo kill SIGKILL 进程号 来关闭所有进程
  • 使用mysqldump命令导出指定数据库的数据+Java实现数据库的一键导出备份

    由于项目中需要用到在页面添加一个一键数据备份的功能 所以选择使用mysqldump命令的方法 用java的运行时类Java lang Runtime来使用后台窗口 记录下整个实现的过程 1 首先mysqldump命令需要在mysql的bin
  • linux管理控制面板--可视化管理linux

    市面上主要的网站主机分为三大类 具体差异简单说明 虚拟主机 也是大家口中说的 主机空间 可定制化低 适合纯小白和新手 完全不懂技术 说明白点 就是一台云服务器分割空间和内存形成的主机空间 可以用来搭建网站 但是管理权限受到主机厂商一些限制
  • 实现compose的五种思路

    好久没有更新了 最近学习的过程中一直在用联想的思维来去看问题 javascript是一门非常灵活的语言 集合了好多语言的特性和多种编程模式 对于compose的实现 就有非常多的思路 每一种思路都有自己的特点 实现之后 有种殊途同归的快感
  • 谷粒学院学习总结

    目录 项目模块说明 项目功能点 一 后台管理系统功能 1 登录注册功能 2 权限管理功能 3 讲师管理模块 4 课程分类模块 5 课程管理模块 6 统计分析模块 7 Canal数据同步 8 GateWay网关 9 首页Banner模块 待做
  • 统计学基础知识梳理(三)

    假设检验 定义 假设检验是用来判断样本与样本 样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法 其基本原理是先对总体的特征作出某种假设 然后通过抽样研究的统计推理 对此假设应该被拒绝还是接受作出推断 假设检验与区间估计都是根据
  • mysql学习笔记(4)_TCL(Transaction Control Language)以及视图

    TCL Transaction Control Language 事务控制语言 事务简介 一个或一组sql语句组成一个执行单元 这个执行单元要么全部执行 要么全不执行 如果其中一条语句执行失败或产生错误 整个单元将会回滚 所有受到影响的数据
  • JSP 项目创建 idea完整版

    JSP 项目创建 idea完整版 打开IntelliJ IDEA 后 File gt new gt project 第二步 JAVA gt Web Application gt next 路径的存放 创建后的文件如图 配置web文件
  • 等保测评所需Linux操作命令

    等保测评所需Linux操作命令 主要测评命令 1 more etc passwd 文件中记录用户的属性信息 包括用户命 密码 用户标识 组标识等信息 2 more etc shadow 口令文件 用于保存包括个人口令在内的数据 不能被普通用
  • 将数组数据转为excel表导出

    安装xlsx依赖 npm install xlsx save npm install file saver script loader save 使用vue element admin 中的src vendor export2Excel j
  • 使用STM32完成基于I2C的AHT20温湿度数据采集

    文章目录 一 内容 二 关于I2C 1 I2C协议 2 软件I2C 3 硬件I2C 三 温湿度数据采集 1 实验器材 2 代码 3 电路连接 4 结果展示 四 总结 五 参考内容 一 内容 学习I2C总线通信协议 使用STM32F103完成
  • 数字成像系统笔记

    imaging algorithm specialist staff image quality engineer cmos sensor color science 3A 狭义3A 自动曝光 自动对焦 自动白平衡 广义 整个相机自动控制
  • 前脚背完这些接口自动化测试面试题,后脚就进了字节测试岗

    1 请结合你熟悉的项目 介绍一下你是怎么做测试的 首先要自己熟悉项目 熟悉项目的需求 项目组织架构 项目研发接口等 功能 接口 自动化 性能 是怎么处理的 第一步 进行需求分析 需求评审 研发和测试对需求达成统一的理解 第二步 架构师会输出
  • vscode终端颜色设置

    terminal integrated inheritEnv false editor fontSize 18 workbench colorCustomizations terminal background 200707 termina
  • 大数据简介&大数据应用场景

    背景 互联网信息化技术高速发展 企业生产过程中产生的数据量呈指数级上升 我们看一组统计 1986年 全球只有0 02EB也就是约21000TB的数据量 2007年 全球就是280EB也就是约300000000TB的数据量 翻了14000倍