大数据系列——概论

2023-11-06

1 何为大数据

在这里插入图片描述

在万物互联的时代,数据每时每刻都在产生。你的手机、笔记本、智能穿戴设备、智能家电等等所有联网的终端设备都在不间断的向云端输送着数据,云端数据呈指数级增长。在过去,受限于人类的计算能力,只能通过随机采样来进行数据分析,分析的结果取决于样本数据的质量。但是在云计算时代,可以依托云端强大的计算能力和新的处理技术与策略,对全量数据进行分析,挖掘其中的价值。
大数据的5V特点:

  • Volume(大量):TB级别以上的数据
  • Velocity(高速):要求高时效性,比如滴滴打车,需要知道车辆的实时位置
  • Variety(多样):文字、语音、图片、视频等
  • Value(低价值密度):在海量数据当中,每一个数据的价值是非常低的,所以需要对海量数据进行分析,挖掘其中有价值的数据
  • Veracity(真实性):比如要检测一批有质量问题的牛奶,如果是随机抽检,样本里的牛奶都是合格的,那就会误认为这批牛奶是正常的。如果对全部牛奶进行检测就会检测出有质量问题的牛奶。所以大数据可以最大限度保证真实性。在大数据时代,样本等于总体数据。

2 如何处理大数据

假设有一个码头,货轮每半天到一次,货轮的运力是500kg,这种情况只需要一个身强力壮的人就能完成搬货工作。如果有一天货轮每小时到一次,而且运力增加到了1吨,此时一个人还能持续的完成搬运工作么,显然是不行的。如果把一台服务器或一个虚拟机比作一个人,处理大数据就需要一个服务器集群,把大数据切分成多个数据片,分发到每台机器上去并行处理,处理完成之后再进行聚合,这是MapReduce的核心编程思想。
在这里插入图片描述
大数据计算分为两种:离线计算和实时计算。

3 离线计算

离线计算是处理已经存在、已经收集的数据。比如对数据库里的数据进行分析计算。
在这里插入图片描述

4 实时计算

实时计算是处理实时产生的数据,比如滴滴打车,在等车时想要知道车辆的实时位置。
在这里插入图片描述
通过canal或者Maxwell组件监听数据库的变化,实时同步数据到Spark Streaming上去处理。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据系列——概论 的相关文章

  • C#学习记录——.NET的三层架构

    每一个不曾起舞的日子 都是对生命的辜负 尼采 每一个不读书的的日子 都是对时光的辜负 今天学习 零基础学C 3 0 NET的三层架构 为了实现大型应用系统后续功能的扩展性和程序的灵活性 NET编程语言借鉴了JAVA的MVC思想 产生了三层架
  • MySQL - 第9节 - MySQL内外连接

    目录 1 内连接 2 外连接 2 1 左外连接 2 2 右外连接 3 简单案例 1 内连接 表的连接分为内连接和外连接 内连接实际上就是利用where 子句对两种表形成的笛卡儿积进行筛选 我们前面学习的查询都是内连接 也是在开发过程中使用的

随机推荐

  • Markdown语法--Obsidian笔记

    Markdown 语法 笔记 文章目录 Markdown 语法 笔记 语法分类 文字层级类 1 标题 2 段落 3 区块引用 4 代码区块 5 列表 6 待办事项 文字格式类 1 样式 2 表格 链接引用类 1 链接 2 图片 3 脚注 4
  • Dubbo与Spring Cloud的区别

    这是个老生常谈的问题 每个技术团队在业务转型微服务化架构的时候都会纠结过这个选型问题 首先 dubbo 之前确实在 2012 年的时候发布了最后一个版本 2 5 3 并且停止维护更新 在2017年的时候又 起死回生 官方宣布重启更新 并重点
  • 2021图像检索综述

    论文地址 Deep Image Retrieval A Survey 本文是2021年最新的关于图像检索的综述 介绍了基于内容的图像检索 content based image retrieval CBIR 在深度学习技术上的进展 目录 0
  • Traceback (most recent call last): File “D:/python_workspace/hello.py“, line 3, in <module>

    错误背景 python的初学者 在学习多行语句 错误信息如下 错误原因 变量有字符串类型 有整型类型 有浮点型 在java 里面 String标识字符串类型 Int标识整型 在python里面 a yy1 就是字符串类型 a 1就是数字类型
  • 29_content 阶段的concat 模块

    文章目录 提升性能 content 阶段的 caoncat 模块 concat 模块的指令 示例配置 提升性能 content 阶段的 caoncat 模块 功能 当页面需要访问多个小文件时 把它们内容合并到一次http 响应中返回 提升性
  • 数组排序的方法?

    1 sort排序 let arr 1 2 3 4 5 6 7 8 9 0 9 8 7 6 3 4 5 5 var res console log arr 排序前 1 2 3 4 5 6 7 8 9 0 9 8 7 6 3 4 5 5 arr
  • SSD目标检测算法原理(上)

    目录 一 目标检测概述 1 1 项目演示介绍 1 2 图片识别背景 1 3 目标检测定义 二 目标检测算法原理 2 1 任务描述 2 2 目标检测算法必备基础 2 3目标检测算法模型输出 目标检测 overfeat模型 R CNN模型 候选
  • h2database源码解析-查询优化器原理

    目录 一 成本计算规则 二 单表查询 三 多表关联查询 一 成本计算规则 h2的查询优化器基于成本的 因此在执行查询前 会基于成本计算使用哪个索引 如果涉及多表关联 还会计算不同表关联顺序的成本 最终基于最小成本得出执行计划 单表查询时 遍
  • 树莓派驱动开发简单案例完整过程(动态加载驱动)

    1 下载树莓派os镜像 https www raspberrypi org downloads raspbian 2 使用命令 uname a 查看树莓派内核 Linux raspberrypi 4 19 118 v7 1311 SMP M
  • JQuery筛选器

    jQuery提供了强大的选择器让我们获取对象 在这边 我人为地将jQuery选择器分为两大部分 选择对象和筛选条件 选择对象表示要获取什么对象 筛选条件是对获取的对象进行筛选 最终留下符合某些特征的对象 1 选择对象1 基本 id根据给定的
  • VC++、MFC中最好的开源项目

    介绍一下用VC MFC写的最好的开源项目 Sourceforge net中有许多高质量的VC 开源项目 我列举了一些可以作为VC 程序员的参考 一 优秀的开源项目 7 Zip http sourceforge net projects se
  • react项目路由组件懒加载方法对比,@loadable/component和react-loadable和suspense lazy

    1 使用 loadable component方法 推荐使用这个 npm install loadable component S 先安装一下 2 在app js中引入 loadable component import Loadable
  • 随机森林回归模型--评分预测

    PS 介绍代码仅供介绍 源代码后期经过修改与介绍代码不一定完全相同 索引表 使用到的库 数据加载和预处理 划分训练集和测试集 模型选择和训练 模型评估 模型优化 结果展示 尾声 使用到的库 import pandas as pd 数据处理库
  • tomcat版本与jdk对应关系

    见tomcat官网说明 http tomcat apache org whichversion html Apache Tomcat Versions Apache Tomcat is an open source software imp
  • Mongodb系列- spring-data-mongodb使用MongoTemplate实现分页查询

    转载于 http www cnblogs com jycboy p 8969035 html 在用spring data mongodb框架开发的过程中 需要实现分页查询 就百度了下 没找到满意的又google了下 找到了思路 在sprin
  • IO进程线程day8(2023.8.6)

    一 Xmind整理 管道的原理 有名管道的特点 信号的原理 二 课上练习 练习1 pipe 功能 创建一个无名管道 同时打开无名管道的读写端 原型 include
  • 如何让Myeclipse已经关闭掉的项目不显示出来

    一 打开Package Explorer视图 在它的右上角有一个向下的三角图标 2 点击后选择Filters 在弹出的Filter配置窗口中选中 Closed Projects 转载于 https www cnblogs com rensh
  • rabbitmq消息消费失败如何处理

    在介绍消息中间件 MQ 之前 我们先来简单的了解一下 为何要引用消息中间件 例如 在电商平台中 常见的用户下单 会经历以下几个流程 当用户下单时 创建完订单之后 会调用第三方支付平台 对用户的账户金额进行扣款 如果平台支付扣款成功 会将结果
  • electron 自定义标题栏(windows 系统)

    其实没有网上那么麻烦 如果你仅仅只是想去掉标题 还有下面的工具栏 只需要如下配置 const win new BrowserWindow width 800 height 600 titleBarStyle hidden titleBarO
  • 大数据系列——概论

    1 何为大数据 在万物互联的时代 数据每时每刻都在产生 你的手机 笔记本 智能穿戴设备 智能家电等等所有联网的终端设备都在不间断的向云端输送着数据 云端数据呈指数级增长 在过去 受限于人类的计算能力 只能通过随机采样来进行数据分析 分析的结