[1064]大数据概述

2023-11-08

大数据时代的数据特点

一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的"4V“

(1)规模性,即大数据具有相当的规模,其数据量非常巨大。淘宝网近4亿的会员每天产生的商品交易数据约20TB, Facebook (脸书)约10亿的用户每天产生的日志数据超过300TB。数据 的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为PB级别的 才能称得上是大数据。根据IDC公司的最新研究,未来10年,全球的数据总量将会增长50倍, 以此推算,数据产生的速度越来越快,而且数据总量将呈现指数型的爆炸式增长。

(2) 多样性,即大数据的数据类型呈现多样性。数据类型繁多,不仅包括结构化数据,还包 括非结构化数据和半结构化数据。其中,结构化数据即音频、图片、文本、视频、网络日志、地理 位置信息等。传统的数据处理对象基本上都是结构化数据,而在现实中非结构化数据也是大量存在 的,所以既要分析结构化数据又要分析非结构化数据才能满足人们对数据处理的要求。

(3) 高速性,即处理大数据的速度越来越快,处理时要求具有时效性,因为数据和信息更新 速度非常快,信息价值存在的时间非常短,必须要求在极短的时间下在海量规模的大数据中摒除无 用的信息来搜集具有价值和能够利用的信息。所以随着大数据时代的到来,搜集和提取具有价值的 数据和信息必须要求高效性和短时性。

(4) 价值性。从大数据的表面数据进行分析,进而得到大数据背后重要的有价值的信息,最 后可以精确地理解数据背后所隐藏的现实意义。

大数据的价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连 续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值 “提纯”成为目前大数据背景下亟待解决的难题。

大数据时代的关键技术

(1) 大数据釆集技术
大数据釆集是指通过对社交网络交互数据、移动互联网数据、RFID射频数据以及传感器数据 的收集,获得各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据。大数据 釆集是大数据知识服务模型的根本。重点要突破分布式、高速、高可靠数据爬取等大数据釆集技术。

(2) 大数据预处理技术
大数据预处理技术主要完成对已接收数据的抽取、清洗等操作。因获取的数据可能具有多种 结构和类型,数据抽取能帮助我们从各种异构的源数据源系统抽取到目的数据源系统需要的数据。 大数据并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰 项,因此要对数据进行过滤“去噪”,从而提取出有效数据。

(3) 大数据存储及管理技术
大数据存储与管理要用存储器把釆集到的数据存储起来,并进行管理和调用。重点解决复杂 结构化、半结构化和非结构化大数据存储管理技术。主要解决大数据的可存储、可靠性及有效传输 等几个关键问题。可靠的分布式文件系统(DFS)是高效低成本的大数据存储技术。

(4) 大数据分析及挖掘技术
大数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含 在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。大数据挖掘根据挖掘方法可粗 略地分为机器学习方法、统计方法、神经网络方法和数据库的多维数据分析方法等,它能够将隐藏 于海量数据中的信息和知识挖掘出来。

(5) 大数据可视化展现技术
大数据可视化无论对于普通用户或是数据分析专家都是最基本的功能。大数据可视化可以让 数据自己说话,让用户直观地感受到结果,也可以让数据分析师根据图像化分析的结果做出一些前 瞻性判断。

参考:https://zhuanlan.zhihu.com/p/159135558

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[1064]大数据概述 的相关文章

随机推荐

  • 阿里巴巴管理三板斧 - 阿里巴巴专栏

    阿里巴巴管理三板斧 阿里巴巴专栏 阿里巴巴管理三板斧 阿里巴巴专栏 posted on 2016 07 16 00 44 lexus 阅读 评论 编辑 收藏 转载于 https www cnblogs com lexus p 5675125
  • 基于51单片机的智能大棚浇花系统设计 花盆浇水灌溉补光散热方案原理图程序

    硬件电路的设计 附文件 3 1系统的功能分析及体系结构设计 3 1 1系统功能分析 本设计由STC89C52单片机电路 LCD1602液晶显示电路 光照检测电路 土壤湿度传感器电路 A D采样PCF8591电路 风扇控制电路 继电器控制电路
  • windows7最简单最快速解决“此windows副本不是正版”(“This copy of Windows is not genuine”)方法

    如果出现这个问题的话 windows的桌面就会变成全黑 并且右下角出现 其实解决这个问题的方法有很多种 有很多工具都可以解决这个问题 下面介绍下最简单快速的解决方法 步骤1 在开始的输入框中输入cmd 步骤2 右击出现的cmd 以管理员ad
  • ubuntu2.0安装postgresql

    1 更新系统软件包 首先 通过在终端中运行以下以下apt命令 确保所有系统软件包都是最新的 sudo apt update sudo apt upgrade 2 安装 使用以下apt命令软件包 apt get install postgre
  • 智能算法和人工智能算法,人工智能算法概念股票

    人工智能股票有哪些 1 苏州科达 苏州科达科技股份有限公司是领先的视讯与安防产品及解决方案提供商 致力于以视频会议 视频监控以及丰富的视频应用解决方案帮助各类政府及企业客户解决可视化沟通与管理难题 2012年 公司整体改制为股份有限公司 2
  • python之数据驱动DDT安装

    黑窗口一行指令即可 pip install ddt
  • Mybatis与Spring的集成

    目录 一 Mybatis与spring的集成 Mybatis与spring集成的步骤 1 导入pom依赖 2 利用mybatis逆向工程生成模型底层代码 3 编写appolication mybatis xml 4 Spring Test
  • 让GPT成为您的科研加速器丨GPT引领前沿与应用突破之GPT4科研实践技术与AI绘图

    GPT对于每个科研人员已经成为不可或缺的辅助工具 不同的研究领域和项目具有不同的需求 如在科研编程 绘图领域 1 编程建议和示例代码 无论你使用的编程语言是Python R MATLAB还是其他语言 都可以为你提供相关的代码示例 2 数据可
  • 5-软件实现

    程序设计语言 数据成分 运算成分 控制成分 传输成分 结构化程序设计编码 结构化程序设计的特点 自顶向下 逐步求情 单入口和单出口的控制结构 结构化程序设计步骤 提出和分析问题 确定数学模型 设计算法 模块化编程 编译 运行程序 模块设计和
  • DID基础介绍

    1 介绍 DID Decentralized Identity 去中心化身份标识 它的本质是基于去中心化体系下的中心化信任模型 2 相关名词解释 DID标识符 did example 1232423143215jlgaglgak 前缀必然是
  • fastDFS文件服务器的java客户端初始化方法ClientGlobal.init(fdfs_client.properties) 找不到配置文件路径异常的解决

    最近在使用fastDFS文件服务器的java客户端上传文件时 它的初始化方法ClientGlobal init String 出现找不到配置文件的异常 无论是写死fdfs client properties文件位置还是怎样 都找不到配置文件
  • 阅读element-ui源码之ResizeObserver使用

    1 ResizeObserver 阅读tabs标签页源码时 发现了这个api 于是 我查了下MDN 可以监听任意DOM元素内容区域的变化 这里的变化包括但不限于 1 某个节点的出现和隐藏 2 某个节点的大小变化 和resize api相比的
  • Mac上的oracle使用

    进入docker容器 sudo docker exec it docker ps grep oracle cut d f 1 bin bash 通过sqlplus进入Oracle sqlplus 输入用户名和密码进入 Oracle用户中的默
  • npm报错Failed at the electron-chromedriver@1.8.0 install script.

    问题描述 Electron vue 项目 npm install 报错Failed at the electron chromedriver 1 8 0 install script 解决方案 方法一 vue cli 脚手架的一个 bug
  • unity 删除依赖

    记录 Scene中有依赖废弃的资源 using System using System Collections using System Collections Generic using System IO using System Li
  • JavaScript初学 3.改变文本内容

    JavaScript改变html网页的文本内容 p JavaScript能改变html文本内容 p
  • 90个JavaScript资料免费下载【合集】

    为了方便大家学习 小弟最近整理了一批免积分下载的JavaScript 共90个 整理了这批资料的下载地址 大家可以根据自己的需要选择性下载 希望大家喜欢 JS刷新页面 源码 http down 51cto com data 452926 6
  • 【100%通过率 】【华为OD机试c++/python】回文字符串【2023 Q1考试题 A卷

    华为OD机试 题目列表 2023Q1 点这里 2023华为OD机试 刷题指南 点这里 题目描述 如果一个字符串正读和反渎都一样 大小写敏感 则称它为一个 回文串 例如 leVel是一个 回文串 因为它的正读和反读都是leVel 同理a也是
  • Visual Studio编译问题

    最近在用vs 跑下精简后的数学库 验证输出结果的 结果在其他ide上编译通过 在vs上不行 出现了一堆莫名其妙的错误 问题现象 if endif 不匹配 实际是匹配的 xxx变量未声明 实际是声明并定义的 等等诸如此类问题 解决处理 参考这
  • [1064]大数据概述

    文章目录 大数据时代的数据特点 大数据时代的关键技术 大数据时代的数据特点 一般认为 大数据主要具有 四方面的典型特征 规模性 Volume 多样性 Variety 高速性 Velocity 和价值性 Value 即所谓的 4V 1 规模性