大数据系统及分析

2023-11-09

IDC将大数据技术定义为:“为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。” 大数据的关键在于种类繁多、数量庞大、使用传统的数据分析工具无法在可容忍的时间内处理相应的数据。大数据分析主要涉及两个不同的领域:一是如何将海量的数据存储起来,二是如何在短时间内处理大量不同类型的数据,即解决大数据存储与大数据处理等问题

大数据概览

大数据的主要特征

大量化(Volume)指数据的数量巨大。日新月异的信息存储技术使得存储大量数据的成本越来越低,特别是分布式存储技术的日益成熟,逐渐使得存储 PB、EB 甚至 ZB 级别的数据成为可能多样性(Variety)指数据的种类繁多。只需要连上互联网,就可以随时随地查看并获取想要的数据,但与此同时也面临了一系列的挑战。互联网上的数据虽多,但大部分数据的呈现形式为非结构化或半结构化的。如何将不同的数据结构归结到统一的结构中是一个重要的问题

快速化(Velocity)是指目前大数据时代,数据越来越实时化,数据的产生与处理速度逐渐能够满足人们 的需求价值密度低(Value)是大数据中最为关键的一点, 虽然真实世界中的数据量极大,但真正有价值的内容 却较少。以监控视频为例,虽然监控视频的内容极其之大,但实际有价值的部分可能不过几分钟。如何利用云计算等技术从大量的数据中提取出最为关键、最有价值的部分,并将信息转换成知识是值得研究的内容

大数据的生命周期

传统的数据分析处理流程中,数据的来源是多种多样的(数据库、社交媒体等),但由于数据价值密度低的特点,通常获取到的数据并不能直接使用进行分析,还需要进行一些列预处理。例如,将无用或者重复的数据过滤并去除,将大量的数据分类并进行管理,根据业务需要对相同类型的数据进行聚合,将非结构化或半结构化的数据结构化并存储到数据库中,或者将原结构化的数据从原有表现形式统一成另一种表示形式,从而使数据井井有条以便于数据分析工作的开展。完成数据整合后,就可以使用统计建模方法建立模型,用数据集进行训练,估计出模型参数。模型建立完成后,在模型投入使用之前还需要对其进行数据检验。最后,训练好的模型要接受新数据的检验, 这一阶段也叫模型评估,它可以用于决策、推荐,也可以通过新收集的数据重新估计参数更新模型

通过数据建模进行统计分析具有重要商业意义:用户行为数据是大数据中一种较为常见的类型,通过大数据技术可以对用户行为数据(例如商品购买记录, 网页访问记录等等)进行分析,从而挖掘出用户与商品之间的关联性,并以此推荐出用户喜爱的商品

大数据处理流程

大数据技术的主要流程可以分为

数据生成和获取 大数据来源多种多样,可以来自物联网、互联网、各类传感器等,同时数据的方式也是多种多样的(数字、文字、声音、图片、视频等),归纳起来其主要来源于三个方面

  • 自然界的大数据 机器与机器交互产生的数据,主要通过各类传感器采集
  • 生命和生物的大数据 主要是研究基因组学、蛋白组学、代谢组学等生物学数据
  • 社交大数据 主要来源于人类社会活动,而互联网通常为其载体
    目前大数据的主要研究对象集中在社交数据和自然数据,同时生命和生物的大数据对医学方面的贡献也不容小视

数据预处理 现实中收集到的真实数据通常都是不完整的脏数据,没有办法直接进行数据挖掘和处理,为了提高数据的质量,需要对采集到的原始数据进行预处理。数据预处理的内容主要有

  • 数据审核 主要审核数据的准确性、适用性、及时性、一致性
  • 数据筛选 对审核过程中发现的错误进行纠正的过程,通常包括剔除不符合要求的数据、筛选出符合条件的数据两方面内容
  • 数据排序 按照一定的顺序把数据进行排列,以便于研究者进一步观察和分析

数据预处理的主要方法

  • 数据清理 主要目的是格式标准化、清除异常数据、纠正错误
  • 数据集成 将多个数据源中的数据结合起来统一存储
  • 数据变换 利用规范化、平滑聚集、数据概化等方式将数据转变成有利于数据挖掘的形式
  • 数据规约 可以得到规约表,节省挖掘分析时间且仍然能保持数据的完整性

数据存储 传统的数据存储方式可以分为块存储、文件存储、对象存储,大数据的存储方式可以分为

  • 分布式系统 主要包含分布式文件系统HDFS--具有高度容错性,适用于批量处理并且能够提供高吞吐量的数据访问、分布式键值系统--可以用于存储关系比较简单的半结构化数据,其存储和管理的是对象而不是数据块
  • NoSQL数据库 由于关系数据库已经无法满足大量数据的管理需求,NoSQL可以存储超大规模的数据,具有较好的横向扩展能力
  • 云数据库 基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库

大数据存储技术路线包括

  • 分布式架构 包括Hadoop、MapReduce等,随着相关技术的不断进步,其应用场景也将逐步扩大
  • 大数据一体机 专门用于大数据分析处理而设计的软硬件结合的产品,具有良好的稳定性和纵向扩展性
  • MPP混合架构 重点面向行业大数据,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,具有高性能和高扩展性的特点

数据分析挖掘 从海量数据中提取出隐含其中的、具有潜在价值的信息,是统计学、人工智能、数据库技术的综合运用

大数据的计算分析框架主要包括

  • 批处理框架
  • 流处理框架
  • 交互式计算框架
  • 混合处理框架
  • 图数据处理框架

数据结果应用 大数据已被广泛认为是创造新价值的利器,具有无可估量的资源价值,推动各个领域的快速发展,例如医疗、教育、商业、工业、农业、智能电网、工业互联网、排水系统、智能交通等工业等领域

  • 医疗方面 通过采集和分析医疗机构产生的实验室记录、用药记录、手术记录、住院记录、急诊记录等各类大数据,总结出其隐含价值并应用在未来的医疗研究中
  • 商业领域 股票、保险、银行等行业仍离不开大数据的应用。通过大数据技术可以利用股票走势数据、保险报销人群数
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据系统及分析 的相关文章

随机推荐

  • osgEarth中opengl版本的确定

    osgEarth VirtualProgram if defined OSG GLES2 AVAILABLE define GLSL VERSION 100 define GLSL VERSION STR 100 define GLSL D
  • 聚类算法总结

    最近整理一下聚类相关的东西 数据说明 凸集 在欧氏空间中 凸集是对于集合内的每一对点 连接该对点的直线段上的每个点也在该集合内 非凸 non convex 数据 类比上述可知 距离 相似度 首先我们要了解衡量对象间差异的方法对象可能是一个值
  • 关于带MinGW版本的codeblocks

    MinGW就是Windows移植版的GCC编译器 Codeblocks是IDE 这个软件的特点是可以让你自由选择想要使用的编译器 Code Blocks是一个免费 开源 跨平台的C C IDE 支持Windows Linux MacOSX
  • Boost电路的结构及工作原理

    Boost电路定义 Boost升压电路的英文名称为 theboostconverter 或者叫 step upconverter 是一种开关直流升压电路 它能够将直流电变为另一固定电压或可调电压的直流电 也称为直流 直流变换器 DC DCC
  • COPU陆首群教授应邀在开放原子全球开源峰会上做主旨演讲

    各位领导 各位专家 同志们 朋友们 大家下午好 祝贺开放原子开源基金会首届全球开源峰会成功举办 1970年是为人们称道的UNIX元年 也是开源在全球诞生之日 开源在全球流行至今已有52年了 自从1991年我国引进UNIX现代计算系统以来 中
  • DS内排—直插排序

    目录 题目描述 思路分析 AC代码 题目描述 给定一组数据 使用直插排序完成数据的升序排序 程序要求 若使用C 只能include一个头文件iostream 若使用C语言只能include一个头文件stdio 程序中若include多过一个
  • 在java中重复一个字符串n次的几种方法

    方法一 String format 0 n d 0 replace 0 s 方法二 new String new char n replace 0 s 方法三 JAVA 8 String join Collections nCopies n
  • (三)Unity开发Vision Pro——入门

    3 入门 1 入门 本节涵盖了几个重要主题 可帮助您加快visionOS 平台开发速度 在这里 您将找到构建第一个 Unity PolySpatial XR 应用程序的分步指南的链接 以及 PolySpatial XR 开发时的一些开发最佳
  • 目标检测数据集PASCAL VOC笔记

    PASCAL VOC 数据集的应用领域有Object Classification Object Detection Object Segmentation Human Layout Action Classification等 它的常用版
  • Acwing 116. 飞行员兄弟

    枚举所有开关的状态 0 2 16 1 16位二进制数 若某一位为1表示按一下 为0表示不按 按照该方案 对所有灯泡进行操作 所在行 所在列全部按一下 判断灯泡是否全亮 如果全亮的话 记录方案 include
  • 美团客户端技术团队招人啦

    非广告哈 帮好友发一则招聘 美团客户端团队在北京招人了 性能优化 基础组件相关的岗位都有 在看机会的或者想了解一下的 都可以通过文章最后面的联系方式进行联系 或者私信我 我拉个群你们细聊 想必大家都看过美团技术团队的博客 美团技术团队 1
  • SQL中DML语句(数据操作语言)

    表示数据操作语言 凡是对表当中的数据进行增删改的都是DML 目录 insert 插入数据 update 修改数据 delete 删除数据 insert 插入数据 语法格式 insert into 表名 字段名1 字段名2 字段名3 valu
  • 如何用burpsuite进行攻击

    一 使用Burpsuite进行攻击 1 第一步打开burpsuite 2 第二部点击Repeater 3 第三步点击粉笔形状的按钮 4 输入要攻击目标的ip地址与端口号 5 添加攻击报文 进行攻击 6 查看响应结果 完整界面展示如下 注意
  • 今日头条2017校招(出题数目)

    题目描述 头条的2017校招开始了 为了这次校招 我们组织了一个规模宏大的出题团队 每个出题人都出了一些有趣的题目 而我们现在想把这些题目组合成若干场考试出来 在选题之前 我们对题目进行了盲审 并定出了每道题的难度系数 一场考试包含3道开放
  • 使用共享 MVI 架构实现高效的 Kotlin Multiplatform Mobile (KMM) 开发

    使用共享 MVI 架构实现高效的 Kotlin Multiplatform Mobile KMM 开发 文章中探讨了 Google 提供的应用架构指南在多平台上的实现 通过共享视图模型 View Models 和共享 UI 状态 UI St
  • Python3 面向对象

    文章目录 面向对象基础 类及类的定义 对象的创建 成员变量 定义格式一 常用 定义格式二 不常用 区别 成员方法 定义格式一 定义格式二 init 方法 str 方法 成员方法调成员 成员 方法 调成员 变量 成员 方法 调成员 方法 手机
  • 【WebSocket】WebSocket使用,看这篇就行

    一 WebSocket连接的建立 消息的接收和回复 当涉及到WebSocket框架的深度使用时 一个流行的选择是使用Java的Spring框架来实现 下面是一个基本的示例 演示了如何使用Spring WebSocket框架进行深度使用 首先
  • 经纬度绘图_Python气象绘图教程(七)——Cartopy

    Python地理信息库包 Cartopy 一 简介 在前面的教程中 我们已经讲解了常用的二维型数据的可视化方法 但是在日常研究中 由于大气科学属于地学系统 和地球地理信息的结合十分密切 大多数时间 需要在图形中添加地理信息 作为胶水语言 在
  • 第九章 numpy之线性代数+练习题

    线性代数 Numpy 定义了 matrix 类型 使用该 matrix 类型创建的是矩阵对象 它们的加减乘除运算缺省采用矩阵方式计算 因此用法和Matlab十分类似 但是由于 NumPy 中同时存在 ndarray 和 matrix 对象
  • 大数据系统及分析

    IDC将大数据技术定义为 为更经济地从高频率的 大容量的 不同结构和类型的数据中获取价值而设计的新一代架构和技术 大数据的关键在于种类繁多 数量庞大 使用传统的数据分析工具无法在可容忍的时间内处理相应的数据 大数据分析主要涉及两个不同的领域