对大数据的理解

2023-11-14

大数据几个不同的定义:

James Kobielus:大数据事实上是引用极限可扩展分析的概念,“极限可扩展分析”这个词在我看来是人们所说大数据的核心。在某种程度上,是可以用三个V来概括的:Volume,数据量,可以使TB可以是PB甚至更大;Velocity,数据流动速度,实时的获取、转换、查询与访问数据;Variety,数据的种类,包括各种结构化数据、非结构化数据以及半结构化数据。在分析方面,它是指所有能够挖掘并获取意义的数据集。

 

企业对数据仓库概念应如何理解?

Kobielus:我认为数据仓库能够通过三种方式来帮助企业处理好数据问题:第一、在一个企业数据仓库中,你按照主题领域来划分组织你的数据,而这些主题领域往往是比较稳定的,很长一段时间内都不会有任何改变,比如数据仓库架构中的OLAP cube,无论是物理上实现还是逻辑上的划分。换句话说,你的客户数据在一个分区里,财务数据在另一个,HR数据在第三个,以此类推。这样做的好处就是有利于你根据数据的关联性来匹配下游的应用和用户。这就是数据仓库数据库管理的核心所在,也是通过数据仓库来处理大数据的最重要的方式。

          第二种方式是数据库内分析的概念以及利用数据仓库执行数据剖析、数据清洗以及数据挖掘或者回归分析。换句话说,就是做全套的数据挖掘,但是是在数据仓库内部执行。这能够帮助你处理好数据,因为你使用数据挖掘或者回归分析来从根本上了解数据集模式。然后使用数据库内挖掘(in-database data mining)来填充下游的分析数据集市,数据挖掘和统计模型专业人士可以利用它将复杂的模式实现可视化。举例来说,他们使用那些模式来辨别潜在的大客户,这样可以有限将他们设定为销售的目标。使用数据库内分析以及像MapReduce这样的技术,可以在一个高并发高扩展的数据库架构内将数据挖掘自动化。

          第三就是将数据仓库作为数据治理的核心,主数据可以合理地在数据仓库中进行维护。当你的数据仓库作为数据治理与数据清洗的核心时,它能够帮助你搞清楚所有的信息。在整个企业架构中,也许会有成百上千个应用在向数据仓库中添加数据。数据就像洪水一般实时地流动,数据仓库就是其中的枢纽,确保大数据集可靠恰当地用在下游的消费当中。

 

数据库内分析技术

Kobielus:虽然不是所有人都会用到数据库内分析技术,但是我们可以看到越来越多的企业已经对它产生了浓厚的兴趣。如果你的数据挖掘规模很大,数据库内分析已经被视为是最佳实践。众所周知,目前大量实际生产中的数据仓库都是面向操作型商业智能的,它们更多的是在生产报表、执行即席查询(ad hoc query)等,很少进行数据挖掘。但随着数据量的增长,数据挖掘的必要性也就凸现出来,而数据库内分析的价值也将体现。利用这一技术的目标就是加速并扩展你的数据挖掘项目,同时根据一组通用的参考数据使所有的挖掘在数据仓库中保持一致。

 

Hadoop与大数据挑战

 Kobielus:如果你想要处理好大数据,你需要企业数据仓库和Hadoop的组合来完成。我不同意人们把Hadoop看作是处理大数据问题唯一的救命稻草。其实现在的企业数据仓库基本上已经能够做到Hadoop可以实现的任何功能。Hadoop同传统的企业数据仓库系统相比,优势就是开源,它是免费的,但是需要提醒企业用户不要忽视开源Hadoop的许多无形维护费用。可以说Hadoop是未来五到十年内下一代企业数据仓库发展的最大动力。

 

本文来源:CIO时代网

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

对大数据的理解 的相关文章

随机推荐

  • Guava并发:RateLimiter限制资源的并发访问线程数

    RateLimiter类似于JDK的信号量Semphore 他用来限制对资源并发访问的线程数 本文介绍RateLimiter使用 RateLimiter类似于JDK的信号量Semphore 他用来限制对资源并发访问的线程数 RateLimi
  • http://www.baidu.com/cb.php?,存在劫持风险的第三方JS地址

    存在劫持风险的第三方JS地址 发布日期 2019 10 11 https inxx in v20v2 e00555b779fe42a0 DRENBwgP gXHBv4 https inxx in v20v2 e029853ae5c3673b
  • Zotero如何更改字体大小

    1 左上角 编辑 首选项 2 高级 常规 设置编辑器 3 输入 fontSize 出现两个选项 上面那个是页面字体大小 下面那个是笔记字体大小 双击即可进行更改
  • c++避免头文件多次包含的方法

    c 避免头文件多次引用的方法 方法1 方法2 例子 头文件包含多次导致类重定义 使用方法1避免重复定义 使用方法2避免重复定义 方法1 把 pragma once指令放在文件的开头 方法2 用 ifndef 条件编译指令 ifndef GI
  • Sobel算子

    幻灯片1 Sobel算子 幻灯片2 一 Sobel边缘检测算子 l 在讨论边缘算子之前 首先给出一些术语的定义 l 1 边缘 灰度或结构等信息的突变处 边缘是一个区域的结束 也是另一个区域的开始 利用该特征可以分割图像 l 2 边缘点 图像
  • Mybatis基础支持层-反射模块:Reflector/Invoker/ReflectorFactory

    Mybatis基础支持层 反射模块 Reflector Invoker ReflectorFactory Mybatis三层架构 接口层 核心处理层 基础支持层 基础支持层 数据源模块 反射模块 缓存模块 日志模块 事务管理模块 Bindi
  • 无向图_深度优先遍历

    练习 输入边构成无向图 求以顶点0为起点的深度优先遍历序列 第一行为两个整数n e 表示图顶点数和边数 以下e行每行两个整数 表示一条边的起点 终点 保证不重复 不失败 1 n 20 0 e 190 有多组测试数据 Output 前面n行输
  • basedir="."表示当前路径,可以省略,在myeclipse中ant是可以调试的

  • 正则表达式-包含数字和字母的组合

    1 正则表达式 包含数字和字母的组合 A Za z d A Za z d 2正则表达式 包含数字和字母 且必须字母开头 必须数字结尾 a zA Z a zA Z 0 9 0 9
  • C++模板学习

    文章目录 1 C 模板 2 函数模板 Function templates 2 1 函数模板分类 3 类模板 Class templates 4 参考资料 1 C 模板 模板定义 模板是实现代码重用机制的一种工具 它可以实现类型参数化 即把
  • Unity中的几种坐标系

    在不同的情况下使用不同的坐标系更加方便 所以在Unity中有多种坐标系 全局坐标系 World Coordinate System 局部坐标系 Local Coordinate System 屏幕坐标系 Screen Space 视口坐标系
  • python私有属性供外界访问的三种方法(面向对象 封装)

    方法一 get set 方法 方法二 property方法 方法三 通过装饰器 property 1 在一个类中 写了 str self 方法和不写的区别 class User object def init self name age g
  • Apache下两个HttpClient的区(org.apache.commons.httpclient.HttpClient,org.apache.http.client.HttpClient)

    在我们使用java来模拟提交时经常会用到HttpClient类 但是会发现在Apache下有两个包下有此类 1 org apache commons httpclient HttpClient 2 org apache http clien
  • 数学图形之单叶双曲面

    双曲线绕其对称轴旋转而生成的曲面即为双曲面 在数学里 双曲面是一种二次曲面 其中单叶双曲面可以用公式表达为 x 2 a 2 y 2 b 2 z 2 c 2 1 在现实中 许多发电厂的冷却塔结构是单叶双曲面形状 由于单叶双曲面是一种双重直纹曲
  • java web——servlet+jsp实现前后台交互

    大学生涯终于结束 在公司学习了一段时间的java web方面的知识 结合自己之前的一些理解 想通过几篇文章来对我所接触到的java技术进行梳理与总结 也希望能给大家一些参考 由于作者水平有限 难免存在一些不足之处 希望能一起探讨 1 ser
  • 解决pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool

    解决pip vendor urllib3 exceptions ReadTimeoutError HTTPSConnectionPool host files pythonhosted org port 443 Read timed out
  • MySQL JSON数据类型

    一 JSON数据类型 JSON JavaScript Object Notation 主要用于互联网应用服务之间的数据交换 MySQL 支持JSON 对象和JSON 数组两种类型 JSON 类型是从 MySQL 5 7 版本开始支持的功能
  • Flutter点击事件实现

    GestureDetector 1 创建自定义button类 2 在其中使用GestureDetector并复写onTap回调 参考 https flutter io cookbook gestures handling taps impo
  • 家族企业的优势、劣势分析

    家族企业优势 1 创业时期 凭借家族成员之间特有的血缘关系 类似血缘关系 亲缘关系和相关的社会网络资源 以较低的成本迅速集聚人才 全情投入 团结奋斗 甚至可以不计报酬 能够在很短的一个时期内获得竞争优势 较快的完成原始资本的积累 2 反应迅
  • 对大数据的理解

    大数据几个不同的定义 James Kobielus 大数据事实上是引用极限可扩展分析的概念 极限可扩展分析 这个词在我看来是人们所说大数据的核心 在某种程度上 是可以用三个V来概括的 Volume 数据量 可以使TB可以是PB甚至更大 Ve