数据湖与数据仓库区别

2023-11-02

数据湖是近两年中比较新的技术在大数据领域中,对于一个真正的数据湖应该是什么样子,现在对数据湖认知还是处在探索的阶段,像现在代表的开源产品有iceberg、hudi、Delta Lake。

那对于数据湖应该是什么样子,先来看数据湖的作者AWS来说明数据湖是什么东西,比如下图:

不懂数据的人也许会觉得数据湖很厉害,而懂数据的人也许会觉得仅是一堆数据仓库技术的堆砌包装而已,你看上面那张框架图,哪个专业词汇数据人士会不懂?凭什么数据湖被炒作成了一个新概念?

而对于数据湖的定义则是:

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

那么数据湖和我们早先的数据仓库究竟有什么样的区别呢:

数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。

从介绍来看好像数据仓库和数据湖的最主要的区别就是对结构化的数据和非结构化数据的存储,但是真的仅仅是这样吗?

事实上,这种比较有较大逻辑漏洞:即是从结果出发来看差异,然后又用这个差异来说明区别,颠倒了因果。比如AWS的数据湖能够处理非结构化数据,而数据仓库无法处理非结构化数据,就认为这是数据湖与数据仓库的本质区别之一。

下面的文章中将来探索数据湖和数据仓库究竟有什么样的区别,学习一个新的事物要一步步的发现这个事物的本质是什么。

数据仓库和数据湖的处理流程可以用下图来示意,其中用红圈标出了5个对标的流程节点。

从图中可以看出来数据湖并不比数据仓库在处理流程上多出了什么内容,更多的在于结构性的变化,下面就从数据存储、模型设计、加工工具、开发人员和消费人员五个方面来进行比较。

(1)数据存储

数据仓库采集、处理过程中存储下来的数据一般是以结构化的形式存在的,即使原始数据是非结构化的,但这些非结构化数据也只是在源头暂存一下,它通过结构化数据的形式进入数据仓库,成了数据仓库的基本存储格式,这个跟数据仓库的模型(维度或关系建模)都是建立在关系型数据基础上的特点有关。

事实上,是传统的数据建模负担让数据仓库只处理结构化数据,其实谁都没规定过数据仓库只处理和存储结构化数据。

数据湖包罗万象,轻装上阵,结构化与非结构化数据都成为了数据湖本身的一部分,这体现了数据湖中“湖”这个概念。因为没有数据仓库建模的限制,当然什么东西都可以往里面扔,但这为其变成数据沼泽埋下了伏笔。

(2)模型设计

数据仓库中所有的Schema(比如表结构)都是预先设计并生成好的,数据仓库建设最重要的工作就是建模,其通过封装好的、稳定的模型对外提供有限的、标准化的数据服务,模型能否设计的高内聚、松耦合成了评估数据仓库好坏的一个标准,就好比数据中台非常强调数据服务的复用性一样。

你会发现,数据仓库很像数据领域的计划经济,所有的产品(模型)都是预先生成好的,模型可以变更,但相当缓慢。

数据湖的模型不是预先生成的,而是随着每个应用的需要即时设计生成的,其更像是市场经济的产物,牺牲了复用性却带来了灵活性,这也是为什么数据湖的应用更多强调探索分析的原因。

(3)加工工具

数据仓库的采集、处理工具一般是比较封闭的,很多采取代码的方式暴力实现,大多只向集中的专业开发人员开放,主要的目的是实现数据的统一采集和建模,它不为消费者(应用方)服务,也没这个必要。

数据湖的采集和处理工具是完全开放的,因为第(2)点提到过:数据湖的模型是由应用即席设计生成的,意味着应用必须具备针对数据湖数据的直接ETL能力和加工能力才能完成定制化模型的建设,否则就没有落地的可能,更无灵活性可言。

工具能否开放、体验是否足够好是数据湖能够成功的一个前提,显然传统数据仓库的一些采集和开发工具是不行的,它们往往不可能向普通大众开放。

(4)开发人员

数据仓库集中开发人员处理数据涵盖了数据采集、存储、加工等各个阶段,其不仅要管理数据流,也要打造工具流。

由于数据流最终要为应用服务,因此其特别关注数据模型的质量,而工具流只要具备基本的功能、满足性能要求就可以了,反正是数据仓库团队人员自己用,导致的后果是害苦了运营人员。

数据湖完全不一样,集中开发人员在数据流阶段只负责把原始数据扔到数据湖,更多的精力花在对工具流的改造上,因为这些工具是直接面向最终使用者的,假如不好用,数据湖就不能用了。

(5)应用人员

数据仓库对于应用人员暴露的所有东西就是建好的数据模型,应用方的所有角色只能在数据仓库限定好的数据模型范围内倒腾,这在一定程度上限制了应用方的创新能力。比如原始数据有个字段很有价值,但数据仓库集中开发人员却把它过滤了。

这种问题在数据仓库中很常见,很多取数人员只会取宽表,对于源端数据完全不清楚,所谓成也数据仓库,败也数据仓库。

数据湖的应用方则可以利用数据湖提供的工具流接触到最生鲜的原始数据,涵盖了从数据采集、抽取、存储、加工的各个阶段,其可以基于对业务的理解,压榨出原始数据的最大价值。

可以看到,数据仓库和数据湖,代表着两种数据处理模式和服务模式,是数据技术领域的一次轮回。

早在ORACLE的DBLINK时代,我们就有了第一代的数据湖,因为那个时候ORACLE一统天下,ORALCE的DBLINK让直接探索原始数据有了可能。

随着数据量的增长和数据类型的不断丰富,我们不得不搞出一种新的“数据库”来集成各种数据。

但那个时候搞出的为什么是数据仓库而不是数据湖呢?

主要还是应用驱动力的问题。

因为那个时候大家关注的是报表,而报表最核心的要求就是准确性和一致性,标准化、规范化的维度和关系建模正好适应了这一点,集中化的数据仓库支撑模式就是一种变相的计划经济。

随着大数据时代到来和数字化的发展,很多企业发现,原始数据的非结构化比例越来越高,前端应用响应的要求越来越高,海量数据挖掘的要求越来越对,报表取数已经满足不了数据驱动业务的要求了。

一方面企业需要深挖各种数据,从展示数据为主(报表)逐步向挖掘数据(探索预测)转变,另一方面企业也需要从按部就班的支撑模式向快速灵活的方向转变,要求数据仓库能够开放更多的灵活性给应用方,这个时候数据仓库就有点撑不住了。

数据湖就是在这种背景下诞生的。

其实早在数据湖出来之前,很多企业就在做类似数据湖的工作了,但是只不过大家更多的集中在数据仓库结构化的数据处理中,对于非结构化的数据日志等更多的则是将其存储起来,对于需要的时候再通过应用程序进行处理获取到自己想要的结果,只不过是没有系统化的处理而已。

ETL之所以不开放,主要是驱动力不够,其实我们没有那么多类型的数据要定制化抽取。

很多企业不搞可视化开发平台也是容易理解的,报表就能活得很好,干嘛业务人员要自己开发和挖掘。现在数据湖叫的欢的,大多是互联网公司,比如亚马逊,这是很正常的。

而最近比较新的概念湖仓一体,阿里提出的概念,下面这张图来看一下:

何谓湖仓一体?

  1. 湖仓一体是一种新的数据管理模式,将数据仓库和数据湖两者之间的差异进行融合,并将数据仓库构建在数据湖上,从而有效简化了企业数据的基础架构,提升数据存储弹性和质量的同时还能降低成本,减小数据冗余。

  2. 湖和仓的数据/元数据无缝打通,互相补充,数据仓库的模型反哺到数据湖(成为原始数据一部分),湖的结构化应用知识沉淀到数据仓库。

  3. 湖仓一体架构主要的一点是实现“湖里”和“仓里”的数据能够无缝打通,对数据仓库的弹性和数据湖的灵活性进行有效集成,在该架构中,主要将数据湖作为中央存储库,将机器学习、数据仓库、日志分析、大数据等技术进行整合,形成一套数据服务环,更好地分析、整合数据,让数据仓库和数据湖中的数据可以自由流动,用户可以更便捷地调取其中的数据,让数据“入湖”、“出湖”更为便捷。

  4. 湖仓一体化,是将数据仓库和数据湖的价值进行叠加,克服数据重力,让数据在服务之间流动起来,减少重复建设,让湖中的数据可以”流到“数据仓中,并能直接进行数据调用;而数据仓中的数据也可以保存于数据湖中,供未来数据挖掘使用。借助湖仓一体化,可快速处理数仓内的热数据与数据湖中的历史数据,并生成丰富的数据集,但无需在执行中做任何数据移动操作。

    那数据湖究竟应该是什么样子,需要在接下来的发展中获取到答案,但是以目前来看,典型的组织都需要数据仓库和数据湖,因为它们可满足不同的需求和使用诉求。所以数据湖和数据仓库的存在并不冲突,也并不是取代的关系,而是相互的融合关系。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据湖与数据仓库区别 的相关文章

  • mysql+关掉密码过期

    mysql 关掉密码过期 要在MySQL中关闭密码过期功能 可以按照以下步骤进行操作 登录到MySQL服务器 使用管理员账户 如root 连接到数据库 mysql uroot ppassword 运行以下命令来查看当前的密码过期设置 SHO
  • Redis Geo:掌握地理空间数据的艺术

    欢迎来到我的博客 代码的世界里 每一行都是一个故事 Redis Geo 掌握地理空间数据的艺术 前言 Redis Geo基本概念 Geo模块的目的 工作原理 地理坐标系统
  • 【计算机开题报告】家具销售库存管理信息系统

    一 选题的目的 意义及相关研究动态和自己的见解 随着当今社会信息化的发展 电子自动化办公越来越为各人所重视 它能有效地收集 处理各种信息 极大地提高了办事效率 而计算机技术各种软件工作平台不断的发展 又为电子自动化办公的实现提供了良好的前景
  • 如何处理不稳定的自动化测试?

    abluecolor 在解决这个问题之前 请停止编写更多测试 因为这将花费你较高的测试维护成本 你需要尽快行动起来对不稳定的原因进行深入研究 找到不稳定的根因 并且尝试在流程 环境和代码方面做一些优化工作解决它 MasterKindew 如
  • Qt源码分析:Qt程序是怎么运行起来的?

    一 从 exec 谈起 一个标准的Qt gui程序 在启动时我们会coding如下几行简洁的代码 include widget h include
  • 软件开发和网络安全哪个更好找工作?

    为什么今年应届毕业生找工作这么难 有时间去看看张雪峰今年为什么这么火就明白了 这么多年人才供给和需求错配的问题 在经济下行的今年 集中爆发 供给端 大学生越来越多 需求端 低端工作大家不愿去 高端岗位又太少 很多基础行业 比如机械 土木 所
  • 亚信安慧AntDB引领数字化转型:浙江移动成功实现CRM系统全域改造

    数字时代 通信运营商在不断迭代的背景下 需要不断探索数字化转型的路径 以适应快速发展的市场和技术环境 在这一浪潮中 浙江移动站在前沿 率先完成了其CRM系统的全域改造 采用了亚信安慧公司研发的AntDB数据库 为整个行业树立了数字化转型的标
  • 6 - 数据备份与恢复|innobackupex

    数据备份与恢复 innobackupex 数据备份与恢复 数据备份相关概念 物理备份与恢复 逻辑备份 推荐 使用binlog日志文件实现对数据的时时备份 使用日志 恢复数据
  • 【计算机毕业设计】病房管理系统

    当下 如果还依然使用纸质文档来记录并且管理相关信息 可能会出现很多问题 比如原始文件的丢失 因为采用纸质文档 很容易受潮或者怕火 不容易备份 需要花费大量的人员和资金来管理用纸质文档存储的信息 最重要的是数据出现问题寻找起来很麻烦 并且修改
  • Navicat 16 for MySQL:打造高效数据库开发管理工具

    随着数据的快速增长和复杂性的提升 数据库成为了现代应用开发中不可或缺的一部分 而在MySQL数据库领域 Navicat 16 for MySQL作为一款强大的数据库开发管理工具 正受到越来越多开发者的青睐 Navicat 16 for My
  • 【计算机毕业设计】校园体育赛事管理系统

    身处网络时代 随着网络系统体系发展的不断成熟和完善 人们的生活也随之发生了很大的变化 人们在追求较高物质生活的同时 也在想着如何使自身的精神内涵得到提升 而读书就是人们获得精神享受非常重要的途径 为了满足人们随时随地只要有网络就可以看书的要
  • 【计算机毕业设计】网上拍卖系统

    现代经济快节奏发展以及不断完善升级的信息化技术 让传统数据信息的管理升级为软件存储 归纳 集中处理数据信息的管理方式 本网上拍卖系统就是在这样的大环境下诞生 其可以帮助使用者在短时间内处理完毕庞大的数据信息 使用这种软件工具可以帮助管理人员
  • 通俗易懂,十分钟读懂DES,详解DES加密算法原理,DES攻击手段以及3DES原理

    文章目录 1 什么是DES 2 DES的基本概念 3 DES的加密流程 4 DES算法步骤详解 4 1 初始置换 Initial Permutation IP置换 4 2 加密轮次 4 3 F轮函数 4 3 1 拓展R到48位 4 3 2
  • 深入了解 Python MongoDB 操作:排序、删除、更新、结果限制全面解析

    Python MongoDB 排序 对结果进行排序 使用 sort 方法对结果进行升序或降序排序 sort 方法接受一个参数用于 字段名 一个参数用于 方向 升序是默认方向 示例 按名称按字母顺序对结果进行排序 import pymongo
  • 【计算机毕业设计】趵突泉景区的智慧导游小程序_5ztvv

    当今社会已经步入了科学技术进步和经济社会快速发展的新时期 国际信息和学术交流也不断加强 计算机技术对经济社会发展和人民生活改善的影响也日益突出 人类的生存和思考方式也产生了变化 传统趵突泉景区的智慧导游采取了人工的管理方法 但这种管理方法存
  • 【计算机毕业设计】白优校园社团网站的设计与实现

    近些年 随着中国经济发展 人民的生活质量逐渐提高 对网络的依赖性越来越高 通过网络处理的事务越来越多 随着白优校园社团网站的常态化 如果依然采用传统的管理方式 将会为工作人员带来庞大的工作量 这将是一个巨大考验 需要投入大量人力开展对社团
  • 【计算机毕业设计】宝鸡文理学院学生成绩动态追踪系统

    研究开发宝鸡文理学院学生成绩动态追踪系统的目的是让使用者可以更方便的将人 设备和场景更立体的连接在一起 能让用户以更科幻的方式使用产品 体验高科技时代带给人们的方便 同时也能让用户体会到与以往常规产品不同的体验风格 与安卓 iOS相比较起来
  • 做测试不会 SQL?超详细的 SQL 查询语法教程来啦!

    前言 作为一名测试工程师 工作中在对测试结果进行数据比对的时候 或多或少要和数据库打交道的 要和数据库打交道 那么一些常用的sql查询语法必须要掌握 最近有部分做测试小伙伴表示sql查询不太会 问我有没有sql查询语法这一块的文档可以学习
  • Redis分布式锁--java实现

    文章目录 Redis分布式锁 方案 SETNX EXPIRE 基本原理 比较好的实现 会产生四个问题 几种解决原子性的方案
  • Python 使用 NoSQL 数据库的优选方案

    NoSQL 数据库因其高性能 可扩展性和灵活性而风靡一时 然而 对于 Python 程序员而言 选择合适的 NoSQL 数据库可能会令人困惑 因为有多种选择可供选择 那么 哪种 NoSQL 数据库最适合 Python 呢 2 解决方案 根据

随机推荐

  • spring事务操作及mysql事务原理

    文章目录 1 事务概念 2 事务操作 搭建事务操作环境 3 事务操作 Spring事务管理介绍 4 事务操作 注解声明式事务管理 5 事务操作 声明式事务管理参数配置 6 事务操作 XML声明式事务管理 7 事务操作 完全注解声明式事务管理
  • 数据结构实验预习报告

    项目1 中国计算机设计大赛赛事统计 问题描述 参加计算机设计大赛的n个学校编号为1 n 赛事分成m个项目 项目的编号为1 m 比赛获奖按照得分降序 取前三名 写一个统计程序产生各种成绩单和得分报表 基本要求 1 每个比赛项目至少有10支参赛
  • mysql数据库表之间关系,一对一、一对多、多对多,多表查询

    多表查询分类 1内连接查询 加粗样式隐式内连接 SELECT t1 name t2 type from book t1 booktype t2 WHERE t1 type t2 tid 显示内连接 SELECT t1 namefrom bo
  • 魔方机器人之下位机编程-----两种串口通信方式的比较

    由于上位机软件的串口通信部分和魔方复原算法部分已经完成 接下来的一步就是如何将魔方复原的具体步骤 字符串的形式 通过串口发送给单片机MC9S12XS128单片机了 调试的过程中 采用了两种串口通信的方式 一种是查询的方式 另一种是中断的方式
  • Cargo更换国内源

    写个猜数字游戏 Rust 程序设计语言 简体中文版 按官网教程进行到引入 rand 0 8 3 后 进行cargo build后会很慢很慢且不稳定 随机更换源 本人MacOS 所以执行以下命令查看 cargo位置 echo HOME car
  • 使用 PCL 和 Python 进行三维点云边界提取

    使用 PCL 和 Python 进行三维点云边界提取 在三维点云处理中 边界提取是一个非常重要的技术 pclpy 是 PCL 的 Python 接口 它提供了一种简单方便的方式来实现三维点云边界提取 本文将介绍如何使用 pclpy 库实现三
  • Maven项目读取resources下文件

    网上有问答如下 问 new FileInputStream src main resources all properties new FileInputStream src main resources all properties 上面
  • 通过WSL2 Ubuntu18.04搭建CANN算子开发环境

    目录 通过WSL2 Ubuntu18 04搭建CANN算子开发环境 1 环境介绍 2 安装WSL2系统内核 2 1简易安装 2 2手动安装 3 安装系统依赖项 3 1替换软件源并进行升级 3 2安装CANN依赖项 4 安装CANN软件包 4
  • 【Git】git仓库的 .git 下各个目录注释

    解释 git 目录是Git版本控制系统的核心 它包含了Git所需要的所有信息 包括版本历史 分支 标签 配置等 下面是一些常见的 git 目录下的文件和目录的说明 HEAD 指向当前分支的最新提交 config 包含Git仓库的配置信息 d
  • 面试java计算机网络的知识点

    七层架构 物理层 数据链路层 网络层 传输层 会话层 表达层 应用层 第七层 应用层 提供为应用软件而设的接口 以设置与另一应用软件之间的通信 例如 HTTP HTTPS FTP TELNET SSH SMTP POP3等 第六层表达层 把
  • 柯理化、mergeOptions、new的实现原理、reduce、flat

    1 什么是反柯理化 怎么实现 反柯里化 是一个泛型化的过程 它使得被反柯里化的函数 可以接收更多参数 Function prototype unCurrying function var that this return function
  • 图像生成式大模型领域研究

    Stable Diffusion DragGAN DragDiffusion ControlNet
  • linux查看rsync状态显示失败,显示rsync的总进度:是否可以?

    在这里可能会有点晚 但是将来的求职者可能会受益 这也困扰着我 所以我想我会变得肮脏不堪 写我的第一个脚本 必须安装zenity软件包 sudo apt get install zenity 但我确定它可能已经存在 另外 我使用wmctrl
  • Ubuntu18中cuda11.6+cuDNN8.4.1+tensorRT8.4.3.1+opencv4.2.0配置(AirVO配置)(超详细)

    已有cuda11 4 eigen3 3 4 ros melodic ceres 1 14 boost 1 65 注意 我没有尝试过cuda11 4 cuDnn8 4 1 tensorRT8 4 3是否可以 但是根据cuda和cudnn的对应
  • MATLAB时间序列预测Prediction of time series with NAR neural network

    具体请参考 http lab fs uni lj si lasin wp IMIT files neural nn05 narnet 神经网络预测时间序列数据 有三种模型 这里是给出的是第二种NAR 即只有时间序列数据y t 没有x t 具
  • 基于python DFS 和 BFS吃豆人寻路实验 代码+报告

    完整代码 https download csdn net download weixin 55771290 87897245 一 实现 DFS 和 BFS 要优化之前首先要完成最基本的版本 因此首先完成了最基础的 dfs 和 bfs 的算法
  • 【Python学习实践教程】10个Python经典项目实战,练手必备

    这是本文的目录 前言 1 Python Hello World 实例 2 Python 数字求和 3 Python 平方根 4 Python 二次方程 5 Python 计算三角形的面积 6 Python 计算圆的面积 7 Python 随
  • like多个值_MySQL ---- 模糊查询 like和通配符 (七)

    like操作符 对于未知的进行搜索 结合通配符使用 通配符 wildcard 用来匹配值得一部分的特殊字符 搜索模式 search pattern 由字面值 统配符或两者组合的搜索模式 注意 1 通配符本身是SQL 的WHERE 子句有特殊
  • elementUi合并表格el-table第一列的相同内容的行

    如上图所示 路基包含水泥 砂石料 压实度 路床弯沉 钢筋接头这五行 所以我们要像ecxel表格一样合并路基这个单元格 具体按照以下来做 合并行 objectSpanMethod row column rowIndex columnIndex
  • 数据湖与数据仓库区别

    数据湖是近两年中比较新的技术在大数据领域中 对于一个真正的数据湖应该是什么样子 现在对数据湖认知还是处在探索的阶段 像现在代表的开源产品有iceberg hudi Delta Lake 那对于数据湖应该是什么样子 先来看数据湖的作者AWS来