数据集市的概念

2023-10-31

目录

一、数据集市简介

1.1、数据集市与数据仓库

​二、数据集市的类型

2.1. 依赖数据仓库

2.2. 独立数据集市

2.3. 混合数据集市

三、数据集市的特点

四、实施数据集市的步骤


一、数据集市简介

数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数据集市,本质是用来满足特定部门或者用户的需求,按照多维的方式进行存储。通过对相似数据业务场景内聚进行抽象分类,以降低ADS层重复建设和数据管理复杂度,让应用研发更聚焦更高效。

1.1、数据集市与数据仓库

数据仓库是一个包含来自多个主题流的数据集合的仓库。数据仓库也称为中央或企业数据仓库。因此,在某些情况下,数据仓库的来源将是多个,而数据集市是数据仓库的一个子集

带有数据集市的数据仓储结构:

在数据结构上,数据仓库是面向主题的、集成的数据的集合。而数据集市通常被定义为星型结构或者雪花型数据结构,数据集市一般是由一张事实表和几张维表组成的。

二、数据集市的类型

2.1. 依赖数据仓库

依赖数据集市纯粹来自数据仓库,所有分组的依赖将形成企业数据仓库。它纯粹是数据仓库的一个子集,因为它是从中央 DW 创建的。

2.2. 独立数据集市

这不是从中央数据仓库创建的,其来源可能不同。大多数独立数据集市被较小的组织使用,其来源也有限。当我们需要在相对较短的时间内获得解决方案时,通常会创建独立数据集市。

2.3. 混合数据集市

混合数据集市将允许您将来自中央数据仓库 DW 以外的所有其他来源的数据分组

三、数据集市的特点

以下是一些功能:

  • 由于数据源集中于主体,因此通过使用它可以提高用户响应时间。对于经常需要的数据,使用数据集市将是有益的,因为它是中央 DW 的子集,因此数据大小会更小
  • 由于数据量有限,与中央 Dws 相比,处理时间将大大减少
  • 与数据仓库相比,可以非常快速有效地适应模型中的变化

四、实施数据集市的步骤

设计

这将是实施的第一步,其中确定了收集技术和业务信息所需的所有任务和来源。稍后实施逻辑计划,经过审查,这将转换为物理计划。此外,这里决定了数据的逻辑和物理结构,例如如何分区数据和分区字段,如日期或任何其他文件。

集市划分的原则有以下两点:

原则一:以业务场景或者服务对象作为划分原则,对相似数据业务场景内聚抽象进行分类。

原则二:集市划分需要统一标准,尽量符合MECE原则。

施工
这是实施的第二个阶段,在 RDBMS 的帮助下生成物理数据库,被确定为设计过程和逻辑结构的一部分。创建所有对象,如schema、索引、表、视图等

填充
这是第三阶段,这里在获取数据时将数据填充到其中。所有必需的转换都在填充数据之前实现。

访问
这是实施的下一步,我们将使用填充的数据进行查询以创建报告。最终用户使用此步骤来了解使用查询的数据。

管理
这是数据集市实施的最后阶段,这里处理各种任务,例如访问管理、系统优化以及调整、管理和向数据集市添加新数据以及规划恢复场景以处理任何故障情况

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据集市的概念 的相关文章

  • Teradata 数据库介绍

    author skate time 2010 03 11 Teradata 数据库介绍 Teradata在整体上是按Shared Nothing 架构体系进行组织的 他的定位就是大型数据仓库系统 定位比较高 他的软硬件都是NCR自己的 其他
  • 计量模型、实证stata代码合集,附顶刊示例

    超强整理 计量实证常用代码合集 1 指标说明 包含以下资料 中介效应 三步回归 Sobel检验 Bootstrap自抽样检验 Heckman两阶段回归结果 分组回归 组间系数检验 工具变量回归模型 2SLS模型 调节效应 包含画图分析 中位
  • Oracle性能调整的误区

    共享服务器模式 MTS 集群技术 Clustering RAC 分区 并行处理 主要是并行查询 Oracle提供的这些特性确实是用来进行性能改善的 但我们往往忽略了对自身应用特性的分析 它们是否适合于我们 最近 通过对这方面知识的深入了解
  • bigdata1234.cn 大数据开发基础课堂测试

    数据容量单位 1 byte 8 bits 1 kilobyte KB 1024 bytes 1 megabyte MB 1024 KB 1 gigabyte GB 1024 MB 1 terabyte TB 1024 GB 1 petaby
  • 详解用户画像

    01画像简介 用户画像 即用户信息标签化 通过收集用户的社会属性 消费习惯 偏好特征等各个维度的数据 进而对用户或者产品特征属性进行刻画 并对这些特征进行分析 统计 挖掘潜在价值信息 从而抽象出用户的信息全貌 如图1 1所示 用户画像可看作
  • 2023企业级数仓建设概要

    一 前言 1 1 背景 无忧搬家数据以前很多都是数仓同学从业务库负责接入数据至ods层 然后就由各个下游分析师取ods贴源层数据然后进行取数计算分析 数仓这边缺乏沉淀公共层数据 从而有以下问题 直接从ods贴源层取数据 业务研发侧一改造则下
  • hive 计算日新、日活、更新历史表、用户留存

    创建日活记录表 linux gt vi user dau txt 1 zhansan 2023 02 10 2 lisi 2023 02 10 3 wangwu 2023 02 10 4 xiaohong 2023 02 10 5 aaa
  • 学习阿里如何进行数据指标体系的治理

    想必做数据的同学对One Data都有所耳闻 但One Data 体系具体包含了内容 有怎样的应用 不知道大家是否了解 今天我们详细分享一下One Data体系中关于数据治理相关的内容 One Data整体概述 首先 我们看看One Dat
  • Flink CDC(2.0) 如何加速海量数据的实时集成?

    原文 Flink CDC 如何加速海量数据的实时集成 知乎 导读 Flink CDC如何解决海量数据集成的痛点 如何加速海量数据处理 Flink CDC社区如何运营 如何参与社区贡献 今天的介绍会围绕下面四点展开 Flink CDC 技术
  • 两款免费、好用的数据库连接工具

    一 Navicate Navicat是一套快速 可靠的数据库管理工具 专为简化数据库的管理及降低系统管理成本而设 它的设计符合数据库管理员 开发人员及中小企业的需要 Navicat 是以直觉化的图形用户界面而建的 让你可以以安全并且简单的方
  • Hive【Hive(一)DDL】

    前置准备 需要启动 Hadoop 集群 因为我们 Hive 是在 Hadoop 集群之上运行的 从DataGrip 或者其他外部终端连接 Hive 需要先打开 Hive 的 metastore 进程和 hiveserver2 进程 meta
  • Hive中如何定位数据倾斜

    1 概述 在hive中执行sql任务时 当任务在reduce阶段一直卡在99 时 很有可能出现了数据倾斜 这个时候如果我们 的sql很长 需要判断出是哪段sql导致的数据倾斜 才便于我们解决问题 2 定位数据倾斜 下面以一条sql为例子 记
  • 数据仓库-日期维度表的设计与实现

    时间维度表的制作 1 需求背景 在大数据分析模块中 我们需要从不同的维度分析主题表 包括常用的公用维度 时间维 地区维度 教育信息维 以及各种各样的业务维度 员工维度 部门维度 业务维度就是我们从哪些角度去分析业务过程 本文就是做一张常用时
  • neo4j start error:系统找不到指定的路径。 Unable to create logger at ‘‘

    项目场景 Neo4j 4 3 3 community windows 这是代码文件 启动时需要进入文件夹下的bin目录 输入neo4j start 然后转入http localhost 7474 出现可供使用的图形界面 此时如果在当前目录下
  • LMDI(对数平均迪氏指数法)模型

    LMDI 对数平均迪氏指数法 模型 含stata代码以及计算参考文献 1 数据来源 见对应参考文献 2 时间跨度 无 3 区域范围 全国 4 指标说明 分享文件里面包括stata的程序文件 ado pkg sthlp 案例数据 中文的使用文
  • 数据挖掘知识点总结

    1 数据挖掘产生的背景 驱动力是什么 四种主要技术激发了人们对数据挖掘技术的开发 应用和研究的兴趣 超大规模数据库的出现 如商业数据仓库和计算机自动收集数据记录手段的普及 先进的计算机技术 如更快和更大的计算能力和并行体系结构 对海量数据的
  • 浅谈我所见识的数据治理项目

    开篇一张图 与正文不一定有关 图片来源于朋友圈 01 写在前面 熟悉笔者的朋友可能知道 笔者之前做的并非纯数据相关工作 产品或项目 笔者属于半路出家的数据人 之前也几乎没有直接接触过数据仓库 数据中台 数据平台等产品或项目 与数据库是一直打
  • 数据ETL面临的问题----数据缺失

    数据缺失的类型有 完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的 随机缺失 Missing at Random MAR 数据的缺失不是完全随机的 数据的缺失只依
  • 头歌—Hive的安装与配置

    第1关 Hive的安装与配置 在修改 conf 下面的 hive site xml 文件这里 题目给的信息是错误的 正确的内容如下
  • 解决 Hive 外部表分隔符问题的实用指南

    简介 在使用 Hive 外部表时 分隔符设置不当可能导致数据导入和查询过程中的问题 本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤 问题描述 在使用Hive外部表时 可能会遇到分隔符问题 这主要是因为Hive在读取数据时

随机推荐

  • word2vec和常见CNN+RNN网格结构组成的文本分类模型

    作者为了应付毕业 所以在补充深度学习相关知识 这是我尝试把word2vec和深度学习相互结合的一次记录 数据集来源 数据集预处理 生成word2vec模型 搭建网络并且训练 数据集来源 本文的数据集源自kaggle比赛中的NLP入门比赛 灾
  • S3C2416 SD卡启动和NAND启动的配置

    S3C2416的启动方式分为IROM NAND ONENAND ROM三种模式 有的datasheet上只有IROM ONENAND ROM两种模式 如下图所示 图1 图2 图2应该是早期三星的2416手册 图1为之后再次更新的 所以这里以
  • R语言实验课(生信)(附代码)

    实验五 题目1 解决方法 a lt read table E R Rcode temp txt 读取txt文件 找到下载路径 b lt list c lt list d lt list e lt list h lt matrix 0 5 1
  • 云风的新书电子版出来的真快

    云风大侠新书出来没几天 电子版就出来了 电骡上好像很早就有下载的了 不过我认为电子版不会影响销售的 只会聚集更多的人气 我这里也有个链接 ftp pub pub ftp PicDisk net pub Scan 游戏之旅 我的编程感悟 pd
  • 关于2022年9月以太坊合并你需要知道的10件事

    关于2022年9月以太坊合并你需要知道的10件事 1 什么是合并 合并是以太坊区块链将共识机制从工作量证明 pow 转为权益证明 pos 的事件 是以太坊主网与信标链 beacon chain 合并的简称 2 为什么 合并 这么值得关注 在
  • MicroBlaze系列教程(5):AXI_UART16550的使用

    文章目录 toc AXI UART16550简介 MicroBlaze硬件配置 常用函数 使用示例 参考资料 工程下载 本文是Xilinx MicroBlaze系列教程的第5篇文章 AXI UART16550简介 axi uart16550
  • MockMvc

    MockMvc classes SpringbootApplication class 指定入口启动类 webEnvironment SpringBootTest webEnvironment RANDOM PORT采用随机端口启动 不会产
  • MMU的作用及工作过程

    以下内容摘自 步步惊芯 软核处理器内部设计分析 一书的第10章 MMU剖析 MMU的作用及工作过程 MMU Memory Management Unit 是内存管理单元的简称 读者朋友在学习嵌入式的时候应该听说过 CLinux 这是适合没有
  • Android自动化测试框架

    1 Monkeyrunner 优点 操作最为简单 可以录制测试脚本 可视化操作 缺点 主要生成坐标的自动化操作 移植性不强 功能最为局限 2 Rubotium 主要针对某一个APK进行自动化测试 APK可以有源码 也可以没有源码 功能强大
  • ug装配绕轴旋转_UG绘制一个灯泡,这个白炽灯大家都熟悉吧

    灯泡三维建模你会吗 今天来学习一下吧 白炽灯是一种热辐射光源 能量的转换效率很低 只有2 4 的电能转换为眼睛能够感受到的光 虽然现在是普遍选用日光灯 但在10多年前 白炽灯还是使用最广泛的 今天就来用UG画个白炽灯怀念下吧 这个灯泡看看起
  • 计算机网络基础--互联网组成

    目录 互联网的边缘部分 通信方式 C S方式 通信方式 P2P方式 互联网的核心部分 电路交换 分组交换 报文交换 三种交换比较 互联网这个词想必对于大家来说已经不陌生了 那么你能说出互联网是由什么组成的吗 既然要步入互联网行业 那就应该知
  • 基于flowplayer的视频缩略图的视频预览

    大家在平时观看视频的视频网站中 比如优酷 爱奇艺 腾讯视频等 鼠标移动至播放条区域的时候 大家可以看到会弹出小的视频预览图片 这样子就可以给用户很好体验 至少可以知道前后播放的内容 最近公司业务需要 就不得不研究了 本文将从三个方面进行总结
  • 【OpenCV实战】这是我看过最详细的计算机视觉小项目,基于OpenCV进行长时间曝光,学到了~(赶紧收藏)

    前言 在本文中 我们将学习长时间曝光摄影技术 以及如何使用Python和OpenCV 开源计算机视 觉库 对其进行仿真 作者 程序员梨子 文章源码免费获取 为了感谢每一个关注我的小可爱 每篇文章的项目源码都是无偿分享滴 点下面找我获取完整资
  • matlab @函数_用MATLAB绘制正弦函数的图形

    用MATLAB正确地绘制正弦函数的图形 从中你会发现许多技术细节问题 一些抽象的理论问题 你可以在实践中得以启发 close all clear n 64 x 0 2 pi n 2 pi x x 1 n y sin x figure ste
  • Fastjson1.2.24-RCE 漏洞复现(CVE-2017-18349)

    0x01 漏洞简介 fastjson是阿里巴巴的开源JSON解析库 它可以解析JSON格式的字符串 支持将Java Bean序列化为JSON字符串 也可以从JSON字符串反序列化到JavaBean 即fastjson的主要功能就是将Java
  • 若依Vue(若依前后端分离版)--01

    该文章整理于网络 仅用于学习记录 如有侵权 请联系删除 介绍 RuoYi Vue 是一个 Java EE 企业级快速开发平台 基于经典技术组合 Spring Boot Spring Security MyBatis Jwt Vue 内置模块
  • 谷歌云

    本文由Cloud Ace整理发布 Cloud Ace是谷歌云全球战略合作伙伴 拥有 300 多名工程师 也是谷歌最高级别合作伙伴 多次获得 Google Cloud 合作伙伴奖 作为谷歌托管服务商 我们提供谷歌云 谷歌地图 谷歌办公套件 谷
  • git分支回滚

    查看变更日志 git log 本地强制切换到该版本 git reset hard 297fe962d73db278c254ef0f7dce67d888deadef 强制提交同步远程 git push f origin dev mm 2022
  • Mac 11 + Typora + Picgo-core + Gitee 配置自动图片上传

    Typora 是个很方便的编辑器 但是插入图片的时候默认是本地 不方便迁移分享 如果插入的图片能够自动 上云 也就是给图片一个公网可查询的链接 那么 markdown 文档迁移分享就不怕丢失图片了 为了网络等方便 我选 Gitee 其他云仓
  • 数据集市的概念

    目录 一 数据集市简介 1 1 数据集市与数据仓库 二 数据集市的类型 2 1 依赖数据仓库 2 2 独立数据集市 2 3 混合数据集市 三 数据集市的特点 四 实施数据集市的步骤 一 数据集市简介 数据集市就是企业级数据仓库的一个子集 它