数据仓库主题三-(实施篇)

2023-11-16

背景:

如何从具体的需求或项目转换为可实施的解决方案,如何进行需求分析、架构设计、详细模型设计等,则是模型实施过程中讨论的内容。业界常用两种数据仓库建设模型思想分为两种kimball和inmon模型。(具体的kimball和inmon 模型思想可以自行百度理解)

在我们实践中也经常会用到数据仓库模型层次的划分,和kimball、Inmon的模型 实施理论有一定的相通性,但是不但不涉及具体的模型表达。

业务建模:生成业务模型,主要解决业务层面的分解和程序化。
领域建模:生成领域模型,主要是对业务模型进行抽象和处理,生成领域概念模型。
逻辑建模:生成逻辑模型,主要是将领域模型的概念实体化以及实体之间的关系进行数据库层次的逻辑 化
物理建模:生成物理模型,主要解决逻辑模型针对不同关系数据库的物理化以及性能等一些具体技术问题。

业界常用的模型实施过程

1、指导方针
首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和需求分析做的是否充分决定了数据仓库建设的是否成功。其次进行数据总统架构设计,主要是根据数据域对数据进行划分;按照维度建模的理论,构建总线矩阵、抽象出业务过程和维度。再次,对报表需求进行抽象整理相关指标体系,最后根据规范定义出数据模型。

2、具体模型实施流程参考下面流程逻辑
在这里插入图片描述
在建设数据域的划分过程中。如果业务相似、业务相关性比较大,进行统一集中建设。反之一般各个领域都会独自建立数据仓库。

例如在电商业务相关,我们不难发现几个不同业务线业务相关性比较大的:
在这里插入图片描述

具体实施详细步骤可以分为以下几步:
1、需求调研
可以想象一下,在没有考虑分析师、业务运营人员的数据需求的情况下,根据业务调研建设的数据仓库无疑等于闭 门造车。了解了业务统的业务后并不代表就可以进行实施了,此刻要做的就是收集数据使用
者的需求,可以去找分析师、业务运营人员了解他们有什么数据诉求,此时更多的就是报表需求。
需求调研的途径有两种: 是根据与分析师、业务运营人员的沟通(邮件、 IM )获知需求: 是对报表系统中现有的报表进行研究分析通过需求调研分析后,就清楚数据要做成什么样的。很多时候,都是由具体的数据需求驱动数据仓库团队去了解业务系统的业务数据,这两者并没有严格的先后顺序。
举例:分析师需要了解大淘宝(淘宝、天猫、天猫国际) 级类目的成交金额。当获取这个需求之后,我们要分析根据什么(维度)汇总,以及汇总什么度量。从这里可以明白的看出类目是维度,而金额是具体的度量; 明细数据和汇总数据应该怎样设计那? 这是一个公共的报表吗 ?需要沉淀到汇总表里面吗 ,还是在报表工具中进行汇总? 等。

2、数据域划分
数据域是指面向业务分析,将业务过程或者维度维度进行抽象的集合。业务过程可以概况为一个个不可拆分的行为事件。如下单、支付、退款。为保障整个体系 的生命力,数据域需要抽象提炼,并且长期维护和更新,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求。又能在新业务进入时无影响的被包含进已有的数据域中或者扩展新的数据域。

例子 :下面具体的将功能模块/业务线抽象为数据域的例子。。请自行理解其转化逻辑。
在这里插入图片描述
在这里插入图片描述
3、构建数据总线

在进行充分的业务调研和需求调研后,就要构建总线矩阵了。需要做两件事情 :明确每个数据域下面有哪些业务过程;业务过程与哪些维度相关。并定义每个数据域下的业务过程和维度。
在这里插入图片描述

4、规范定义:
规范定义主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。
参考:https://blog.csdn.net/weixin_40809627/article/details/107858726

5、模型设计:
模型设计主要包括维度级属性的规范定义,维表、明细事实表和汇总事实表的模型设计。(具体设计思想可以参考后续总接)

综述:
实施过程是一个高度迭代和动态的过程, 般采用螺旋式实施方法。在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审。在架构设计、规范定义和模型设计等模型实施过程中,都会引人评审机制,(多人评估消除孤岛问题)以确保模型实施过程的正确性。

注意:文章很多引用阿里设计思想多个资料如果版权问题。请及时告知

建模流程还可以参考(业务流程):https://mp.weixin.qq.com/s/A-dL-qJ7PCd1YBjwONby9w
建模流程(主题角度):https://mp.weixin.qq.com/s/Yla-7TmuH3M9UFCtX4T-3w

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据仓库主题三-(实施篇) 的相关文章

随机推荐

  • Ubuntu14.04下安装QT 5.6.3

    1 选择qt版本 镜像网址选择版本为5 6 3 http mirror bit edu cn qtproject official releases qt 2 进入到安装包所在的目录 如果安装包无法直接运行的话则执行以下命令 chmod x
  • 异步任务-springboot

    异步 异步与同步相对 当一个异步过程调用发出后 调用者在没有得到结果之前 就可以继续执行后续操作 也就是说无论异步方法执行代码需要多长时间 跟主线程没有任何影响 主线程可以继续向下执行 实例 在service中写一个hello方法 让它延迟
  • 安全转移C盘空间,比如 更改Unity中默认下载在C盘的Package的保存地址

    不同于 快捷方式 快捷方式本质是文件 后缀是link 记载路径信息 符号链接本质是引用 程序访问可直达目标路径 操作 首先在把C盘中的文件路径复制下来 粘贴到Link处 然后把C盘中的文件剪切到其他盘中 复制其他盘中该文件的路径 粘贴到Ta
  • VSCode 入门操作大全 + 实用插件推荐【零基础专属详细教程】

    前言 选择一个好的开发工具很重要 很多刚学编程的小伙伴在 webstorm 和 vscode 上很难抉择 我个人更喜欢使用 vscode 因为其有着简洁的操作风格和丰富的人性化的各种功能 这篇文章带给大家 vscode 的新手操作指南 大家
  • 论文笔记 Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo (ICML 2008)

    0 摘要 低秩矩阵逼近方法是协同过滤中最简单 最有效的方法之一 这类模型通常通过寻找模型参数的MAP估计来拟合数据 这一过程即使在非常大的数据集上也能有效地执行 然而 除非正则化参数被仔细地调整 否则这种方法很容易过度拟合 因为它找到了参数
  • 【满分】【华为OD机试真题2023 JS】投篮大赛

    华为OD机试真题 2023年度机试题库全覆盖 刷题指南点这里 投篮大赛 知识点字符串 时间限制 1s 空间限制 256MB 限定语言 不限 题目描述 你现在是一场采用特殊赛制投篮大赛的记录员 这场比赛由若干回合组成 过去几回合的得分可能会影
  • slf4j使用log4j的配置参数

    slf4j 即简单日志门面 Simple Logging Facade for Java 不是具体的日志解决方案 它只服务于各种各样的日志系统 按照官方的说法 SLF4J是一个用于日志系统的简单Facade 允许最终用户在部署其应用时使用其
  • 技术人员的发展之路

    程序算法与人生选择 我用算法来类比如何做选择 说白了就是怎么去计算 但是并没有讲程序员可以发展的方向有哪些 所以 就算是有这些所谓的方法论 我们可能对自己的发展还是会很纠结和无所事从 尤其是人到了30岁 这种彷徨和迷惑越来越重 虽然我之前也
  • 基础密码学知识和python pycrypto库的介绍使用

    一 密码学基础概念 1 密码 对文本进行编码 使偷窥者无法识别的算法 是一套编码方案 一种特殊的报文编码和相应的解码方式的结合体 加密之前的原始报文称为明文 使用密码之后的报文叫密文 一个简单的例子 这个例子是著名的三字符循环移位密码rot
  • 求你了,别再用 pip 那乌龟的速度去安装库了!

    前言 本文的文字及图片来源于网络 仅供学习 交流使用 不具有任何商业用途 如有问题请及时联系我们以作处理 PS 如有需要Python学习资料的小伙伴可以点击下方链接自行获取 python免费学习资料 代码以及交流解答点击即可加入 学习 Py
  • mysql pool-recycle_sqlalchemy错误记录

    错误类型 sqlalchemy exc OperationalError mysql connector errors OperationalError MySQL Connection not available 超过mysql连接池 尝
  • Rancher 资料收集

    1 是什么 Rancher 是一个全面的企业级容器管理平台 它可以让容器在各种基础设施平台的生产环境上部署和运行更容易 通过Rancher 企业再也不必自己使用一系列的开源软件去从头搭建容器服务平台 Rancher提供了在生产环境中使用的管
  • 批量添加-动态拼接字符串

    字符串拼接主要包括以下三类 第三种方法是今天的重点 Sring format StringBuilder Append 一 对于少量固定的字符串拼接 我们可以简单利用 string s a b c 这样写 系统或优化成如下代码 不会新建多个
  • Python 基于循环神经网络的情感分类系统设计与实现,附可视化界面.

    1 简介 循环神经网络是一种能够有效处理序列数据的深度学习模型 在情感分类任务中具有广泛的应用 因此开发环节采用了GRU框架作为循环神经网络的实现模型 开发完成的情感分类系统能够自动识别用户的留言情感分类 将留言有效区分为积极或消极 并且在
  • python操作excel文件的构建

    一 使用python构建txt文件 1 应用 做最大字符长度检验 需要构架一定数量的数据 如100 200 对象 open 文件名 打开方式 encoding utf 8 with open 文件名 打开方式 encoding utf 8
  • java -jar 远程调试_Java Remote Debug(idea远程调试)

    概述 对于分布式系统的调试不知道大家有什么好的方法 对于我来说 在知道远程调试这个方法之前就是在代码中打各种log 然后重新部署 上线 调试 这样比较费时 今天咱们来了解了解Java远程调试这个牛逼的功能 本文以Intellij IDEA为
  • 云计算与大数据- 云计算概览练习题及答案

    第1章 云计算概览习题 1 1 选择题 1 下列关于云计算的说法错误的是 D A 可以提供按需使用 按量计费的服务 B 可以满足用户的弹性使用需求 C 用户可以在任意时间和地点通过网络获取所需的资源 D 主要基于非虚拟化资源池 2 以下不属
  • jdbc编程六步

    1 加载驱动 2 获取连接 3 创建预编译对象 4 执行sql 5 处理结果集 6 释放资源
  • 蓝桥杯oj 算法训练 大小写转换

    算法训练 大小写转换 时间限制 1 0s 内存限制 512 0MB 锦囊1 锦囊2 锦囊3 问题描述 编写一个程序 输入一个字符串 长度不超过20 然后把这个字符串内的每一个字符进行大小写变换 即将大写字母变成小写 小写字母变成大写 然后把
  • 数据仓库主题三-(实施篇)

    背景 如何从具体的需求或项目转换为可实施的解决方案 如何进行需求分析 架构设计 详细模型设计等 则是模型实施过程中讨论的内容 业界常用两种数据仓库建设模型思想分为两种kimball和inmon模型 具体的kimball和inmon 模型思想