数据仓库灵魂30问之如何建设数据中台?一幅图说清中台。

2023-11-12

什么是中台?

在这里插入图片描述

什么是数据中台

数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据如何安全的、快速的、最小权限的、且能够溯源的被探测和快速应用的问题。

数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建。

通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。

厚平台,大中台,小前台;没有基础厚实笨重的大数据平台,是不可能构建数据能力强大、功能强大的数据中台的;没有大数据中台,要迅速搭建小快灵的小前台也只是理想化的。

在这里插入图片描述

数据中台必须基于一个健壮的积累厚的平台,构建数据中台不像是技术中台那样涅槃重生,但是要求一个足够健壮的数据平台和一个可以容纳所有模型的数据仓库。
“我得把所有的数据都放进去,然后按照同一规格来处理”。

数据中台在资源中台与技术中台都打通后再建设更好,他们没有打通造成的数据孤岛是数据中台建设道路上的第一道坎。

数据中台更像是把数据平台的能力全部压榨出来,对外提供数据服务。
这就有点像技术平台了,把相同的服务都摊平了给电台调用。

初期:以部门为单位的IT建设

98年中国互联网诞生至今,已经20多年了,在最开始人们疯狂追求IT建设,遗留下了大量的CRM.OA.ERP.财务软件等等。

后来呢,需要信息共享了,那咱们就开接口呗。

SOA架构:突破信息孤岛,实现业务共享

假如我们公司内部有五个系统,每个系统都要与其他系统互联,那么就需要开放20个接口出来,那么系统的可维护性就大大减低了。
在这里插入图片描述

为了解决这种乱开接口的方式,就提出了SOA架构,使用一个中间系统连接五个系统。
在这里插入图片描述

互联网架构:高并发、高吞吐量

互联网时期的架构是用户通过互联网访问业务系统,业务系统与业务系统数据库集群进行沟通的架构。
在这里插入图片描述
从最开始的烟囱模型,慢慢的分库分表,分布式架构的替换,到最后的读写分离。

数据应用成熟度

  • 查询统计
    数据分散存储于各系统中,无质量管控,查询统计为主。
    在这里插入图片描述

  • 决策分析
    数据集中存储于数据仓库中,有质量管控,决策支持。
    在这里插入图片描述

  • 数据驱动
    以数据价值驱动,采集更多数据,构建数据中台。

  • 运营优化
    规范数据,规范数据应用,优化中台,形成应用闭环。

数据中台基本特征

  • 覆盖全域数据
    数据集中建设,覆盖所有业务过程,建立相互联系

  • 结构层次清晰
    纵向数据分层,横向主题域划分,涵盖业务全过程

  • 数据标准一致
    统一的命名、统一的业务含义、统一的计算口径

  • 降本提效
    统一建设,业务共享,统一规划,提升效率

数据中台的建设思路

  • 自顶而下
    清理数据资产
    规划数据架构
    挖掘数据价值
    思考要开展哪些数据业务
    分析这些业务需要哪些数据
    规划数据该如何采集与整理

自顶而下的建设思路的缺点在于这张饼摊的太大,有可能最开始就是几个表,摊到最后发现涉及多个系统,数十个库,近千张表,而且各方各面都要整理自己,肯定会有藏匿起来的犄角旮旯,造成的后果就是整理的不彻底。

  • 自下而上
    现有业务系统
    第一个主题域
    更多主题域
    数据集市
    数据质量/血缘管理
    数据分析与挖掘
    人工智能

自下而上的建设思路从业务系统出发,整理数据域,理清数据血缘关系来支持人工智能的研发。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据仓库灵魂30问之如何建设数据中台?一幅图说清中台。 的相关文章

  • ChatGPT 或其它 AI,能用在文书创作上吗?

    新的申请季已经正式开始 一些热门项目的ED截止日期也不再遥远 因此很多准留学生们都已经开始了关于文书的创作 而随着科技的不断发展 以ChatGPT为首的一众AI工具也作为一种辅助手段愈发融入了我们的生活 那么不免就会有一些同学在准备申请时
  • excel基本操作1

    excel隔行设置样式 条件格式 gt 条件规则 gt 输入公式 参考https jingyan baidu com article 36d6ed1f2379c35acf4883e0 html excel隔列取值 使用Index结合row和

随机推荐

  • 无线专题 osi模型、TCP/IP五层模型、网络编程(一)

    一 OSI介绍 1 OSI的来源 OSI Open System Interconnect 即开放式系统互联 一般都叫OSI参考模型 是ISO 国际标准化组织 组织在1985年研究的网络互连模型 ISO为了更好的使网络应用更为普及 推出了O
  • Kafka消费者详解

    一 Kafka消费者的消费模式 当生产者将消息发送到Kafka集群后 会转发给消费者进行消费 消息的消费模型有两种 推送模式 push 和拉取模式 pull 1 消息的推送模式 消息的推送模式需要记录消费者的消费状态 当把一条消息推送给消费
  • u盘刷新系统

    1 百度u盘制作将u盘进行刷成系统盘 点击添加系统 确认 关掉即可 到这里就制作完成了 u盘里也有系统了 下一步就是进入电脑的 bios 一般是f8 或者f2 或者esc 看你是什么电脑自己手机百度一下 当进入u盘系统时候会发现一键刷机工具
  • 【计算机网络】HTTP协议详解(八):HTTP网关

    HTTP网关 文章目录 HTTP网关 一 网关 Gateway 二 网关的分类 1 HTTP 服务器端网关 2 HTTP 客户端网关 3 HTTP HTTPS 服务器端安全网关 4 HTTPS HTTP 客户端安全加速器网关 5 资源网关
  • sshpass

    sshpass 安装 sshpass Linux 软件工具安装 源码安装 测试 sshpass 在使用 ssh scp 等命令进行远程操作的时候 必须手动输入密码 这就为自动化的执行造成困扰 sshpass 可以在命令行直接使用密码来进行远
  • Android Studio 常用快捷按键

    大小写转换 Cmd Shift U Ctrl Shift U 注释代码 Cmd Ctrl 注释代码 Cmd Option Ctrl Alt 格式化代码 Cmd Option L Ctrl Alt L 清除无效包引用 Option Contr
  • Python实现Mean Shift算法

    声明 代码的运行环境为Python3 Python3与Python2在一些细节上会有所不同 希望广大读者注意 本博客以代码为主 代码中会有详细的注释 相关文章将会发布在我的个人博客专栏 Python从入门到深度学习 欢迎大家关注 在K Me
  • 【PTA】 7-1 矩阵链相乘问题 (20 分)

    输入 5 30 35 15 5 10 20 输出 11875 代码 include
  • Python Numpy数组保存

    Numpy提供了几种数据保存的方法 以3 4数组a为例 1 a tofile filename bin 这种方法只能保存为二进制文件 且不能保存当前数据的行列信息 文件后缀不一定非要是bin 也可以为txt 但不影响保存格式 都是二进制 这
  • websocket没准备好如何解决_websocket没准备好点确定继续怎么解决,这事android? 爱问知识人...

    请采纳点赞 你可以把WebSocket看成是HTTP协议为了支持长连接所打的一个大补丁 它和HTTP有一些共性 是为了解决HTTP本身无法解决的某些问题而做出的一个改良设计 在以前HTTP协议中所谓的keep aliveconnection
  • RE整改实例——接口缝隙引起的EMC问题整改

    前言 背景 CT某一产品中的控制电路 在RE测试时候750MHz频点超过3dB 整改方法 经过近场测量分析 辐射来源于接口缝隙 经公式计算 750MHz频率引起的对应波长 0 4m 在EMC允许缝隙的长度选择中建议小于二十分之一波长 则 2
  • 只等你来!OpenAtom XuperChain 开发者夏季论坛来啦

    OpenAtom XuperChain 开源两周年之际 我们将于 6 月 25 日在上海浦东新区举办 OpenAtom XuperChain 开发者夏季论坛 特邀研究机构 企业等开源生态合作伙伴 共同探讨区块链技术发展路径和落地方向 本次论
  • solr6.6.0部署到tomcat

    准备工作 solr 6 6 0 apache tomcat 8 jdk1 8 0 131 部署 首先把solr 6 6 0 server solr webapp中的webapp目录拷贝到apache tomcat 8 5 15下的webap
  • 数据结构与算法-基础排序算法及TopK问题(Python)

    排序 基础排序算法 冒泡排序 选择排序 插入排序 归并排序 快速排序 经典问题 TopK 堆排序 快速排序 基础排序算法 如果在面试中遇到排序算法 先问清楚数据的特点 结合具体的业务场景 多和面试官交流 先陈述思路 得到面试官肯定以后再编码
  • Java8方法引用

    内容简介 方法引用Demo详解 通过5种语法使用方法引用 方法引用使用总结 1 在Java8中方法引用Demo详解 1 1 方法引用出现的背景 在使用Lambda表达式的时候 我们实际上传递进去的代码就是一种解决方案 拿什么参数做什么操作
  • Spring MVC中如何限制Controller为POST或GET方式接收参数呢?

    转自 Spring MVC中如何限制Controller为POST或GET方式接收参数呢 在Web页面开发中 最常用的接收参数值方式有 GET和POST方式 那么SpringMVC中如何定义参数的接收方式呢 实现思路 只需在注解的时 使用m
  • mark_as_advanced

    Mark cmake cached variables as advanced mark as advanced CLEAR FORCE VAR VAR2 Mark the named cached variables as advance
  • 什么是子查询?

    当一个查询结果是另一个查询的条件的时候 那么就称为子查询 子查询是在SQL语句内的另外一条SELECT语句 在SELECT INSERT UPDATE或DELETE命令中只要是表达式的地方都可以包含子查询 子查询甚至可以包含在另外一个子查询
  • 自动化测试-Appium-Desired Capabilities参数详解

    分类 定义与说明 General Capabilities 通用功能 Update settings Android Only UIAutomator 1 UIAutomator2 Only Espresso Only iOS Only i
  • 数据仓库灵魂30问之如何建设数据中台?一幅图说清中台。

    什么是中台 什么是数据中台 数据仓库实现了企业数据模型的构建 大数据平台解决了海量 实时数据的计算和存储问题 数据中台要解决什么呢 数据如何安全的 快速的 最小权限的 且能够溯源的被探测和快速应用的问题 数据中台不应该被过度的承载平台的计算