到底什么是数据架构,如何管理,谁来负责?

2023-05-16

理解概念是理解数据管理的第一步,很多概念我们知道,但内涵却不清楚,或者你以为清楚,这类澄清概念的文章可以很好的帮到你!

源于数据治理周周谈 ,作者徐康

随着数据治理工作的深入,数据标准的理念逐步为人所知、所识。但是,数据架构是什么,如何管理,谁来负责,还没有形成一致的共识。早前,在技术领域,系统架构、应用架构、信息架构相对为人了解,近年来一些企业级架构师也开始提出业务架构等概念。就数据架构而言,实践还呼唤一些理论的澄清,理论也亟需实践的反馈。

关于数据架构,本公号曾用“一句话”的方式来说明,包括提出数据架构管理是贯彻和维护数据治理的职能单元,和数据资产互为HOW和WHAT的关系。今天我们再谈数据架构,主要是想谈谈近期工作推进过程的当下,对于数据架构的新的理解和认识。

图片

图 1 企业架构划分

数据架构是什么?此前有多重解读和方案。但是随着业界理论体系的不断完善,以及企业级数据治理工作的不断深入,目前的领先企业、数据治理组织、甚至包括监管当局的理论准备工作已经逐步收敛到四个方向,即:

  • 数据资产目录

  • 数据标准

  • 数据模型

  • 数据分布

以上,可以称为数据架构体系的“四个基本内容”。而作为数据架构的制定、管理和维护者,企业的数据架构部门需承担对应的职责,具体而言应该包括:

  • 梳理企业的数据资产

  • 制定数据标准并持续维护

  • 建立数据模型,包括概念模型、逻辑模型和物理模型

  • 管控数据分布,包括数据源头和流向

这其中,数据模型是数据架构的重要抓手,也是数据架构管理体系构建的基础和连通其他架构管理措施的纽带。

表1 数据架构行业参考

图片

 

01 数据架构的管理价值

DAMA-DMBOK认为,数据架构是企业架构的一部分。从企业运作的角度来说,数据架构定义了企业运作过程中所涉及到的各类对象和其治理模式;从数据资产的角度来说,数据架构是管理数据资产的蓝图;从数据管理的角度来说,数据架构是企业各部门的共同语言,是数据管理的高层视角。

在企业管理中,往往会面临这样的问题,业务部门和技术部门在自说自话,对于同样的业务对象,我有我的话术,你有你的流程,大家隔着一层窗户纸,拖累了企业的运作效率,也削减了企业的数据竞争力。在业务战略和技术实现之间建立起一座畅通的桥梁,捅破这层窗户纸,是数据架构的本质目标,也是它的核心价值。成熟的数据架构,可以迅速地将企业的业务需求转换为数据和应用需求,能够管理复杂的数据和信息并传递至整个企业,在数据层面保证业务和技术的一致性,最终为企业改革、转型和提高适应性提供支撑。

02 数据架构四个基本内容的解析

DMBOK对于数据架构的阐述是抽象的、理论化的,是对全行业数字化转型的普适法则。在不同的语境下,对于数据架构应有不同的“解签”,这里不妨看看全国金融标准技术委员会的意见。在《金融数据能力建设指引》中,金标委认为数据架构应该包含元数据管理,建立创建、存储、整合和控制元数据的一系列流程;也包括构建数据模型,将业务经营、管理和决策中遇到的数据需求结构化;以及数据分布和数据集成,明确数据责任人、管控数据流、制定数据标准,达成组织内各系统各部门的数据互联互通。

华为等企业作为大数据时代的互联网行业先锋者,也对数据架构有自己的理解,但其范围也不会越出数据标准、数据流、数据建模等内容。我们更加关注的,是数据架构体系里各个组件的结构内容及其存在的意义,这里从数据架构的四个基本内容展开来说。

图片

图 2 数据架构的四个基本内容

1.数据资产目录

数据资产目录,也是企业的数据资产地图,是企业数据治理的指引。一般而言,数据资产目录可以分为五个层级:

  • 主题域分组

  • 主题域

  • 业务对象

  • 实体

  • 属性 

主题域和主题域分组用于描述企业数据管理的分类依据和集群边界。主题域是互不重叠的数据分类,管理一组密切相关的业务对象,通常同一主题域有相同的数据主人。主题域分组则是依据业务管理边界对于主题域的分组,是描述公司数据管理的顶级分类。

业务对象是数据架构的搭建的基石,是业务领域中重要的人、事、物在数据架构中的代理,数据架构建设和治理是围绕着业务对象和对象间的关系展开的,而实体则是描述业务对象在某方面特征的一类属性集合,而属性则用于描述业务对象在某方面的性质和特征。

数据架构的其他组件,无论是数据标准的制定,数据模型的建立还是数据分布的管控,无一不是建立在数据资产目录的基础之上的,并以其为中心和出发点。同时,数据资产目录是企业数据资产的宏观概述,确定了数据架构的外层边界和核心骨架。

2.数据标准

数据标准要求企业各部门、各群组使用统一化、标准化的语言描述数据,是实现企业数据一致性的关键。然而,对于传统的大型企业,例如数字化转型过程中的商业银行,实现数据标准统一绝非易事,它既要有面向未来的对象和属性的命名规范,也要有面对过去的留存数据的规划和既有逻辑的整合;它既要适应业务部门的工作习惯,也要符合技术部门的开发原则。在这样的语境下,数据标准并非孤立一体,而需要演变为渐进的、多面的体系,这个体系应该包括:

  • 业务术语

  • 数据标准

  • 数据字典

业务术语是有业务部门提出的、对于自身业务活动的提炼,最终形成的企业各部门认可的业务词汇。业务术语代表了数据标准的初级形式,通过标准编码、业务定义、分类分级和质量规范,业务术语得以升华为数据标准。在数据标准的基础上,技术部门为了对数据模型进行管控而产生了表结构和字段定义规范,即是所称的数据字典。

数据标准的统一对于数据架构的意义,不亚于语言的统一对于国家的意义。纵向上,数据标准消化了存量的历史数据,赋予他们以新的解读、应用和价值;横向上,数据标准沟通了部门内的条线和组织,也沟通了部门间的职能和团队,消解了由业务集群造成了数据跨集群的重复和歧义。数据标准的建设,让企业所容纳的数据真正成为了企业所拥有的资产。

3.数据模型

数据模型是最为外界所熟知的数据架构的组件,它是数据视角下对现实世界规则的抽象与概括,根据业务需求抽取信息的主要特征,反映业务对象之间的关联关系。从概念抽象,到物理固化,数据模型有三个阶段:

  • 概念模型

  • 逻辑模型

  • 物理模型

其中概念模型基于真实世界的关系语意,数据需求的提出者将所需的业务对象和业务流程表达厘清、简化和抽象,并表达为“实体-关系”(E-R)图,它的实现代表了自然语言的退场;逻辑模型则是技术侧对于概念模型的解读,数据逻辑在此时替代了实体关系;物理模型则是逻辑模型的落地,是对于真实数据库表的描述,包含了表、视图、字段、数据类型等等要素,物理模型的达成代表了业务流程与实体关系已经被固化为了数据库中的表关系,可以被使用、验证、加工和维护,自此完整的数据模型正式达成。

从某种意义上来说,数据模型是数据架构最重要的产出物,它完成了业务需求从自然语言到数据语言的转化。

4.数据分布

如果说数据架构的前三个组件是从静态角度对数据、数据关系进行了定义,那么数据分布则动态地定义了数据产生的源头和数据在各流程、各系统间的流动情况。管控数据的流动,需从三个方面入手:

第一是数据源头,物理上是数据源,主体上是数据主人,管理上是数据责任。数据源头需要把控数据质量,拥有源数据标准制定的权利,可以提请业务术语的新增、修订和废止,同时也是数据的责任主体;

第二是管控部门,管控部门是企业内的数据管理部门,承接自数据源头,传递到数据的消费者,是企业数据流的中间人。管控部门负责协调数据标准的制定,维护业务需求到数据实现的通路;

第三是管控流程,也就是控制数据的流向。已经建立标准、明确源头的数据需在企业各组织、部门间保持一致,数出同源;数据在生命周期中的流动路径、数据的取用须遵循数据安全的原则。

作为数据架构的最后一个部分,数据分布的意义在于使得已经被规整的企业数据真正被使用,表现出价值,同时也保证数据在使用过程中不变形、数据在生命周期中可以被维护。数据分布的加入,数据架构得以理论完备,并且有了“生命”。

03 数据架构的设计和管理

在拎清数据架构的组件之后,更加实际的问题是如何设计数据架构,实现理论的落地。无疑,数据架构的设计因行业而异,也因企业而异,但是也有一些共性和原则。总结而言无非是:面向业务对象进行架构设计,以及面向业务对象实现架构落地。

所谓面向业务对象进行架构设计,即是企业数据架构的设计应当以业务对象为基石,展现业务对象的属性特征,描摹业务对象间的关联关系。脱离业务对象的架构设计是无意义的,它因无法指导企业运作、无法辅助企业成长而失去了自身的意义。面对业务对象的架构设计,基点在于确定业务对象,参照的标准是:成为业务对象的实体须有唯一的标识信息、有属性描述、可实例化。

面向业务对象实现架构落地则是针对数据模型而言的,因为数据架构最为重要的交付产物就是数据模型。为了确保架构在落地过程中不变形,从数据模型的定义与结构来看,必须保证:其一,概念模型须与逻辑模型一致,这主要通过逻辑模型从数据实体出发而实现;其二,逻辑模型须与物理模型一致,这要求技术部门建模管理一体化,严格遵照逻辑模型的结构设计物理表。

04 结语

自此,我们完整阐述了数据架构的定义、作用、结构和方法论。随着企业数字化转型的风口愈演愈烈,云技术的成熟,以及一些头部公司企业级数据建设的成功,数据管理越来越成为各个行业企业管理的热门词汇,而不同企业对于数据管理、数据架构的认识也不尽相同。这篇文章,从数据架构的行业共识出发,到一个特定的、相对成熟完备的数据架构拆解,再到简谈数据架构的落地结尾,是希望从一定的高度展现数据架构的全貌和脉络,不仅说数据架构是什么,也说数据架构能做什么;不仅说数据架构的作用,也说达成目标的途径;这既是我们对于数据架构的理解,也可以成为企业团队构建数据架构时的一点方向和过程中的参照,其中更多的细节,值得我们在实践中不断思考和改进。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

到底什么是数据架构,如何管理,谁来负责? 的相关文章

  • Realsense D435i关闭IR结构光

    Realsense D435i 关闭IR光 前言环境一次性关闭IR光从源码修改 前言 由于要做Realsense D435i的双目结构光相机标定 xff0c 其中用到了ROS来录制数据包 xff0c 但是结构光会影响标定 xff0c 所以得
  • vins-mono保存、重载地图、evo工具测试

    vins mono保存 重载地图 evo工具测试 地图保存与加载先跑起来修改地图保存的路径保存地图重载地图 evo测评evo工具修改数据格式使用evo绘制轨迹与双目ORB SLAM2进行对比 下面咱们来对vins mono地图进行简单测试
  • C++11新特性简介

    目录 功能扩展与增强 右值概念 类中右值扩展 标准库中右值扩展 内联命名空间 初始化 initialzier list 原始字符串 自定义字面值 类型自动推导 auto decltype 常量表达式函数constexpr 变长模板 空指针n
  • Realsense D435i单目跑ORB_SLAM2(无ROS版)

    主要参考mono euroc这个文件修改 xff0c 把数据源改成realsense的就可以了 如何获取realsense数据 xff0c 在之前的博客也阐述过 Realsense D435i 43 Opencv 获取彩色 深度 IMU数据
  • QGC开发 显示双GPS/RTK信息以及自定义页面(ubuntu)

    一 QGC开发 显示双GPS RTK信息 1 在sitl中进行仿真 xff0c 虚拟出第二个GPS mavlink发送到地面站 如下图中 xff0c 在mavlink msg gps2 raw h中找到发送第二组gps rtk数据函数mav
  • 03_FreeRTOS 二进制信号量

    03 FreeRTOS 二进制信号量 本文介绍 xff1a 二进制信号量的使用方法 简介信号量 信号量基本上用于将任务与系统中的其他事件同步 在FreeRTOS中 xff0c 信号量是基于队列机制实现的 FreeRTOS中有4种信号量 xf
  • 【首发】 ubuntu20.04安装matlab2021b/matlab2020b

    文章目录 一 下载地址1 1 2021b下载链接 BT 1 2 2021a下载链接1 3 2020b CSDN下载链接 二 MATLAB2021b安装方法2 1 Mount iso文件2 2 通过 install 启动安装程序2 3 输入正
  • 无人机右手定则以及角度大小方向粗判断

    无人机右手定则 xff1a 左力右场 xff0c 知道z轴方向 xff0c 然后就知道了xy轴方向 xff0c 其中x轴为大拇指指向的方向 四旋翼无人机欧拉角角度大小与其状态的关系 xff1a 设大地坐标系为 xff1a E xff08 O
  • NuttX RTOS

    目录 综述 NuttX是什么 看看这些文件和功能 它怎么会是一个小小的操作系统呢 xff1f NuttX讨论组 你想谈谈NuttX的特性吗 xff1f 你需要帮助吗 xff1f 问题吗 错误吗 下载 我在哪里可以买到NuttX xff1f
  • Arducopter Yaw角分析

    Arducopter Yaw 现梳理一遍Poshold模式下的yaw的情况 xff1a 首先从 Copter fast loop gt update flight mode gt Copter ModePosHold run span cl
  • TortoiseGit

    TortoiseGit用法 ubuntu16 04 18 04部署gitlab服务器 xff1a https blog csdn net qq 28263253 article details 80469203 一 如何安装 xff1a 下
  • 如何生成gazebo仿真环境的二维地图真值

    在移动机器人仿真中 xff0c 二维地图真值可以用来评价slam建图结果 xff0c 也可以直接给路径规划算法提供输入 利用gazebo进行仿真时 xff0c 有很多方法都可以获取静态仿真环境的二维地图真值 xff0c 本文将对以下链接 x
  • gazebo仿真环境加载模型方式

    我们都知道 xff0c gazebo可以在自带的gui中创建模型 导入模型 xff0c 然后将一批模型组成的仿真环境保存为一个world文件 xff1a 例如上图所示的场景 xff0c 我们可以从模型库中导入一些模型 xff0c 然后或直接
  • libCurl实现HTTP请求

    目录 接口说明使用步骤setopt函数部分选项说明 示例写数据回调GET请求POST请求 libCurl是一个多协议 跨平台的客户端URL传输库 xff1b 使用libCurl可方便地进行HTTP请求 接口说明 libCurl提供easy
  • EKF SLAM学习笔记03

    3 EKF SLAM 在上一节中我们看到的是扩展卡尔曼滤波在定位中的应用 xff0c EKF同样可以应用于SLAM问题中 在定位问题中 xff0c 机器人接收到的观测值是其在二维空间中的x y位置 如果机器人接收到的是跟周围环境有关的信息
  • AirSim仿真IMU内参分析

    目录 IMU简介IMU随机误差a 高斯白噪声 xff1a b 零偏不稳定性 xff08 bias instability xff09 xff1a 如何获得IMU随机误差参数随机误差参数的离散化 AirSim中的IMU噪声参数IMU噪声参数在
  • Gazebo仿真加速的几种思路

    以下是一些关于如何加速gazebo仿真的话题 gazebo仿真提速 xff1a xff08 无gpu加速 xff09 论坛上的相关帖子 xff1a How can I speed up simulation in Gazebo 在不考虑用g
  • PNG平面图转gazebo world文件的程序

    1 代码来源 xff1a GitHub 20chase menge gazebo generator menge是进行人群动态模拟的仿真程序 xff0c 可以使用以上链接的文件生成外壳从png图片生成相应的gazebo world 2 使用
  • AirSim使用--vslam

    声明 xff1a 本文写于2020年7月 xff0c 只对当时的代码版本有效 0 下载zip 001 zip 002 zip 003等分卷文件时 xff0c 可以使用 xff1a ubuntu 如何解压 zip 001 zip 002 zi
  • Ubuntu 16.04 Kalibr安装使用

    1 安装前置时 xff0c python igraph失败 xff0c 已解决 根据以下链接 xff1a https github com ethz asl kalibr issues 82 安装python igraph Ok I sol

随机推荐

  • 正点原子MP157系统移植和根文件系统构建视频教程之uboot命令学习笔记

    本篇内容主要来自正点原子手册 正点原子 STM32MP1嵌入式Linux驱动开发指南V2 0 pdf 10 3 U Boot 命令使用 xff0c 视频是第6 1讲到第6 6讲 目录 1 下载第三方库 2 基础命令 2 1 修改环境命令 2
  • 岁月划过生命线(我的2013-大二.上)

    岁月划过生命线 大二 上 又一次大清早被红马甲查赶出被窝 xff0c 让哥光着屁股就跑到隔壁宿舍去了 xff0c 真心恨死他们 这是一篇最早写于 2013 11 26 日的日志 xff0c 通过后来不断地增删改 xff0c 来总结 xff0
  • MySQL学习笔记_9_MySQL高级操作(上)

    MySQL 高级操作 xff08 上 xff09 一 MySQL 表复制 create table t2 like t1 复制表结构 xff0c t2 可以学习到 t1 所有的表结构 insert into t2 select from t
  • MySQL学习笔记_10_MySQL高级操作(下)

    MySQL 高级操作 xff08 下 xff09 五 MySQL 预处理语句 1 设置预处理 stmt xff0c 传递一个数据作为 where 的判断条件 prepare stmt from select from table name
  • Python异常捕获与抛出以及With语句简介

    目录 捕获异常 抛出异常 预定义清理行为with 64 contextmanager 64 closing 常见异常 Python3使用try except else 来捕获异常 xff0c 且要求异常必须继承Exception 类 所有B
  • Linux下的tree命令 --Linux下目录树查看

    Linux下的tree命令 Linux下目录树查看 有时我们需要生成目录树结构 可以使用的有ls R 但是实际效果并不好 这时需要用到tree命令 但是大部分Linux系统是默认不安装该命令的 需要自己安装一下 tree的常见用法 tree
  • gcc学习(一)[第二版]

    gcc简介 1 gcc是GNU Compiler Collection的缩写 最初是作为C语言的编译器 xff08 GNU C Compiler xff09 作者为Richard Stallman xff0c 是GNU项目的奠基者 现在已经
  • Socket编程实践(9) --套接字IO超时设置方法

    引 超时设置3种方案 1 alarm超时设置方法 代码实现 这种方式较少用 void sigHandlerForSigAlrm int signo return signal SIGALRM sigHandlerForSigAlrm ala
  • 岁月划过生命线(从0到阿里)

    从来没有想到自己的求职之路会这么顺利 第一次投阿里就拿到了offer 以前一直都是做好被刷的准备的 3月31号晚上收到了来自阿里的正式offer 签下录取意向书 粗略算了一下 从2012年9月份正式入学进入计算机系到2015年3月签下阿里o
  • MyBatis 实践 -Mapper与DAO

    MyBatis 实践 标签 xff1a Java与存储 MyBatis简介 MyBatis前身是iBatis 是一个基于Java的数据持久层 对象关系映射 ORM 框架 MyBatis是对JDBC的封装 使开发人员只需关注SQL本身 而不需
  • Maven 核心原理

    Maven 核心原理 标签 xff1a Java基础 Maven 是每一位Java工程师每天都会接触的工具 但据我所知其实很多人对Maven理解的并不深 只把它当做一个依赖管理工具 下载依赖 打包 Maven很多核心的功能反而没用上 最近重
  • JVM初探 -JVM内存模型

    JVM初探 JVM内存模型 标签 xff1a JVM JVM是每个Java开发每天都会接触到的东西 其相关知识也应该是每个人都要深入了解的 但接触了很多人发现 或了解片面或知识体系陈旧 因此最近抽时间研读了几本评价较高的JVM入门书籍 算是
  • 岁月划过生命线(2016 年终总结 -季度之星)

    岁月划过生命线 2016 年终总结 季度之星 标签 xff1a coder 年假结束 明天就要回到杭州 回到我fighting的战场 回首过去的2016 放纵了许多 但也收获了很多 n个项目 n个框架 第一个季度之星 头像第一次登上CSDN
  • 备忘录模式

    备忘录模式 标签 xff1a Java与设计模式 备忘录模式 在不破坏封装性的前提下 捕获一个对象的内部状态 or 拷贝 并在该对象之外保存这个状态 这样以后就可 将该对象恢复到原先保存的状态 图片来源 设计模式 可复用面向对象软件的基础
  • 迭代器模式

    迭代器模式 标签 xff1a Java与设计模式 迭代器模式 提供一种方法顺序访问聚合对象 如List Set 内的每个元素 而又不暴露聚合对象的内部实现 图片来源 设计模式 可复用面向对象软件的基础 模式实现 Iterator amp A
  • Ubuntu 更换 apt 镜像源

    Ubuntu 更换 apt 镜像源 apt 是 Ubuntu 系的包管理工具 xff0c 一般默认使用 ubuntu 的官方源 http archive ubuntu com 在国内下载的速度慢到让人想砸电脑 xff0c 可以更换为国内的镜
  • 简洁的Java8

    简洁的Java8 Stream 标签 xff1a Java基础 再次回到阿里 感觉变化好大 一是服务资源Docker化 最牛逼的阿里DB团队竟然把DB放到了容器中 还放到了线上环境 二是全集团Java8 记得离开时还是1 6 1 5 甚至还
  • 学习信号量 sem_init、sem_destroy、sem_post、sem_wait、sem_trywait、sem_getvalue

    学习信号量 sem init sem destroy sem post sem wait sem trywait sem getvalue 概要 xff1a 1 信号量使用场合 2 POSIX标准定义的信号量 2 1 sem init se
  • Intel Realsense windows安装与入门

    realsense400系列介绍 xff1a https www intelrealsense com stereo depth utm source 61 intelcom website amp utm medium 61 button
  • 到底什么是数据架构,如何管理,谁来负责?

    理解概念是理解数据管理的第一步 xff0c 很多概念我们知道 xff0c 但内涵却不清楚 xff0c 或者你以为清楚 xff0c 这类澄清概念的文章可以很好的帮到你 xff01 源于数据治理周周谈 xff0c 作者徐康 随着数据治理工作的深