浅谈我所见识的数据治理项目

2023-11-19

fb1f295558a582764e3a00d58cef939b.jpeg

开篇一张图 与正文不一定有关 图片来源于朋友圈

01

写在前面

熟悉笔者的朋友可能知道,笔者之前做的并非纯数据相关工作(产品或项目),笔者属于半路出家的数据人,之前也几乎没有直接接触过数据仓库、数据中台、数据平台等产品或项目,与数据库是一直打交道。要说真正与数据结缘,那得从16年8月起说起,当时因公司某些产品基于传统关系型数据库与一些开源数据仓库产品(如InfoBright)跑一些功能遇到了瓶颈——实在是跑不动。

当年临时从外地出差项目组抽调回北京公司总部,从0基础开始研究开源Hadoop+Hive+Spark[-SQL]+ES集群环境的搭建,到与产品进行整合,最后就是用一些淘汰的PC服务器和精简的Hadoop相关套件搭建起集群解决了当时跑不了、跑不动、跑不完痛点,也算是小有成就。

期间,遇过不少难题,走过不少弯路,掉进过不少坑,感谢这次机会,让笔者与数据结缘,之后所做之事就没离开过数据,路虽难,行则至;事虽难,做则成!

02

现状描述

早些年的数据项目大多数是以“XXX数据质量校验”、“XXX数据分析平台”、“XXX大数据项目”等常见的名称进行立项,而近些年多以“XXX数据治理项目”进行立项,叫啥不重要,其实所做之事基本上与前面的差不多,无非就是数据采集、数据清洗、数据加工、数据质量、数据建模、数据挖掘、数据分析、数据共享、数据应用、数据展现(可视化、BI、报表、大屏),几乎都是短平快的项目,几乎也都是基于理想化的前提下进行项目实施,而最具价值的交付成果往往是“大屏”,其实项目目标也是实现了的,也算是MVP,但从长远角度考虑,还是远远不够的,后续可能会有很多推倒重来冲动,而又会顾虑前期的“工作成果”而不停妥协

be6866701c8577cf33662453fbcc3fcd.jpeg

图片来源于朋友圈

受限于资源与成本(预算),很难有精力去考虑或沉下心规划更高、更深层次的东西,诸如:数据管理战略、数据管理框架、数据管理文化、数据管理组织、数据生命周期,及元数据管理、主数据管理、参考数据管理、数据安全管理等……学过DAMA-DMBOK2知识体系的都知道,万变不离其宗,基本市面上绝大多数与数据治理相关的产品都是基于其知识体系所构思和设计研发的,但是上一套这类系统是否就能彻底解决数据治理相关的问题了呢?

3bf715563e398369b170bc1e5baee1d5.png

DAMA-DMBOK2数据管理框架(DAMA车轮图)

d9ce9cfe026174bafe7b56e33610a623.png

DAMA车轮图演变

或许大家都有思考,但是基本上思考这些问题的人往往只有IT部门+外包服务厂商的人员,业务部门的人员参与较少,也缺乏强有力的“一把手”牵头,部门墙、数据孤岛、数据烟囱该存在还是存在。

03

现状问题

一、从数据来源方面看

有数据标准却很难执行,无数据标准则更是头疼

大部分数据来源于外部(下级机构、平行部门、其他第三方),源头不可控,源头数据质量很难提前预判

二、从数据处理方面看

缺乏数据处理基准、标准、原则和流程,摸着石头过河,偶尔搬起石头手滑也会砸到自己脚,这些都是常态

数据处理过程中,通常很难提前知道数据质量的问题,大部分是做一点冒一点,发现一个反馈一个,发现问题的反馈路径和流程过于繁琐,或上游也很难在短期内改正,甚至改不了。

三、从数据使用方面看

按照既定需求提供的数据并不能达到预期的使用效果,不是数不对,就是数不准,问题根源很难找到并解决。

下游用数需求无法很好的确认,有的需求变更或新增需求的提出,现有数据无法满足,需要从多方源头重新找数。

四、从其他方面看

时间紧,任务重,相关方支持配合不到位脏活累活很难被认可,能很快看到漂亮的成果(大屏),但很难看到漂亮的结果(数据)。

工欲善其事必先利其器,而“器”不光指“工具”或“系统”,笔者认为,数据治理类项目,人最为重要

04

解决思路

在笔者所处角色来看,以上很多问题是一个死结,一己之力根本解不开,但笔者坚信,随着时间的沉淀,一定会有转变的,数据治理的项目也会越来越“好做”。

化繁为简,一开始不用投入那么多人员,而是组建一个小团队,先把数据一点一点梳理清楚、探查明白,而不是学着别人先做什么组织上的变革,成立什么委员会、办公室等新组织,大家都很忙,这种事情根本不现实。

实在不行,咱也学学别人,立个纯咨询项目,专业的事情交给专业的人去折腾,那么问题来了,外来的和尚真的更会念经?

从源头抓起,有很多工作根本不需要通过数据治理工作去解决,绝大多数问题都是上游系统的设计不合理或BUG造成,如果是内部数据,可以尝试从上游系统开始下手,该改设计改设计,该修BUG修BUG,总比在数据治理过程中处理要靠谱,治标不治本,成倍耗成本,毕竟上游系统肯定需要一直用,有问题也得改,倒不如前人栽树后人乘凉,都是自己人,遇事好商量。

05

写在最后

都说数据治理项目是“一把手工程”,是“永不交钥匙工程”,一把手真的比门把手都忙,先想想:

咱真的需要进行数据治理吗?

见过一些系统,还没设计/开发呢,就要求出具针对该系统的数据治理方案,前瞻性有必要这么前瞻吗?咱好好开发系统,后面直接来个简单的数据抽取入仓进湖不是更好吗?非得经过复杂的ETL过程才显得数据更具价值?

咱该如何做好这类产品呢?

咱该如何做好这类咨询项目呢?

咱该如何做好这类实施项目呢?

……

咱先到这。

由于笔者能力与时间有限,先留下一些问题大家一起交流探讨一下,相信家家有本难念的经,咱们一起西行取经

感谢大家阅读至此,欢迎大家转发分享并评论区留言讨论,同时恳请各位朋友斧正

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

浅谈我所见识的数据治理项目 的相关文章

  • 如何成为一名数据科学家:必须掌握的技能和知识

    1 背景介绍 数据科学家是一种新兴的职业 它结合了计算机科学 统计学 数学和领域知识等多个领域的知识和技能 以解决实际问题 数据科学家的主要任务是收集 清洗 分析和解释大量数据 从中挖掘有价值的信息和知识 并将其应用于决策和预测 数据科学家
  • spark相关

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 前言 一 pandas是什么 二 使用步骤 1 引入库 2 读入数据 总结 前言 提示 这里可以添加本文要记录的大概内容 例如 随着人工智能的不断发展 机器学习这门
  • 智能时代:自然语言生成SQL与知识图谱问答实战

    语义解析 前言 语义解析的应用场景 总结概论 语义解析和大模型的关系 延伸阅读 前言 语义解析技术可以提高人机交互的效率和准确性 在自然语言处理 数据分析 智能客服 智能家居等领域都有广泛的应用前景 特别是在大数据时代 语义解析能够帮助企业
  • 如何利用CHAT做简单的总结体会?

    问CHAT 在测试过程中使用appium python自动化的优点和体会 CHAT回复 使用 Appium 配合 Python 进行自动化测试主要有以下几点优点 1 跨平台性 Appium 支持 iOS 和 Android 平台的应用自动化
  • 【计算机毕业设计】病房管理系统

    当下 如果还依然使用纸质文档来记录并且管理相关信息 可能会出现很多问题 比如原始文件的丢失 因为采用纸质文档 很容易受潮或者怕火 不容易备份 需要花费大量的人员和资金来管理用纸质文档存储的信息 最重要的是数据出现问题寻找起来很麻烦 并且修改
  • 【计算机毕业设计】个人日常事务管理系统

    进入21世纪网络和计算机得到了飞速发展 并和生活进行了紧密的结合 目前 网络的运行速度以达到了千兆 覆盖范围更是深入到生活中的角角落落 这就促使 管理系统的发展 管理系统可以实现远程处理事务 远程工作信息和随时追踪工作的状态 网上管理系统给
  • 【计算机毕业设计】Java图书馆智能选座系统

    现代经济快节奏发展以及不断完善升级的信息化技术 让传统数据信息的管理升级为软件存储 归纳 集中处理数据信息的管理方式 本图书馆智能选座系统就是在这样的大环境下诞生 其可以帮助使用者在短时间内处理完毕庞大的数据信息 使用这种软件工具可以帮助管
  • 38条Web测试经验分享

    1 页面链接检查 每一个链接是否都有对应的页面 并且页面之间切换正确 可以使用一些工具 如LinkBotPro File AIDCS HTML Link Validater Xenu等工具 LinkBotPro不支持中文 中文字符显示为乱码
  • 软件测试|SQLAlchemy环境安装与基础使用

    简介 SQLAlchemy 是一个强大的 Python 库 用于与关系型数据库进行交互 它提供了高度抽象的对象关系映射 ORM 工具 允许使用 Python 对象来操作数据库 而不必编写原生SQL查询 本文将介绍如何安装 SQLAlchem
  • 电商数据api拼多多接口获取商品实时数据价格比价api代码演示案例

    拼多多商品详情接口 接口接入入口 它的主要功能是允许卖家从自己的系统中快速获取商品详细信息 通过这个接口 卖家可以提取到商品的各类数据 包括但不限于商品标题 价格 优惠价 收藏数 下单人数 月销售量等 此外 还可以获取到商品的SKU图 详情
  • C# 介绍、应用领域、入门、语法、输出和注释详解

    什么是 C C 发音为 C Sharp 是一种由 Microsoft 创建的面向对象的编程语言 运行在 NET Framework 上 源于 C 家族 与流行的语言如 C 和 Java 相近 首个版本发布于 2002 年 而最新版本 C 1
  • 【计算机毕业设计】OA公文发文管理系统_xtv98

    近年来 人们的生活方式以网络为主题不断进化 OA公文发文管理就是其中的一部分 现在 无论是大型的还是小型的网站 都随处可见 不知不觉中已经成为我们生活中不可或缺的存在 随着社会的发展 除了对系统的需求外 我们还要促进经济发展 提高工作效率
  • 数据库 | 面试官:一次到底插入多少条数据合适啊?.....面试连环炮

    数据库 面试官 一次到底插入多少条数据合适啊 面试连环炮 数据库插入操作的基础知识 插入数据是数据库操作中的基础 但是 我们程序员将面临随之而来的问题 如何快速有效地插入数据 并保持数据库 性能 当你向数据库中插入数据时 这些数据直接存储到
  • 30天精通Nodejs--第二十天:express-操作mysql

    目录 前言 安装依赖并配置MySQL连接 安装mysql2库 配置连接信息 在Express应用中使用MySQL 结合Express路由实现CRUD操作 整合到主应用 结语 前言 在Node js中使用Expre
  • CorelDRAW2024官方中文版重磅发布更新

    35年专注于矢量设计始于1988年并不断推陈出新 致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长 在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
  • 使用企业订货软件的担忧与考虑|网上APP订货系统

    使用企业订货软件的担忧与考虑 网上APP订货系统 网上订货系统担心出现的问题 1 如果在订货系统中定错 多 货物了该怎么办 其实这也是很多人在网购或者是现实中经常会犯的一个错误 但是网上订货平台为大家提供了很多的解决方案 其中对于订单的修改
  • 温室气体排放更敏感的模型(即更高的平衡气候敏感性(ECS))在数年到数十年时间尺度上也具有更高的温度变化(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Python代码 数据
  • C# Break 和 Continue 语句以及数组详解

    C Break 它被用于 跳出 switch 语句 break 语句也可用于跳出循环 以下示例在 i 等于 4 时跳出循环 示例 for int i 0 i lt 10 i if i 4 break Console WriteLine i
  • 光波导结构

    摘要 增强现实和混合现实 AR MR 领域的新应用引起了人们对带有光栅区域的光波导系统的越来越多的关注 这些光波导系统用于输入和输出耦合以及扩瞳目的 VirtualLab Fusion为这类系统的仿真和设计提供了几个强大的工具 其中一个是具
  • 2023下半年软考「单独划线」合格标准公布

    中国计算机技术职业资格网发布了 关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告 2023下半年软考单独划线地区合格标准各科目均为42分 01 官方通告 关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告

随机推荐

  • 数据操作之-dataframe常见操作:取行、列、切片、统计特征值

    import numpy as np import pandas as pd from pandas import from numpy import data DataFrame np arange 16 reshape 4 4 inde
  • Spring Boot 学习研究笔记(十八) 添加log4j2日志文件

    Spring Boot 添加log4j2日志文件 对于一个线上程序或者服务而言 重要的是要有日志输出 这样才能方便运维 而日志的输出需要有一定的规划 如日志命名 日志大小 日志分割的文件个数等 在SpringBoot的框架下 会使用log4
  • 栈头文件C语言

    Stack ADT h 栈模型头文件 数据类型定义 typedef char Name typedef struct stack node Name name struct stack node next Stack Node typede
  • GD32450i-EVAL学习笔记 6 - ADC

    目录 1 初始化ADC 1 1 使能RCU 1 2 设置频率 1 3 设置分辨率 1 4 设置数据对齐方式 1 5 使能扫描模式 1 6 设置触发模式 1 6 使能ADC 2 初始化通道规则 3 通道使能 4 软件触发使能 5 获取ADC的
  • C#List类容输出

    将集合中的类容 添加间隔符号后 输出为string List
  • vue之babel自动埋点

    公司项目是vue单页面技术 这天组长对我说 为了凸显我们的作用 做点外行或者新手看起来高深的东西 例如自动埋点 当时我的表情先是 然后摸鱼摸习惯了 就是这种状态 最后组长说领导的态度决定我们的绩效 没办法 为了money 无奈打开了老朋友
  • nacos集群部署遇到的问题总结

    问题一 内存不足 问题描述 nacos is starting with cluster Error occurred during initialization of VM Could not reserve enough space f
  • Eclipse android apk打包

    Eclipse android 开发更改apk名字 有以下几步 第一步 修改工程包名 在eclipse里 找到项目包和java包 原则上都一样 就可以按 F2 修改名字 随之 源 java也会得到相应的修改 然而每个 java文件都需要把如
  • Fortify 代码扫描安装使用教程

    前言 Fortify 能够提供静态和动态应用程序安全测试技术 以及运行时应用程序监控和保护功能 为实现高效安全监测 Fortify具有源代码安全分析 可精准定位漏洞产生的路径 以及具有1分钟1万行的扫描速度 Fortify SCA 支持丰富
  • 现在投资创客教育

    很多人会问创客要不要投资 就像吃西红柿鸡蛋面要不要用刀叉一样 你当然可以用 也可以用筷子 格物斯坦表示如果没有筷子 喜欢用手抓着吃也是可以的啊 投资人是路径的一种 不是唯一 更不是全部 投资创客教育是教育培训行业比较热门的话题 该行业未来是
  • Python基础语法学习之变量与赋值

    近几年Python飞速发展 开始学习Python的人群不在仅仅局限于编程开发者 许多其他行业的从业者也开始将Python作为自己的职业技能 本文仍然是针对零基础的初学者 继续学习Python的基础语法 变量与赋值 主要内容包括变量和赋值的概
  • el-checkbox-group限制勾选数量

  • 代理模式:静态代理和动态代理

    代理模式 代理对象增强对目标对象的功能 分类 静态代理 动态代理 jdk代理通过实现接口 cglib通过实现类实现 静态代理 JDK动态代理 CGLIB代理模式 通过回调拦截器方法实现代理对象的生成
  • 【计算机视觉】直接线性变换(DLT)求解P矩阵(2 使用SVD分解)(附MATLAB代码)

    引言 之前的帖子已经完成了一种计算直接线性变换的方法 是直接通过矩阵运算来进行的 不过随后得到的结果并不能满足精度要求 如果只是用来作为迭代优化的一个初值的话 对于精度的要求倒也不用那么高 但在查阅资料时又发现了另一种解法 是通过SVD分解
  • DataFrame对象创建

    文章目录 前言 一 创建DataFrame对象 二 使用步骤 前言 一 创建DataFrame对象 示例 将字典 年龄 23 22 21 岗位 客服 运营 公关 年购买量 10 15 8 转换成一个DataFrame对象 二 使用步骤 代码
  • 搭建主数据管理平台,解决多个系统数据不统一的问题

    如今的电子产业环境要求电子制造商必须能对产业中的各种变化做出迅速的反应 而这些变化产生了前所未有的大量数据 包括来自产品类别增加 供应中断和需求波动以及其它因素等多方面的数据 这些数据以多种格式存在于各种系统之中 虽然 企业为管理它们花费了
  • FastAPI准备之pydantic类型检查工具

    官方文档 https pydantic docs helpmanual io 这些组织都在用 Jupyter notebook FastAPI Amazon Web Services Uber Microsoft 优势 可以和IDE结合 可
  • hbase与spark笔试题(选择题)

    转自 https www cnblogs com cxzdy p 5388451 html http www bigdatastudy net show aspx id 175 cid 14 一 HBASE笔试题 HBase来源于哪篇博文
  • CVS命令深入研究 zz

    CVS命令深入研究 作者 leizhimin 日期 2006 11 2 环境 Windows server 2003 sp1简体中文版 cvsnt 2 5 03 2260 msi 目录 一 CVS命令整体结构 二 CVS帮助察看方法概述 三
  • 浅谈我所见识的数据治理项目

    开篇一张图 与正文不一定有关 图片来源于朋友圈 01 写在前面 熟悉笔者的朋友可能知道 笔者之前做的并非纯数据相关工作 产品或项目 笔者属于半路出家的数据人 之前也几乎没有直接接触过数据仓库 数据中台 数据平台等产品或项目 与数据库是一直打
Powered by Hwhale