数据治理-数据质量-数据质量管理方法和工具

2023-11-18

常用质量管理工具

        目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具、新的质量管理工具和其他质量管理工具。

  1. 传统的质量管理七大工具

         传统的七种工具包含分层法、检查表、帕累托图、因果分析图、直方图、散布图、控制图。

  • 分层法:又称层别法、分类法、分组法,是整理数据的重要方法之一,分层法是把收集来的原始数据按照一定的目的和要求加以分类整理,以便进行比较分析的一种方法,应用于大数据质量管理中,可以进行有目的的分类管理,以达到进一步了解整体数据特征的状况
  • 检查表:又称调查表、核对表、统计分析表。检查表是用来系统地收集资料、确认事实并对资料进行粗略整理和分析的图表,应用于大数据质量管理中,可以用于大数据收集、汇总完整性、正确性的分析检查,了解大数据的初步质量。
  • 帕累托图:又称排列图、主次图。帕累托图是依据质量改进项的重要程度,从高到低进行排列而采用的一种简单图示技术,在大数据质量管理中,可以应用于影响大数据的主要因素、主要问题的排列,识别数据质量改进等。
  • 因果分析图:又称石川图、鱼骨图、特色要因图、树枝图等。因果分析图的以结果为特征,以原因作为因素,在它们之间用箭头联系起来,表示因果关系的图形。因果分析图能简明、准确表示事物的因果关系,进而识别和发现问题的原因和改进方向,应用于大数据质量管理中,可以应用于大数据质量管理的问题分析,找到造成问题发生的原因,这种处理问题的方法时一种系统分析方法。
  • 直方图:又称频数直方图。直方图是将数据按其顺序分成若干间隔相等的组,以组距为底边,以落入各组的频数为高的若干长方形排列的图,应用于大数据质量管理中,以应用于大数据质量特征值分布状态的了解,是否是标准的正态分布,关键问题是如何合理分组。
  • 散布图:又称散点图、相关图。散步图是描述两个因素之间关系的图形,用于说明两因素是否相关和相关关系的强弱。应用于大数据质量管理中,可以应用于大数据的分析研究,分析大数据不同维度变量的关系,是否具有相关性,并根据相关性进行预测分析。
  • 过程控制图SPC:又称管理图、休哈特图。过程控制图是区分过程中的异常波动和正常波动,并判断过程是否处于控制状态的一种工具,应用于大数据质量管理中,可以应用于大数据特征的时间轴变化状态,来了解大数据特征的变化趋势和上下范围。
  1. 新的质量管理七大工具

        质量管理七种工具包含关联图、亲和图、系统图、矩阵图、矩阵数据分析法、PDPC法和网络图

  • 关联图:是对原因-结果、目的-手段等关系复杂而相互纠缠的问题的表述,在逻辑上用箭头把各要素之间的因果关系连接起来,从而找出主要因素的方法。
  • 亲和图:是指把收集到大量的各种数据、资料,按照其之间的亲和性归纳整理,使问题明朗化,从而有利于问题解决的一种方法,应用于大数据质量管理中,可以应用于大数据研究,而归纳整理收集到的意见、观点和想法等资料,利于大数据研究分析,由于收集意见需要时间,不适用解决紧急问题。
  • 系统图:是表示某个质量问题与其他组成要素之间的关系,从而明确问题的重点,寻求达到目的所应采取的最适当的手段和措施的一种树枝状示图。系统图也是一种倒立树状逻辑因果关系图,应用于大数据质量管理中,可以应用于大数据研究方法工作的开展,为达到研究目的,找到适合的方法,不断分解明确工作中的角色指责。
  • 矩阵图:是从作为问题的事项中找出成对因素群,分别排成行和列,在其交点上表示成对因素间相关程度的图形。矩阵图法是通过多元思考明确问题的方法,应用于大数据质量管理中,可以应用于大数据研究分析,不同因素的关系,来确定研究的方向和方法。
  • 矩阵数据分析法:是当矩阵图上各要素之间的关系能够定量表示时,通过计算来分析、整理数据的方法。主要是数量化方法和主成分析法等方法的具体应用,它属于数学上的多元化分析方法,应用于大数据质量管理中,可以应用于大数据研究分析,不同定量因素的关系,来确定研究的方向和方法。
  • 过程决策程序图:是指为实现某一目的进行多方案设计,以应对实施过程中产生的各种变化的一种计划方法,应用于大数据质量管理中,可以应用于大数据研究计划的制定,在不同场景和变化中,模拟分析可能的结果,来确定实施的计划。
  • 矢线图:是一种利用网络技术来制定最佳日程计划并有效管理实施进度的一种方法,应用与大数据质量管理中,可应用于大数据研究计划的制定,找到影响计划的关键路径,来确定切实可行的计划安排。
  1. 质量管理其他的工具

        质量管理其他的工具是数据流程图、头脑风暴法、智能设备校准等。

  • 数据流图 :是将根据数据的移动方向,从数据采集到数据迁移,加工
  • 使用和销毁全生命周期中关键点连接在一起,图中同时标出各点数据的形式的一种图示技术,应用于大数据质量管理中,可以应用于大数据质量管理工作方法的积累,不断优化大数据质量管理工作,提升效率和效果
  • 头脑风暴法 : 是指采用会议的形式,引导每个参加会议的人围绕某个中心议题,充分解放思想,激发灵感,在自己头脑中掀起风暴,毫无顾忌、畅所欲言地发表独立见解的一种集体创造思维的方法,应用于大数据质量管理中,可以应用于大数据研究工作中
  • 智能设备校准:主要是应用于数据采集设备主要应用于大数据的自动采集,是大数据质量管理的前端,也是大数据质量的重要因素

数据质量辅助工具

        在数据质量管理方面,还有一些常用的数据质量辅助工具,主要是为数据质量管理过程提供自动化和管理支持。需要明确的是,自动化的工具并不能确保大数据的“完整性”或“准确性”,而是需要不断优化和改善的。

  1. 数据剖析工具

        数据剖析工具主要用于业务规则的发现,分析系统数据文件和数据库中的数据表中字段之间的关系,这种分析可以协助识别影响数据迁移转换的定量或定性的条件,还可以发现条件中的异常或错误。
        对于数据库表中的每一个字段,数据剖析工具能提供不同值的频度分布,提供了对每个字段类型和用途的洞察分析,跨字段分析可以发现多个字段间值的依赖关系,跨表分析则会发现实体之间的主外键关联关系。
        数据剖析也可以用来对定义的业务规则进行主动测试,数据质量人员可以通过它来区分符合数据质量要求的记录和不符合的记录,同时反过来还能有助于形成数据质量报告。
2. 数据缺陷预防工具

        自动化缺陷预防工具不但可以用来在数据录入时防止数据错误,还可以用来生成测试数据,数据缺陷预防工具可以协助业务规则定义,支持使用数据的应用系统调用这些规则,该工具能够在数据源头强化数据完整性规则检查,以在数据问题发生之前,防止缺陷数据进入系统。
        正确使用数据缺陷预防工具,可以从通过识别数据缺陷的根本原因入手,这些原因可能是以下情况的组合:

  • 有缺陷的程序逻辑
  • 不充分的程序逻辑
  • 不理解的数据元素定义
  • 不是统一的元数据
  • 没有域定义
  • 没有一致的流程
  • 没有数据验证流程
  • 缺少数据录入培训
  • 数据录入的时间不足
  • 质量数据录入缺少动机
  1. 元数据管理和质量工具

        元数据管理是对元数据的收集和控制进行严格管理,元数据管理的自动化工具一般有如下功能:

  • 在数据对象创建时捕捉元数据
  • 元数据的通用存储和共享
  • 控制元数据的不一致和冗余
  • 确保符合数据命名标准
  • 数据重组和修正的过程的元数据维护
  • 评估数据模型的规范化
  • 评估数据库设计的完整性
  1. 数据再造和校正工具

        数据再造和校正工具,可以用来校正数据,或者给错误数据打上标志,数据校正工具可用于数据标准化、重复数据识别,一般具有如下功能:

  • 提取数据
  • 标准化数据
  • 匹配和整合重复数据
  • 将数据再造为符合架构的数据结构
  • 基于算法和数据匹配的丢失数据填补
  • 应用数据的更新
  • 将数据值从一个域转换到另一个域
  • 将数据从一种类型转换为另一种类型
  • 计算衍生和汇总数据
  • 基于整合和外部数据源匹配的数据质量管理
  • 将数据加载到目标数据架构中
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据治理-数据质量-数据质量管理方法和工具 的相关文章

  • 数据治理

    全球数据战略公司董事总经理Donna Burbank说 xff1a 人工智能只有建立在优质的数据基础上才能成功 xff0c 从而推动了数据治理的发展 Thomas C Redman博士说 xff1a 估计80 的人工智能 xff08 AI
  • 主数据管理体系规划

    一个组织如果没有认识到管理数据和信息如同管理有形资产一样有着非常的地位 呢么它在新经理时代将无法生存 1 企业级主数据管控体系概览 1 1企业级主数据管控体系总体目标 在企业级数据管理系统支撑下 接入企业的各种系统 企业的客户关系管理 业务
  • 揭秘数据探查:引领企业数据治理质量提升,助力业务高速发展!

    在日常工作中 产品 运营 研发及数据分析师常常会发现 处理 加工和识别数据等数据处理工作往往会占用整个工作流程80 的时间 造成这种困境的原因 大致有三点 1 数据量大且混乱 数据质量参差不齐 2 整体概括信息缺乏 度量信息如最大值 最小值
  • Apache Hop Pipeline Transforms【持续完善中】

    Transforms Abort 取消 DESCRIPTION 描述 一旦接收到输入数据 Abort转换就终止正在运行的管道 此转换的主要用例是在发生意外或不想要的情况时抛出错误 例如 您可以使用此转换 以便在经过错误跳的x行流量后中止管道
  • 【ETL】常见的ETL工具(含开源及付费)一览和优劣势分析?

    一 Kettle Kettle 中文名称叫水壶 该项目的概念是把各种数据放到一个壶里 然后以一种指定的格式流出 Kettle是一款国外开源的ETL工具 纯java编写 可以在Window Linux Unix上运行 无需安装 数据抽取 高效
  • 数据中台盛行,DataOps兴起,数据架构才是未来

    导读 在数字化转型的浪潮下 数据架构获得了越来越多的关注 作为企业架构中的关键纽带 数据架构解决了业务与数据间的映射 规范了应用架构中的数据集成关系 指导了技术架构的技术选型 在企业中发挥着不可或缺的作用 伴随DataOps等场景的出现 数
  • 数据治理-数据质量-数据质量实施方法

    质量实施方法 数据质量领域研究学者和专家结合自身实践 先后提出了一系列质量管理得项目实施方法 其中以全面信息质量管理 全面数据质量管理 数据管理十步法 六西格玛等 与传统数据质量管理一样 数据GIGO规则仍然发挥作用 但在由于大数据的多样性
  • 数据治理体系建设

    01 数据治理建设路径 1 业务数字化的目的是打造一体化的业务流 信息流与数据流 从企业整体经营管理的角度 战略制定及分解 领域业务目标制定 业务方案设计 业务需求识别 信息系统功能及数据库设计 数据汇聚及分析 业务目标监测及改善 这个过程
  • Apache Hop-使用介绍【持续完善中】

    文章目录 Pipelines 管道 Pipeline Editor 管道编辑器 TOOLBAR Create a Pipeline 创建管道 How pipelines work 管道如何工作 Concepts 概念 Create a pi
  • 【数据治理】数据中台:OneData之One ID中用户体系ID-Mapping

    在OneData 体系中 OneID 指统一数据萃取 是一套解决数据孤岛问题的思想和方法 数据孤岛是企业发展到一定阶段后普遍遇到的问题 各个部门 业务 产品 各自定义和存储其数据 使得这些数据间难以关联 变成孤岛一般的存在 OneID的做法
  • 数据整理——大数据治理的关键技术

    摘要 数据是政府 企业和机构的重要资源 数据治理关注数据资源有效利用的众多方面 如数据资产确权 数据管理 数据开放共享 数据隐私保护等 从数据管理的角度 探讨了数据治理中的一项关键技术 数据整理 介绍了以数据拥有者和直接使用者 行业用户 为
  • DataPipeline丨DataOps的技术考量

    作者 DataPipeline CEO 陈诚 从 数据的资产负债表与现状 到 DataOps理念与设计原则 直至 DataOps的组织架构与挑战 我们对于DataOps的讨论已经进行了三周 不难发现 在此期间 我们探讨的话题始终围绕在上层建
  • 基于元数据的数据治理分析功能说明

    数据对于企业来说是非常重要的 因为企业数据需要保证其完整性和准确性 所以需要数据治理 MDM基础数据平台是对各个业务系统的主数据进行治理 而各个业务系统中的业务数据则需要在DAP数据分析平台进行治理 DAP数据分析平台通过与ESB应用集成平
  • Apache Flink不止于计算,数仓架构或兴起新一轮变革

    2021 年初 在 InfoQ 编辑部策划的全年技术趋势展望中 我们提到大数据领域将加速拥抱 融合 或 一体化 演进的新方向 本质是为了降低大数据分析的技术复杂度和成本 同时满足对性能和易用性的更高要求 如今 我们看到流行的流处理引擎 Ap
  • DAP组件外部服务开发说明

    DAP数据分析平台主要是为了满足企业数据分析的需要而开发的一款产品 不同于一般的BI平台 DAP数据分析平台更侧重数据的聚合 平台预置有数据源注册 ODS注册与管理 数仓配置与数据聚合 从而实现企业业务数据的统一 构建企业统一的 标准的 完
  • 数据质量评价体系参考

    数据质量人人有责 这不仅仅只是一句口号 更是数据工作者的生命线 数据质量的好坏直接决定着数据价值高低 数据质量管理是指在数据创建 加工 使用和迁移等过程中 通过开展数据质量定义 过程控制 监测 问题分析和整改 评估与考核等一系列管理活动 提
  • 数据治理-数据质量-数据质量管理方法和工具

    常用质量管理工具 目前 在质量管理领域 有一系列常用的数据质量管理工具 主要分为传统的质量管理工具 新的质量管理工具和其他质量管理工具 传统的质量管理七大工具 传统的七种工具包含分层法 检查表 帕累托图 因果分析图 直方图 散布图 控制图
  • DAMA-DMBOK2重点知识整理CDGA/CDGP——第2章 数据处理伦理

    目录 一 分值分布 二 重点知识梳理 1 语境关系图 2 引言 3 业务驱动因素 4 基本概念 一 分值分布 CDGA 2分 2单选 CDGP 0分 不考 二 重点知识梳理 1 引言 预警关系图 数据处理伦理定义 如何以符合道德准则及社会责
  • 指标体系建设

    1 背景 结合业务场景将多个不同指标和维度进行组合 从而针对某一真实业务场景进行数据分析和决策导向 并能在整体业务变化中发现和定位问题 2 概念理解与示例分析 2 1 指标体系 指标体系 名称 分类 解析 作用 示例 指标 结果型指标 时机
  • 数据资产怎么治理

    在当今数字化时代 数据已经成为企业最重要的资产之一 然而 随着数据量的迅速增长和多样化 如何有效地管理和利用数据成为了一个迫切的问题 数据资产治理正是为了解决这个问题而提出的一种管理框架 旨在确保数据质量 安全性和价值的最大化 下面数聚就深

随机推荐

  • C语言 在数组中找到和值为目标值的两个元素

    输入你的目标值target 就能找到相加为target的两个数了 自己输入一个数组 并且设定一个目标值 target 就能在数组中找到两个相加等于target的元素了 include
  • 基于linux的调试技术

    虽然使用printk函数可以很方便的将消息写入日志文件或者控制台 但是大量使用printk函数频繁的操作日志文件或者控制台文件会严重影响到linux驱动的开发性能 因此 这就需要linux驱动在开发阶段使用printk函数输出消息 在正式发
  • 解决“Pick up system reserved threshold 500ms because of config missing”

    skywalking启动日志一直刷 Pick up system reserved threshold 500ms because of config missing 如下图 原因缺少动态的配置项 skywalking支持动态配置的配置项如
  • 【总结】为什么对累积奖励减去baseline项能起到减小方差的作用?

    深度强化学习实验室 论坛 http deeprlhub com 来源 https zhuanlan zhihu com p 98506549 作者 风清云 很多论文的工作都专注于减少policy gradient的方差 以得到更加优质且稳定
  • TT100K数据集

    http cg cs tsinghua edu cn traffic sign data model code data zip
  • 字符转ASCLL码输出

    今天做EDA课程设计时 同学的串口通信程序涉及到字符和ASCLL码的转化 我看着他一个字符的对着ASCLL表 然后再敲进程序 真心急 想想都大三了 C语言都大一学的了 而现在经常遇到的问题 很多大学生都直接用非常笨的方法去弄 却不知道使用自
  • USB转串口那些事儿—USB转串口工作原理及应用

    一 简介 USB转串口即实现计算机USB接口到物理串口之间的转换 可以为没有串口的计算机或其他USB主机增加串口 使用USB转串口设备等于将传统的串口设备变成了即插即用的USB设备 USB虚拟串口应用特点 USB应用广泛 支持热插拔 传输速
  • Postman接口测试——我看过最详细+全面的文章教程了【转载】

    Postman简介 一般简单的接口测试我们可以直接在浏览器里面进行调试 但是涉及到一些权限设置的就无法操作了 因此我们需要接口测试的相关工具 Postman 是一个接口测试和 http 请求的工具 官网地址 https www getpos
  • Mac电脑花屏

    原因 GPU 加速导致 和电脑的独显有关 解决办法 打开谷歌浏览器 点击上图的三个点 选择设置 在高级设置中选择系统 关掉硬件加速模式
  • 十大优秀编程项目,让你的简历金光闪闪

    全文共3241字 预计学习时长6分钟 被问到如何学习编程时 最常听到的问题就是 有没有什么新项目的好点子 一些老套的答案有 做一个象棋游戏 或者 命令行界面 这些答案没有错 但这些例子不符合现代编程的需要 现代软件编写需要经常使用软件服务化
  • 【华为OD机试真题2023B卷 JAVA&JS】阿里巴巴找黄金宝箱(V)

    华为OD2023 B卷 机试题库全覆盖 刷题指南点这里 阿里巴巴找黄金宝箱 V 知识点数组哈希表滑窗 时间限制 1s 空间限制 256MB 限定语言 不限 题目描述 一贫如洗的樵夫阿里巴巴在去砍柴的路上 无意中发现了强盗集团的藏宝地 藏宝地
  • 尤克里里整理

    尤克里里 如何按弦 如何弹奏 带数字的四线谱 如何按弦 如何弹奏 带数字的四线谱 数字代表品格数 1就是1品 2就是2品 数字标记在几弦上面 就按住几弦的几品
  • 计算机毕设项目 大数据个性化音乐推荐算法分析

    文章目录 0 前言 1 研究目的 2 研究方法 2 1 传统推荐算法 2 2 基于LightGBM决策树模型的推荐算法 3 研究结论 0 前言 基于大数据个性化音乐推荐算法分析 提示 适合用于课程设计或毕业设计 工作量达标 源码开放 项目分
  • 告别卡顿,教你正确清理手机APP缓存垃圾,释放空间

    智能手机已经成为我们生活中不可或缺的重要工具 让我们随时随地保持联系 获取信息和娱乐 但是 使用过多的应用程序可能会导致手机变得缓慢并占用存储空间 这些应用程序产生大量的缓存和垃圾文件 如果不及时清理 将会影响手机的性能和速度 今天 我们将
  • 集团如何实现数字化转型?永洪BI助力由由集团

    随着 互联网 的边界不断拓宽 生活性服务业正驶入数字化转型快车道 中国信息通信研究院发布的 中国数字经济发展报告 2022 显示 2021年 我国数字经济发展取得新突破 数字经济规模达到45 5万亿元 占 GDP 比重达到39 8 三大产业
  • Chrome中安装扩展的三种方式

    chrome浏览器安装扩展有多种方式 请看以下介绍 1 从chrome网上应用商店安装 优雅法 在google chrome中打开chrome网上应用商店 https chrome google com webstore 搜索需要的扩展 在
  • 详解list.toArray(new String[0])

    List
  • 使用树莓派(raspberry pi)搭建网站(nginx+php+mysql+ddclient)

    标签 树莓派 raspberrypi php 网站 mysql 分类 Linux技术 最近在研究学习PHP 有时候想随时就学习 所以就决定搭建一个网站 随时可以进行学习 因为要24小时在线 要低功耗和安静 所以选择了树莓派 我们开始吧 ng
  • 四元素与旋转矩阵

    如何描述三维空间中刚体的旋转 是个有趣的问题 具体地说 就是刚体上的任意一个点P x y z 围绕过原点的轴 i j k 旋转 求旋转后的点P x y z 旋转矩阵 旋转矩阵乘以点P的齐次坐标 得到旋转后的点P 因此旋转矩阵可以描述旋转 x
  • 数据治理-数据质量-数据质量管理方法和工具

    常用质量管理工具 目前 在质量管理领域 有一系列常用的数据质量管理工具 主要分为传统的质量管理工具 新的质量管理工具和其他质量管理工具 传统的质量管理七大工具 传统的七种工具包含分层法 检查表 帕累托图 因果分析图 直方图 散布图 控制图