数据ETL面临的问题----数据缺失

2023-11-20

数据缺失的类型有:

完全随机缺失(Missing Completely at Random,MCAR):数据的缺失与不完全变量以及完全变量都是无关的;随机缺失(Missing at Random,MAR):数据的缺失不是完全随机的,数据的缺失只依赖于完全变量;              完全非随机缺失(Missing Not At Random,MNAR):数据的缺失依赖于不完全变量自身。

四、数据缺失的处理办法

数据缺失在统计过程中是一个很重要的问题, 全世界都很关注,他的处理方法更是一个新兴的领域,综合各个国家

的研究结果,大致有以下几种方法。

(一)删除法(Deletion)
这种方法非常简单, 当被调查对象出现缺失的变量值, 并且这些缺失的变量值占总体数据的总量很小的情
况下, 这种方法非常有效。解决方法就是将存在缺失的变量值删除, 形成一个完整的调查表。但是这种方法有
它的不足之处,在删除缺失数据的过程中,减少了原始的数据,导致了信息的损耗,而且丢失了很多包含在被删除
数据中的信息。特别是当被研究的数据本身数量很少的时候, 删除少量数据就足以影响整体结果的客观性以及
正确性。所以,当缺失数据占总体数据比例很大时,这种方法将会导致错误结论。
(二)填补法(Imputation)
当有数据缺失的记录在整个数据中只占一个很小比例时,可以直接删除缺失记录,对余下的完全数据进行处
理。但是在实际数据中,往往缺失数据占有相当的比重,这样做不仅会产生偏差,甚至会得出有误导性的结论,同

时丢失大量信息,造成浪费。因此我们使用一种新的方法来进行处理。目前,填补法是处理数据缺失时普遍使用的

一种技术,就是说给各个缺失数据找一个填充值,用这样的方法得到“完整数据”,然后用标准正常的完整数据的
统计方法进行数据分析和推断。
    1. 人工填写法(Filling Manually)。专家根据专业知识对缺失数据进行填补, 这是一种非常精确的方法。但是
他的缺点是费时又费力,当缺失的数值很多时,使用这种方法是基本不可能的。
    2. 平均值填充法(Mean/Mode Imputation)。删除法用以解决少量缺失值, 但是当缺失值大量出现时我们就需
要使用一种新的方法, 即平均值填充法。在处理数据时可以把变量分为数值型和非数值型。如果是非数值型的
缺失数据,运用统计学中众数的原理,用此变量在其他对象中取值频数最多的值来填充缺失值; 如果是数值型的
缺失值, 则取此变量在其他所有对象的取值均值来补齐缺失值。这种方法的优点是简便、快速,缺点是要建立在
完全随机缺失(MCAR)的假设之上。
    3. 热卡填充法(Hot Deck Imputation,或就近补齐)。对于一个包含空值的变量, 本方法是在完整数据中找到
一个与空值最相似的变量, 然后用这个相似的值来进行填充。与均值替换法相比, 本方法简单易懂还可以保持
数据本身的类型,利用本方法填充数据后,其变量值与填充前很接近。但是这种方法也存在不足之处, 就是其主
观因素较多,还比较耗时。
   4. 使用任何可能的值填充(Assigning All Possible values of the Attribute)。这种方法是用缺失值所有可能的
数值来填充, 能够起到一个补齐效果。而这种方法的缺点是,当要研究的数据量很大或者缺失的数值较多时,他
的计算量很大,需要测试的方案很多。针对其缺点有另外的一种方法,用一样的方法来填补缺失数,不同的是从结
果相同的对象中选择所有可能情况的数值, 而不是根据所有情况的对象进行尝试, 这样能够在一定程度上缓解
原方法的不足。
   5. 多重填补法(Multiple Imputation,MI)。多重填补法是由Rubin等人根据贝叶斯估计原理于1978年建立起来
的。多重填补的原理是首先为缺失值产生一系列用来填充的数值,把这个系列中的每一个值都用来填充,产生相
对应的一系列的完整的数据集合。再将这些经过填充过的数据集合使用完整数据的方法进行研究。最后把各个

填充过的数据集合结果进行综合考量得出结论, 这个结论考虑到了数据填补过程中产生的各种不确定性。这种
方法的缺点也是不能不重视的:第一,计算很复杂;第二,是要求数据集满足贝叶斯假设,这个在现实中很难实现;
第三,是多重填补法只适用于统计分析,不适合数据挖掘的需要。
(三)不处理
既然每种方法都有其不足之处, 那么就直接在包含空值的数据上进行数据挖掘。这样既节省了时间又减轻
了负担。但是这种方法也不是完美的,也有其弱点,现实工作中,大家对数据是没有前期知识的,而采用此种方法
要求使用者对部分数据先进行假设, 但是在没有任何前期知识的情况下,很容易假设出错误的结论,而且即使知
道数据中的一些参数, 要估计出正确的数值也需要很长的时间,所以说也不是非常实用的。

综合以上三种方法,可以知道,每种方法都适用于不同的条件, 而每种方法都有其不足之处。在实际的工作
中, 我们要根据实际情况正确选择解决方法。当数据样本很大, 而缺失数据所占比例很小的情况下我们可以使
用“删除法”;当数据缺失值形式是MCAR,并且样本容量并不大的情况下,可采用“填补法”;当以上两种方法都不实用的情况下我们可以考虑使用“不处理”的方法。针对不同的问题我们不能一概而论,关键是要分清实质,寻找
到在当前条件下最适宜的方法, 使不完全样本的已有信息得到最佳利用。





本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据ETL面临的问题----数据缺失 的相关文章

  • bigdata1234.cn 大数据开发基础课堂测试

    数据容量单位 1 byte 8 bits 1 kilobyte KB 1024 bytes 1 megabyte MB 1024 KB 1 gigabyte GB 1024 MB 1 terabyte TB 1024 GB 1 petaby
  • 帆软 finereport FCRA 考试 题库+答案,共收录561题,大部分有答案

    帆软 finereport FCRA 考试 题库 答案 共收录561题 大部分有答案 入门基础 11 多选题 以下方式中属于FineReport中预览模式的有 分页预览 填报预览 新填报预览 数据分析 移动端预览 16 判断题 FineRe
  • Flink CDC(2.0) 如何加速海量数据的实时集成?

    原文 Flink CDC 如何加速海量数据的实时集成 知乎 导读 Flink CDC如何解决海量数据集成的痛点 如何加速海量数据处理 Flink CDC社区如何运营 如何参与社区贡献 今天的介绍会围绕下面四点展开 Flink CDC 技术
  • 离线数仓经验之谈三-数仓流程规范

    数仓流程规范 目录 1 目的 2 适用范围 3 总体流程 3 1 ETL开发流程 3 1 1 需求分析 3 1 2 数据来源与数据探查 3 1 3 数据模型设计 3 1 4 ETL开发 3 1 5 测试 3 1 6 ETL上线 3 1 7
  • 数据挖掘相关的10个问题

    NO 1 Data Mining 和统计分析有什么不同 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的 一般将之定义为Data Mining技术的CART CHAID或模糊计算等等理论方法 也都是由统计学者
  • 第二篇:数据仓库与数据集市建模

    阅读目录 前言 维度建模的基本概念 维度建模的三种模式 实例 零售公司销售主题的维度建模 更多可能的事实属性 经典星座模型 缓慢变化维度问题 数据仓库建模体系之规范化数据仓库 数据仓库建模体系之维度建模数据仓库 数据仓库建模体系之独立数据集
  • 数据可视化平台理论与实践

    前面说完了大数据开发平台的核心组件 作业调度系统 接下来讨论一下大数据开发平台的脸面之一 数据可视化平台 和调度系统一样 这又是一个很多公司可能想要自己造一个轮子的系统 数据可视化平台是什么 不过 慢着 先等一下 什么是数据可视化平台 我们
  • Hive【Hive(一)DDL】

    前置准备 需要启动 Hadoop 集群 因为我们 Hive 是在 Hadoop 集群之上运行的 从DataGrip 或者其他外部终端连接 Hive 需要先打开 Hive 的 metastore 进程和 hiveserver2 进程 meta
  • 数据挖掘基础一

    一 数据挖掘 又称为数据库中知识发现 Knowledge Discovery from Database 简称KDD 它是一个从大量数据中抽取挖掘出未知的 有价值的模式或规律等知识的复杂过程 数据挖掘的定义过程描述如下图所示 从图中可以看出
  • 数据仓库是什么?和数据库有何区别?

    在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向 DB 是现有的数据来源 可以为mysql SQLserver 文件日志等 为数据仓库提供数据来源的一般存在于现有的业务系统之中 ETL 是 Extract Transform L
  • ETL为什么经常变成ELT甚至LET?

    ETL是将数据从来源端经过清洗 extract 转换 transform 加载 load 至目的端的过程 正常的 ETL 过程应当是 E T L 这三个步骤逐步进行 也就是先清洗转换之后再加载进目标端 通常是数据库 最后在数据库中的只是合理
  • 数据质量评价体系参考

    数据质量人人有责 这不仅仅只是一句口号 更是数据工作者的生命线 数据质量的好坏直接决定着数据价值高低 数据质量管理是指在数据创建 加工 使用和迁移等过程中 通过开展数据质量定义 过程控制 监测 问题分析和整改 评估与考核等一系列管理活动 提
  • 商务智能-第六章 数据挖掘

    Lecture6 Data Mining 1 数据挖掘 在数据库及数据仓库中存贮有大量的数据 它们具有规范的结构形式与可靠的来源 且数量大 保存期间长 是一种极为宝贵的数据资源 充分开发 利用这些数据资源是目前计算机界的一项重要工作 1 1
  • Power BI:切片器联动的一些问题

    问题1 联动切片器选中子项后父项未能显示全部 如下所示 切片器原始状态为 Province和City来源同一张表 当选中了City中的某一项时 变为 父项也发生了变化 但我们希望无论子项选择什么 父项应该始终显示全部 解决办法 City切片
  • 3. ClickHouse数据类型和表结构

    3 1 数据类型 整数类型 整数类型有Int8 Int16 Int32 Int64 分别表示8位 16位 32位和64位有符号整数 适用场景 存储整数值 如年龄 数量等 浮点类型 浮点类型有Float32和Float64 分别表示32位和6
  • 浅谈我所见识的数据治理项目

    开篇一张图 与正文不一定有关 图片来源于朋友圈 01 写在前面 熟悉笔者的朋友可能知道 笔者之前做的并非纯数据相关工作 产品或项目 笔者属于半路出家的数据人 之前也几乎没有直接接触过数据仓库 数据中台 数据平台等产品或项目 与数据库是一直打
  • 大数据基础

    1 HDFS 1 HDFS为什么不适合存储大量小文件 答 1 大量文件的元数据占用NameNode大量内存空间 2 磁盘寻道时间超过读取时间 2 HDFS 何时离开安全模式 答 ActiveNameNode启动时HDFS进入安全模式只读 d
  • 数据ETL面临的问题----数据缺失

    数据缺失的类型有 完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的 随机缺失 Missing at Random MAR 数据的缺失不是完全随机的 数据的缺失只依
  • 解决 Hive 外部表分隔符问题的实用指南

    简介 在使用 Hive 外部表时 分隔符设置不当可能导致数据导入和查询过程中的问题 本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤 问题描述 在使用Hive外部表时 可能会遇到分隔符问题 这主要是因为Hive在读取数据时
  • 智能数据分析系统:揭秘最强AI助力企业腾飞的秘密武器

    现代企业离不开数据 而数据的分析与应用更是成为企业走向成功的关键之一 然而 随着数据量的不断增长 传统的数据分析方法已经无法满足企业的需求 这时 智能数据分析系统应运而生 成为企业决策的得力助手 那么 智能数据分析系统究竟是如何帮助企业实现

随机推荐

  • 中山大学App校园地图功能分析

    中山大学App校园地图简单功能分析介绍 用户入口 进入中山大学App首页 即可看到校园地图 点击后进入校园地图主界面 校区选取 进入地图主界面后 即可呈现出校园地图 顶上正中间是选取校区的功能按钮 单击后出现全部4个校区可供选择 路线导航
  • 如何在手机上打开xmind文件_如何高效率整理电脑上的文件 ?

    个人电脑 01 没有时间整理 也不想整理 怎么办 1 1 只整理电脑桌面 电脑桌面放着各种文件 已经成为多数人的习惯 一打开电脑 就可以从电脑桌面上看见自己有哪些文件等着处理 当天处理的文件存放在桌面 第二天要用的时候 直接在桌面打开就可以
  • python遍历文件夹中的图片

    import cv2 import os mainFolder Images RectSmall myFolders os listdir mainFolder print myFolders for folder in myFolders
  • jre jdk更改目录后Java无法运行问题解决方案

    问题 在将Java文件 包含jdk jre 由C盘直接剪贴到D盘后 所有Java程序无法运行 且其Java图标不再显示 解决方案 首先更改环境变量 当我们单纯地将Java文件更改位置后 我们计算机的环境变量仍未改变 依旧是当时安装Java时
  • Verilog中if- else if语句和case语句用法:

    一 if语句 1 两种情况 if 条件语句 begin end else begin end 2 多种情况 if 条件语句 begin end else if 条件语句 begin end else if 条件语句 begin end el
  • 编程大师-Netty

    45 张图深度解析 Netty 架构与原理 里奥ii的博客 CSDN博客 netty全过程图解 最详细清晰版 netty流程 PANDA的博客 CSDN博客
  • Kafka学习(三)简单实例(可以简单做测试)

    java客户端连接kafka简单测试 本案例kafka版本是kafka 2 11 0 9 0 1 用java来实现kafka生产者 消费者的示例 在测试的过程中遇到的特别的问题以及解决办法 其他小问题就不一一列举了 1 使用kafka cl
  • libero-soc许可证申请和环境配置

    环境 64位机 在哪台电脑上安装libero soc 就用哪台电脑申请许可证 1 注册 https www microsemi co 在官网注册 之后申请的许可证会发到注册时填写的邮箱 2 申请许可证 https www microsemi
  • 操作系统 段页式存储管理

    一 引入 分页系统是以页面作为内存分配的基本单位 能有效地提高内存利用率 但信息共享等不方便 分段系统是以段作为内存分配的基本单位 它能够更好地满足用户多方面的需要 信息共享 动态链接等 但采用分区方式管理物理内存 仍然存在碎片问题 段页式
  • mysql varchar类型条件查询不加引号

    一张160w数据量的表 select from order promotion where order no 15441913435665186 select from order promotion where order no 1544
  • Gradle –多个启动脚本示例

    很少有build gradle示例向您展示如何创建多个启动脚本或可执行Java应用程序 1 单启动脚本 1 1在Gradle中 您可以使用应用程序插件来创建可执行的Java应用程序 build gradle apply plugin app
  • 蒙特卡洛积分、重要性采样、低差异序列

    渲染公式 渲染的目标在于计算周围环境的光线有多少从表面像素点反射到相机视口中 要计算总的反射光 每个入射方向的贡献 必须将他们在半球上相加 为入射光线 与法线 的夹角 为方便计算可以使用法线向量和入射向量 单位化 的乘积表示 对于基于图像的
  • 全国各省市座机电话区号整理

    excel数据整理下载地址 https download csdn net download MtiredM 87620876 json格式数据整理 const areaCodes 热门城市 010 北京市 024 沈阳市 0371 郑州市
  • Qt对话框

    Qt的对话框分为两种 模态对话框和非模态对话框 模态对话框 模态对话框 不可以对其其他窗口进行操作 比如像下面这种 出现后无法再操作其他窗口 比如像下面这种 创建后就无法在操作写代码的窗口 创建对话框要将 include
  • 【Unity&C#&随机数】随机数

    一个简单的随机数获得 0或1 使用了这样的代码 想要获得0或者1 if Input anyKeyDown float i 1 if i 1 i Random Range 0 Rang i i lt 0 5 0 1 Debug Log Cou
  • C语言经典100例题(18)--题目:求s=a+aa+aaa+aaaa+aa...a的值

    目录 题目 问题分析 代码 测试结果 题目 求s a aa aaa aaaa aa a的值 其中a是一个数字 例如2 22 222 2222 22222 此时共有5个数相加 几个数相加有键盘控制 问题分析 加数之间的规律 a a 0 10
  • Python实现归并排序

    Python实现归并排序 一 归并排序简介 归并排序 Merge Sort 是建立在归并操作上的一种效率很高的排序算法 比较占用内存 该算法是分治法 Divide and Conquer 的一个典型应用 归并排序将两个或两个以上 一般是两个
  • 华为OD机试 Python 【响应报文时间】

    题目 假设你正在接收网络报文 并且需要在一定时间内对它们作出响应 每次当你收到一个报文时 它会有一个 最大响应时间 来告诉你最晚需要在什么时候回应 但是 如果在等待回应期间又收到了新的报文 你可能需要更新你的响应时间 最大响应时间 是这样计
  • 关于uthash 的初步源码阅读

    背景 在偶然的mqtt mosquitto 中的源码中查看的关于topic的处理 知道了哈希表这种的数据结构 最近花了一点时间将这个部分的源码看了一部分 不知道后面还有没有时间继续查看所以就写一篇文档作为笔记吧 uthash 使用 utha
  • 数据ETL面临的问题----数据缺失

    数据缺失的类型有 完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的 随机缺失 Missing at Random MAR 数据的缺失不是完全随机的 数据的缺失只依