数据ETL面临的问题----数据缺失

2023-11-20

数据缺失的类型有：

完全随机缺失（Missing Completely at Random，MCAR）：数据的缺失与不完全变量以及完全变量都是无关的；随机缺失（Missing at Random，MAR）：数据的缺失不是完全随机的，数据的缺失只依赖于完全变量；完全非随机缺失（Missing Not At Random，MNAR）：数据的缺失依赖于不完全变量自身。

四、数据缺失的处理办法

数据缺失在统计过程中是一个很重要的问题，全世界都很关注，他的处理方法更是一个新兴的领域，综合各个国家

的研究结果，大致有以下几种方法。

（一）删除法（Deletion）
这种方法非常简单，当被调查对象出现缺失的变量值，并且这些缺失的变量值占总体数据的总量很小的情
况下，这种方法非常有效。解决方法就是将存在缺失的变量值删除，形成一个完整的调查表。但是这种方法有
它的不足之处，在删除缺失数据的过程中，减少了原始的数据，导致了信息的损耗，而且丢失了很多包含在被删除
数据中的信息。特别是当被研究的数据本身数量很少的时候，删除少量数据就足以影响整体结果的客观性以及
正确性。所以，当缺失数据占总体数据比例很大时，这种方法将会导致错误结论。
（二）填补法（Imputation）
当有数据缺失的记录在整个数据中只占一个很小比例时，可以直接删除缺失记录，对余下的完全数据进行处
理。但是在实际数据中，往往缺失数据占有相当的比重，这样做不仅会产生偏差，甚至会得出有误导性的结论，同

时丢失大量信息，造成浪费。因此我们使用一种新的方法来进行处理。目前，填补法是处理数据缺失时普遍使用的

一种技术，就是说给各个缺失数据找一个填充值，用这样的方法得到“完整数据”，然后用标准正常的完整数据的
统计方法进行数据分析和推断。
1. 人工填写法（Filling Manually）。专家根据专业知识对缺失数据进行填补，这是一种非常精确的方法。但是
他的缺点是费时又费力，当缺失的数值很多时，使用这种方法是基本不可能的。
2. 平均值填充法（Mean/Mode Imputation）。删除法用以解决少量缺失值，但是当缺失值大量出现时我们就需
要使用一种新的方法，即平均值填充法。在处理数据时可以把变量分为数值型和非数值型。如果是非数值型的
缺失数据，运用统计学中众数的原理，用此变量在其他对象中取值频数最多的值来填充缺失值；如果是数值型的
缺失值，则取此变量在其他所有对象的取值均值来补齐缺失值。这种方法的优点是简便、快速，缺点是要建立在
完全随机缺失（MCAR）的假设之上。
3. 热卡填充法（Hot Deck Imputation，或就近补齐）。对于一个包含空值的变量，本方法是在完整数据中找到
一个与空值最相似的变量，然后用这个相似的值来进行填充。与均值替换法相比，本方法简单易懂还可以保持
数据本身的类型，利用本方法填充数据后，其变量值与填充前很接近。但是这种方法也存在不足之处，就是其主
观因素较多，还比较耗时。
4. 使用任何可能的值填充（Assigning All Possible values of the Attribute）。这种方法是用缺失值所有可能的
数值来填充，能够起到一个补齐效果。而这种方法的缺点是，当要研究的数据量很大或者缺失的数值较多时，他
的计算量很大，需要测试的方案很多。针对其缺点有另外的一种方法，用一样的方法来填补缺失数，不同的是从结
果相同的对象中选择所有可能情况的数值，而不是根据所有情况的对象进行尝试，这样能够在一定程度上缓解
原方法的不足。
5. 多重填补法（Multiple Imputation，MI）。多重填补法是由Rubin等人根据贝叶斯估计原理于1978年建立起来
的。多重填补的原理是首先为缺失值产生一系列用来填充的数值，把这个系列中的每一个值都用来填充，产生相
对应的一系列的完整的数据集合。再将这些经过填充过的数据集合使用完整数据的方法进行研究。最后把各个

填充过的数据集合结果进行综合考量得出结论，这个结论考虑到了数据填补过程中产生的各种不确定性。这种
方法的缺点也是不能不重视的：第一，计算很复杂；第二，是要求数据集满足贝叶斯假设，这个在现实中很难实现；
第三，是多重填补法只适用于统计分析，不适合数据挖掘的需要。
（三）不处理
既然每种方法都有其不足之处，那么就直接在包含空值的数据上进行数据挖掘。这样既节省了时间又减轻
了负担。但是这种方法也不是完美的，也有其弱点，现实工作中，大家对数据是没有前期知识的，而采用此种方法
要求使用者对部分数据先进行假设，但是在没有任何前期知识的情况下，很容易假设出错误的结论，而且即使知
道数据中的一些参数，要估计出正确的数值也需要很长的时间，所以说也不是非常实用的。

综合以上三种方法，可以知道，每种方法都适用于不同的条件，而每种方法都有其不足之处。在实际的工作
中，我们要根据实际情况正确选择解决方法。当数据样本很大，而缺失数据所占比例很小的情况下我们可以使
用“删除法”；当数据缺失值形式是MCAR，并且样本容量并不大的情况下，可采用“填补法”；当以上两种方法都不实用的情况下我们可以考虑使用“不处理”的方法。针对不同的问题我们不能一概而论，关键是要分清实质，寻找
到在当前条件下最适宜的方法，使不完全样本的已有信息得到最佳利用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据ETL面临的问题----数据缺失的相关文章

bigdata1234.cn 大数据开发基础课堂测试

数据容量单位 1 byte 8 bits 1 kilobyte KB 1024 bytes 1 megabyte MB 1024 KB 1 gigabyte GB 1024 MB 1 terabyte TB 1024 GB 1 petaby
帆软 finereport FCRA 考试题库+答案，共收录561题，大部分有答案

帆软 finereport FCRA 考试题库答案共收录561题大部分有答案入门基础 11 多选题以下方式中属于FineReport中预览模式的有分页预览填报预览新填报预览数据分析移动端预览 16 判断题 FineRe
Flink CDC（2.0）如何加速海量数据的实时集成？

原文 Flink CDC 如何加速海量数据的实时集成知乎导读 Flink CDC如何解决海量数据集成的痛点如何加速海量数据处理 Flink CDC社区如何运营如何参与社区贡献今天的介绍会围绕下面四点展开 Flink CDC 技术
离线数仓经验之谈三-数仓流程规范

数仓流程规范目录 1 目的 2 适用范围 3 总体流程 3 1 ETL开发流程 3 1 1 需求分析 3 1 2 数据来源与数据探查 3 1 3 数据模型设计 3 1 4 ETL开发 3 1 5 测试 3 1 6 ETL上线 3 1 7
数据挖掘相关的10个问题

NO 1 Data Mining 和统计分析有什么不同硬要去区分Data Mining和Statistics的差异其实是没有太大意义的一般将之定义为Data Mining技术的CART CHAID或模糊计算等等理论方法也都是由统计学者
第二篇：数据仓库与数据集市建模

阅读目录前言维度建模的基本概念维度建模的三种模式实例零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集
数据可视化平台理论与实践

前面说完了大数据开发平台的核心组件作业调度系统接下来讨论一下大数据开发平台的脸面之一数据可视化平台和调度系统一样这又是一个很多公司可能想要自己造一个轮子的系统数据可视化平台是什么不过慢着先等一下什么是数据可视化平台我们
Hive【Hive（一）DDL】

前置准备需要启动 Hadoop 集群因为我们 Hive 是在 Hadoop 集群之上运行的从DataGrip 或者其他外部终端连接 Hive 需要先打开 Hive 的 metastore 进程和 hiveserver2 进程 meta
数据挖掘基础一

一数据挖掘又称为数据库中知识发现 Knowledge Discovery from Database 简称KDD 它是一个从大量数据中抽取挖掘出未知的有价值的模式或规律等知识的复杂过程数据挖掘的定义过程描述如下图所示从图中可以看出
数据仓库是什么？和数据库有何区别？

在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向 DB 是现有的数据来源可以为mysql SQLserver 文件日志等为数据仓库提供数据来源的一般存在于现有的业务系统之中 ETL 是 Extract Transform L
ETL为什么经常变成ELT甚至LET？

ETL是将数据从来源端经过清洗 extract 转换 transform 加载 load 至目的端的过程正常的 ETL 过程应当是 E T L 这三个步骤逐步进行也就是先清洗转换之后再加载进目标端通常是数据库最后在数据库中的只是合理
数据质量评价体系参考

数据质量人人有责这不仅仅只是一句口号更是数据工作者的生命线数据质量的好坏直接决定着数据价值高低数据质量管理是指在数据创建加工使用和迁移等过程中通过开展数据质量定义过程控制监测问题分析和整改评估与考核等一系列管理活动提
商务智能-第六章数据挖掘

Lecture6 Data Mining 1 数据挖掘在数据库及数据仓库中存贮有大量的数据它们具有规范的结构形式与可靠的来源且数量大保存期间长是一种极为宝贵的数据资源充分开发利用这些数据资源是目前计算机界的一项重要工作 1 1
Power BI：切片器联动的一些问题

问题1 联动切片器选中子项后父项未能显示全部如下所示切片器原始状态为 Province和City来源同一张表当选中了City中的某一项时变为父项也发生了变化但我们希望无论子项选择什么父项应该始终显示全部解决办法 City切片
3. ClickHouse数据类型和表结构

3 1 数据类型整数类型整数类型有Int8 Int16 Int32 Int64 分别表示8位 16位 32位和64位有符号整数适用场景存储整数值如年龄数量等浮点类型浮点类型有Float32和Float64 分别表示32位和6
浅谈我所见识的数据治理项目

开篇一张图与正文不一定有关图片来源于朋友圈 01 写在前面熟悉笔者的朋友可能知道笔者之前做的并非纯数据相关工作产品或项目笔者属于半路出家的数据人之前也几乎没有直接接触过数据仓库数据中台数据平台等产品或项目与数据库是一直打
大数据基础

1 HDFS 1 HDFS为什么不适合存储大量小文件答 1 大量文件的元数据占用NameNode大量内存空间 2 磁盘寻道时间超过读取时间 2 HDFS 何时离开安全模式答 ActiveNameNode启动时HDFS进入安全模式只读 d
数据ETL面临的问题----数据缺失

数据缺失的类型有完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的随机缺失 Missing at Random MAR 数据的缺失不是完全随机的数据的缺失只依
解决 Hive 外部表分隔符问题的实用指南

简介在使用 Hive 外部表时分隔符设置不当可能导致数据导入和查询过程中的问题本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤问题描述在使用Hive外部表时可能会遇到分隔符问题这主要是因为Hive在读取数据时
智能数据分析系统：揭秘最强AI助力企业腾飞的秘密武器

现代企业离不开数据而数据的分析与应用更是成为企业走向成功的关键之一然而随着数据量的不断增长传统的数据分析方法已经无法满足企业的需求这时智能数据分析系统应运而生成为企业决策的得力助手那么智能数据分析系统究竟是如何帮助企业实现

随机推荐

中山大学App校园地图功能分析

中山大学App校园地图简单功能分析介绍用户入口进入中山大学App首页即可看到校园地图点击后进入校园地图主界面校区选取进入地图主界面后即可呈现出校园地图顶上正中间是选取校区的功能按钮单击后出现全部4个校区可供选择路线导航
如何在手机上打开xmind文件_如何高效率整理电脑上的文件？

个人电脑 01 没有时间整理也不想整理怎么办 1 1 只整理电脑桌面电脑桌面放着各种文件已经成为多数人的习惯一打开电脑就可以从电脑桌面上看见自己有哪些文件等着处理当天处理的文件存放在桌面第二天要用的时候直接在桌面打开就可以
python遍历文件夹中的图片

import cv2 import os mainFolder Images RectSmall myFolders os listdir mainFolder print myFolders for folder in myFolders
jre jdk更改目录后Java无法运行问题解决方案

问题在将Java文件包含jdk jre 由C盘直接剪贴到D盘后所有Java程序无法运行且其Java图标不再显示解决方案首先更改环境变量当我们单纯地将Java文件更改位置后我们计算机的环境变量仍未改变依旧是当时安装Java时
Verilog中if- else if语句和case语句用法：

一 if语句 1 两种情况 if 条件语句 begin end else begin end 2 多种情况 if 条件语句 begin end else if 条件语句 begin end else if 条件语句 begin end el
编程大师-Netty

45 张图深度解析 Netty 架构与原理里奥ii的博客 CSDN博客 netty全过程图解最详细清晰版 netty流程 PANDA的博客 CSDN博客
Kafka学习（三）简单实例（可以简单做测试）

java客户端连接kafka简单测试本案例kafka版本是kafka 2 11 0 9 0 1 用java来实现kafka生产者消费者的示例在测试的过程中遇到的特别的问题以及解决办法其他小问题就不一一列举了 1 使用kafka cl
libero-soc许可证申请和环境配置

环境 64位机在哪台电脑上安装libero soc 就用哪台电脑申请许可证 1 注册 https www microsemi co 在官网注册之后申请的许可证会发到注册时填写的邮箱 2 申请许可证 https www microsemi
操作系统段页式存储管理

一引入分页系统是以页面作为内存分配的基本单位能有效地提高内存利用率但信息共享等不方便分段系统是以段作为内存分配的基本单位它能够更好地满足用户多方面的需要信息共享动态链接等但采用分区方式管理物理内存仍然存在碎片问题段页式
mysql varchar类型条件查询不加引号

一张160w数据量的表 select from order promotion where order no 15441913435665186 select from order promotion where order no 1544
Gradle –多个启动脚本示例

很少有build gradle示例向您展示如何创建多个启动脚本或可执行Java应用程序 1 单启动脚本 1 1在Gradle中您可以使用应用程序插件来创建可执行的Java应用程序 build gradle apply plugin app
蒙特卡洛积分、重要性采样、低差异序列

渲染公式渲染的目标在于计算周围环境的光线有多少从表面像素点反射到相机视口中要计算总的反射光每个入射方向的贡献必须将他们在半球上相加为入射光线与法线的夹角为方便计算可以使用法线向量和入射向量单位化的乘积表示对于基于图像的
全国各省市座机电话区号整理

excel数据整理下载地址 https download csdn net download MtiredM 87620876 json格式数据整理 const areaCodes 热门城市 010 北京市 024 沈阳市 0371 郑州市
Qt对话框

Qt的对话框分为两种模态对话框和非模态对话框模态对话框模态对话框不可以对其其他窗口进行操作比如像下面这种出现后无法再操作其他窗口比如像下面这种创建后就无法在操作写代码的窗口创建对话框要将 include
【Unity&C#&随机数】随机数

一个简单的随机数获得 0或1 使用了这样的代码想要获得0或者1 if Input anyKeyDown float i 1 if i 1 i Random Range 0 Rang i i lt 0 5 0 1 Debug Log Cou
C语言经典100例题（18）--题目：求s=a+aa+aaa+aaaa+aa...a的值

目录题目问题分析代码测试结果题目求s a aa aaa aaaa aa a的值其中a是一个数字例如2 22 222 2222 22222 此时共有5个数相加几个数相加有键盘控制问题分析加数之间的规律 a a 0 10
Python实现归并排序

Python实现归并排序一归并排序简介归并排序 Merge Sort 是建立在归并操作上的一种效率很高的排序算法比较占用内存该算法是分治法 Divide and Conquer 的一个典型应用归并排序将两个或两个以上一般是两个
华为OD机试 Python 【响应报文时间】

题目假设你正在接收网络报文并且需要在一定时间内对它们作出响应每次当你收到一个报文时它会有一个最大响应时间来告诉你最晚需要在什么时候回应但是如果在等待回应期间又收到了新的报文你可能需要更新你的响应时间最大响应时间是这样计
关于uthash 的初步源码阅读

背景在偶然的mqtt mosquitto 中的源码中查看的关于topic的处理知道了哈希表这种的数据结构最近花了一点时间将这个部分的源码看了一部分不知道后面还有没有时间继续查看所以就写一篇文档作为笔记吧 uthash 使用 utha
数据ETL面临的问题----数据缺失

数据缺失的类型有完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的随机缺失 Missing at Random MAR 数据的缺失不是完全随机的数据的缺失只依

数据ETL面临的问题----数据缺失

数据ETL面临的问题----数据缺失 的相关文章

随机推荐

热门标签

数据ETL面临的问题----数据缺失的相关文章