数据挖掘而之数据清洗

2023-11-10

数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗，相关的书籍也不少。

　　(美亚搜data cleaning的结果，可以看到这书还挺贵)

　　我将在这篇文章中，尝试非常浅层次的梳理一下数据清洗过程，供各位参考。

　　照例，先上图：

　　预处理阶段

　　预处理阶段主要做两件事情：

　　一是将数据导入处理工具。通常来说，建议使用数据库，单机跑数搭建MySQL环境即可。如果数据量大(千万级以上)，可以使用文本文件存储+Python操作的方式。

　　二是看数据。这里包含两个部分：一是看元数据，包括字段解释、数据来源、代码表等等一切描述数据的信息;二是抽取一部分数据，使用人工查看方式，对数据本身有一个直观的了解，并且初步发现一些问题，为之后的处理做准备。

　　第一步：缺失值清洗

　　缺失值是最常见的数据问题，处理缺失值也有很多方法，我建议按照以下四个步骤进行：

　　1、确定缺失值范围：对每个字段都计算其缺失值比例，然后按照缺失比例和字段重要性，分别制定策略，可用下图表示：

　　2、去除不需要的字段：这一步很简单，直接删掉即可……但强烈建议清洗每做一步都备份一下，或者在小规模数据上试验成功再处理全量数据，不然删错了会追悔莫及(多说一句，写SQL的时候delete一定要配where!)。

　　3、填充缺失内容：某些缺失值可以进行填充，方法有以下三种：

以业务知识或经验推测填充缺失值
以同一指标的计算结果(均值、中位数、众数等)填充缺失值
以不同指标的计算结果填充缺失值

　　前两种方法比较好理解。关于第三种方法，举个最简单的例子：年龄字段缺失，但是有屏蔽后六位的身份证号，so……

　　4、重新取数：如果某些指标非常重要又缺失率高，那就需要和取数人员或业务人员了解，是否有其他渠道可以取到相关数据。

　　以上，简单的梳理了缺失值清洗的步骤，但其中有一些内容远比我说的复杂，比如填充缺失值。很多讲统计方法或统计工具的书籍会提到相关方法，有兴趣的各位可以自行深入了解。

　　第二步：格式内容清洗

　　如果数据是由系统日志而来，那么通常在格式和内容方面，会与元数据的描述一致。而如果数据是由人工收集或用户填写而来，则有很大可能性在格式和内容上存在一些问题，简单来说，格式内容问题有以下几类：

　　1、时间、日期、数值、全半角等显示格式不一致

　　这种问题通常与输入端有关，在整合多来源数据时也有可能遇到，将其处理成一致的某种格式即可。

　　2、内容中有不该存在的字符

　　某些内容可能只包括一部分字符，比如身份证号是数字+字母，中国人姓名是汉字(赵C这种情况还是少数)。最典型的就是头、尾、中间的空格，也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下，需要以半自动校验半人工方式来找出可能存在的问题，并去除不需要的字符。

　　3、内容与该字段应有内容不符

　　姓名写了性别，身份证号写了手机号等等，均属这种问题。但该问题特殊性在于：并不能简单的以删除来处理，因为成因有可能是人工填写错误，也有可能是前端没有校验，还有可能是导入数据时部分或全部存在列没有对齐的问题，因此要详细识别问题类型。

　　格式内容问题是比较细节的问题，但很多分析失误都是栽在这个坑上，比如跨表关联或VLOOKUP失败(多个空格导致工具认为“陈丹奕”和“陈丹奕”不是一个人)、统计值不全(数字里掺个字母当然求和时结果有问题)、模型输出失败或效果不好(数据对错列了，把日期和年龄混了，so……)。因此，请各位务必注意这部分清洗工作，尤其是在处理的数据是人工收集而来，或者你确定产品前端校验设计不太好的时候……

　　第三步：逻辑错误清洗

　　这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据，防止分析结果走偏。主要包含以下几个步骤：

　　1、去重

　　有的分析师喜欢把去重放在第一步，但我强烈建议把去重放在格式内容清洗之后，原因已经说过了(多个空格导致工具认为“陈丹奕”和“陈丹奕”不是一个人，去重失败)。而且，并不是所有的重复都能这么简单的去掉……

　　我曾经做过电话销售相关的数据分析，发现销售们为了抢单简直无所不用其极……举例，一家公司叫做“ABC管家有限公司“，在销售A手里，然后销售B为了抢这个客户，在系统里录入一个”ABC官家有限公司“。你看，不仔细看你都看不出两者的区别，而且就算看出来了，你能保证没有”ABC官家有限公司“这种东西的存在么……这种时候，要么去抱RD大腿要求人家给你写模糊匹配算法，要么肉眼看吧。

　　上边这个还不是最狠的，请看下图：

　　你用的系统里很有可能两条路都叫八里庄路，敢直接去重不?(附送去重小tips：两个八里庄路的门牌号范围不一样)

　　当然，如果数据不是人工录入的，那么简单去重即可。

　　2、去除不合理值

　　一句话就能说清楚：有人填表时候瞎填，年龄200岁，年收入100000万(估计是没看见”万“字)，这种的就要么删掉，要么按缺失值处理。这种值如何发现?提示：可用但不限于箱形图(Box-plot).

　　3、修正矛盾内容

　　有些字段是可以互相验证的，举例：身份证号是1101031980XXXXXXXX，然后年龄填18岁，我们虽然理解人家永远18岁的想法，但得知真实年龄可以给用户提供更好的服务啊(又瞎扯……)。在这种时候，需要根据字段的数据来源，来判定哪个字段提供的信息更为可靠，去除或重构不可靠的字段。

　　逻辑错误除了以上列举的情况，还有很多未列举的情况，在实际操作中要酌情处理。另外，这一步骤在之后的数据分析建模过程中有可能重复，因为即使问题很简单，也并非所有问题都能够一次找出，我们能做的是使用工具和方法，尽量减少问题出现的可能性，使分析过程更为高效。

　　第四步：非需求数据清洗

　　这一步说起来非常简单：把不要的字段删了。

　　但实际操作起来，有很多问题，例如：

　　把看上去不需要但实际上对业务很重要的字段删了;

　　某个字段觉得有用，但又没想好怎么用，不知道是否该删;

　　一时看走眼，删错字段了。

　　前两种情况我给的建议是：如果数据量没有大到不删字段就没办法处理的程度，那么能不删的字段尽量不删。第三种情况，请勤备份数据……

　　第五步：关联性验证

　　如果你的数据有多个来源，那么有必要进行关联性验证。例如，你有汽车的线下购买信息，也有电话客服问卷信息，两者通过姓名和手机号关联，那么要看一下，同一个人线下登记的车辆信息和线上问卷问出来的车辆信息是不是同一辆，如果不是(别笑，业务流程设计不好是有可能出现这种问题的!)，那么需要调整或去除数据。

　　严格意义上来说，这已经脱离数据清洗的范畴了，而且关联数据变动在数据库模型中就应该涉及。但我还是希望提醒大家，多个来源的数据整合是非常复杂的工作，一定要注意数据之间的关联性，尽量在分析过程中不要出现数据之间互相矛盾，而你却毫无察觉的情况。

　　以上，就是我对数据清洗过程的一个简单梳理。由于能力所限，难免挂一漏万，请各位不吝赐教，感谢。

　　文章来源36大数据，www.36dsj.com ，微信号dashuju36 ，36大数据是一个专注大数据创业、大数据技术与分析、大数据商业与应用的网站。分享大数据的干货教程和大数据应用案例，提供大数据分析工具和资料下载，解决大数据产业链上的创业、技术、分析、商业、应用等问题，为大数据产业链上的公司和数据行业从业人员提供支持与服务。

转自：http://it.sohu.com/20160327/n442421732.shtml

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘而之数据清洗的相关文章

经典SQL面试题讲解(11-20)

本文转自公众号俊红的数据分析之路本篇节选自书籍对比Excel 轻松学习SQL数据分析一书主要讲解数据分析面试中常见的30道SQL面试题 1 10题见几道经典SQL面试题讲解 11 行列互换现在我们有下面这么一个表row col
Java实现简单版SVM

Java实现简单版SVM 最近的图像分类工作要用到latent svm 为了更加深入了解svm 自己动手实现一个简单版的之所以说是简单版因为没有用到拉格朗日对偶核函数等等而是用最简单的梯度下降法求解其中的数学原理我参考了http
任务五：使用LightGBM对数据进行分类并评估

1 对前几部得到的特征进行分类主要用到sklearn中的LightGBM进行评估并用网格搜索进行参数调优 2 Lightgbm是2017年在当时的NeurIPS 当时为NIPS 上发表的论文文中主要是相比于XGBoost LightG
泰迪杯挑战赛优秀论文-A题-基于数据挖掘的上市公司高送转预测

目录第 1 章绪论 1 1问题背景 1 2问题重述 1 3本文主要工作与创新点 1 4模型假设 1 5本文研究意义第 2 章相关理论 2 1高送转相关知识介绍 2 1 1高送转的实质 2 1 2预测下一年上市公司高送转的一些其他条
对话数据宝董事长汤寒林：数据要素崛起的背后是产业链的爆发

数字经济再添新概念数据要素的来到会对行业产生什么影响数科星球原创作者丨苑晶编辑丨十里香从小众的极客文化再到被众多企业所接纳信息科技已经历70余年现在随着越来越多的企业开始拥抱数据产业之时数据的有效利用成为企业间备受关注的话
数据预处理与特征工程—10.图像切割与特征提取

文章目录引言一图像切割二特征提取 1 各阶颜色矩的计算公式三 python实现水质图像数据百度网盘链接提取码 1234 引言本文以水质图像为例进行图像切割与特征提取一图像切割一般情况下采集到的水样图片包含盛水容器
浅谈数据挖掘

一数据挖掘起源人们迫切希望能对海量数据进行深入分析发现并提取隐藏在其中的信息以更好地利用这些数据但仅以数据库系统的录入查询统计等功能无法发现数据中存在的关系和规则无法根据现有的数据预测未来的发展趋势更缺乏挖掘数据背后隐藏
2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

目录一概述二解题过程 2 1 数据 2 2 构建基线 2 3 进阶思路一 2 4 进阶思路二 2 5 进阶思路三 2 6 融合 2 7 调优提分过程 2 8 其他工作三结语一概述这是我第二次参加大数据类型的竞赛也是第一次
全网最详细的Python安装教程，超级详细·小白秒懂！！！

目录 1 安装版本说明 2 准备工作确定操作系统及位数 2 1 确定方法1 2 2 确定方法2 3 下载Python安装包 4 安装Python 5 测试Python是否安装成功 6 Python安装成功后找不到编写代码的桌面快捷方式 7
GraphPad Prism 9：最强大的数据分析软件，助您轻松解析复杂数据！

您是否正在寻找一个功能强大易于使用的数据分析软件 GraphPad Prism 9是您的最佳选择作为全球领先的科学数据分析工具 Prism 9提供了广泛的功能和先进的统计分析方法帮助您轻松解析和可视化复杂的数据 Prism 9不仅具备
鲸鱼算法(WOA)优化极限学习机ELM回归预测,WOA-ELM回归预测，多变量输入模型

作者简介热爱科研的Matlab仿真开发者修心和技术同步精进代码获取论文复现及科研仿真合作可私信个人主页 Matlab科研工作室个人信条格物致知更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信
WOA-BILSTM-Attention基于鲸鱼算法优化双向长短期记忆网络结合注意力机制回归预测，多变量输入模型

文章目录效果一览文章概述订阅专栏只能获取专栏内一份代码部分源码参考资料
天猫数据分析-天猫查数据软件-11月天猫平台饮料市场品牌及店铺销量销额数据分析

今年以来饮料是快消品行业中少数保持稳定增长的品类之一 11月份饮料市场同样呈现较好的增长态势根据鲸参谋电商数据分析平台的相关数据显示今年11月份天猫平台上饮料市场的销量为2700万环比增长约42 同比增长约28 销售额为13亿
Python-一键爬取图片、音频、视频资源

前言使用Python爬取任意网页的资源文件比如图片音频视频一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源这里我做了一个爬虫工具软件可以一键爬取资源媒体文件但是需要说明的是这里爬取资源
Python-一键爬取图片、音频、视频资源

前言使用Python爬取任意网页的资源文件比如图片音频视频一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源这里我做了一个爬虫工具软件可以一键爬取资源媒体文件但是需要说明的是这里爬取资源
ResNet实战：CIFAR-10数据集分类

本节将使用ResNet实现CIFAR 10数据集分类 7 2 1 CIFAR 10 数据集简介 CIFAR 10数据集共有60000幅彩色图像这些图像是32 32像素的分为10个类每类6000幅图这里面有50000幅用于训练构成了
Pendulum详解1——Pendulum库入门指南 - 时光的艺术

写在开头时间是编程世界中不可或缺的元素无论是事件调度数据分析还是用户界面的显示时间都扮演着关键的角色然而在Python的标准库 datetime 中我们经常面临繁琐的操作和限制为了摆脱这些束缚我们引入了一个更加强大和灵
民安智库（第三方满意度调研公司）：满意度调查，选择适合的数据分析方法

满意度调查是企业了解客户对其产品或服务满意程度的重要工具而选择适合的数据分析方法则是解读调查结果的关键步骤不同的数据分析方法可以提供不同的洞察和见解帮助企业更好地理解客户需求优化产品和服务本文将分享民安智库北京第三方绩效管理评估
时间序列平稳性相关检验方法

理解平稳性一般来说平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列特别是在均值和方差方面平稳性可能是一个比较模糊的概念将序列排除为不平稳可能比说序列是平稳的更容易通常不平稳序列有几个特征平均值随时间推移发生变化
【状态估计】电力系统状态估计中的异常检测与分类（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文

随机推荐

解决MATLAB Simulink 无法打开高版本模型的问题

参考及致谢MATLAB版本 R2019a 不同版本的设置方式可能不同报错内容解决方案 Step1 Step2 Step3 按照上述流程操作后就可以在低版本simulink中浏览使用高版本创建的模型文件 slx文件了
上门维修保养小程序系统开发

用户通过小程序添加绑定需要售后维保的机器设备然后用户通过小程序线上提交报修需求清单后台分配安排人员上门维修标记确认订单完成同时提供在线服务商城积分优惠劵抵扣会员卡管理会员等级服务核心功能维修服务保养服务使用攻略服务商城
c++数据读取、保存之dcm格式(需要有dcmtk)

include
【Shader笔记】Unity Shader基础

参考书籍 UNITY SHADER入门精要一材质 Material 与 Unity Shader 效果的实现需要材质和Unity Shader配合使用常见流程为 1 创建一个材质 2 创建一个Unity Shader 并赋予给上一步新
python粒子群算法工具包_python进阶教程：实现粒子群算法(PSO)详解

本文来源于公众号 csdn2299 喜欢可以关注公众号程序员学府这篇文章主要介绍了Python编程实现粒子群算法 PSO 详解涉及粒子群算法的原理过程以及实现代码示例具有一定参考价值需要的朋友可以了解下文章目录 1 原理 2
Transformer学习笔记

Transformer是第一个完全依赖于自我注意力机制来计算输入和输出表征的转导模型而不使用序列对齐的RNNs或卷积 Figure 1 左 Transformer整体结构右编解码器内部结构图 Encoder Decoder 编码器由
虚拟机没有显示ip地址

之所以写这篇博客是因为有个同学刚搭建完虚拟机但没有IP地址为了帮助那个同学和回顾知识所以有了这篇博客而且网上大部分博客都没提到networkmanager的问题所以这边就记录一下一检查网络连接模式是否为NAT模式在VMware
Redis学习：Redis实现乐观锁

实际这部分是接着事务那一块加了一个watch命令这里要有一个乐观锁和悲观锁的概念悲观锁很悲观认为什么时候都会出现问题无论做什么都会加锁乐观锁很乐观认为什么时候都不会出现问题所以不会上锁更新数据的时候去判断一下在此期间
Python提取PDF中的图片

插播一条老家自产的糖心苹果多个品种欢迎选购有问题随时私信我来自雪域高原的馈赠海拔2000米的大凉山高原生态糖心苹果 https blog csdn net qq 15969343 article details 126107252
VUE H5 页面借助 dsbridge 嵌入到 app 中（前端）

H5 页面嵌入 app 中不得不面对 web 和 native 之间进行交互的问题比如传递参数调用函数等至于交互的桥梁目前 github 上有一些开源的其中使用最广的是 jsBridge 然而最近刚开源了一个新项目 dsbri
Canal实现Mysql数据同步至Redis、Elasticsearch

文章目录 1 Canal简介 1 1 MySQL主备复制原理 1 2 canal工作原理 2 开启MySQL Binlog 3 安装Canal 3 1 下载Canal 3 2 修改配置文件 3 3 启动和关闭 4 SpringCloud集成
【Lua】Table根据value排序

使用lua开发需要把有用的数据全部存进Table里 lua也提供了一个sort接口来给table排序但是sort的实现也是基于冒泡排序他默认table的key是从1开始的这样就会造成当我们的key是一些特殊的标志位比如游戏中背包数据
深入浅出JMS(二)--ActiveMQ简单介绍以及安装

现实的企业中对于消息通信的应用一直都非常的火热而且在J2EE的企业应用中扮演着特殊的角色所以对于它研究是非常有必要的上篇博文深入浅出JMS 一 JMS基本概念我们介绍了消息通信的规范JMS 我们这篇博文介绍一款开源的JMS具体实现
Ubuntu：配置环境变量的两种常用方法（ .bashrc 和 /etc/profile ）

环境变量什么是环境变量简单地说环境变量就是当前环境下的参数或者变量如果说的专业一点就是指在操作系统中用来指定操作系统的一些参数如最常见的环境变量 PATH 它的用途就是当用户要求系统运行一个程序而没有告诉它程序所在的完整路径时系
iphone数据传输已取消怎么办_iPhone被停用怎么办?iPhone如何解除停用状态?

面对iPhone已停用状态我们该怎么解决这或许会是很多人存在的疑问有个好消息是在你的iPhone被停用的情况下我们还是有办法能够让iPhone复活虽然过程有点曲折但是努力的话总归是有结果的下面将为大家介绍下 iPhone被
c语言函数返回变量的地址,浅谈C语言函数返回值--局部变量和局部变量地址

下面的内容是在C专家编程里面看到的摘录于此在C语言中局部变量的作用域只在函数内部在函数返回后局部变量的内存就会被释放如果函数只是返回局部变量那么这个局部变量会被复制一份传回被调用处但是如果函数返回的是局部变量的地址那么就会
Vmware中鼠标移动时滚轮失效没反应Ubuntu20.04.1

通过安装imwheel解决先更新软件源 sudo apt get update 安装imwheel sudo apt get install imwheel 在目录下创建 imwheelrc文件 cd sudo vim imwheelr
使用Sklearn的SVM接口实现鸢尾花分类

Iris Data Set Iris Data Set 鸢尾属植物数据集是历史比较悠久的数据集它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文 The use of multiple measurem
Docker安装Redis6

1 拉取redis镜像 docker pull redis 6 2 创建redis映射目录 mkdir p usr local docker redis 3 下载redis conf到映射目录 cd usr local docker red
数据挖掘而之数据清洗

数据清洗是整个数据分析过程中不可缺少的一个环节其结果质量直接关系到模型效果和最终结论在实际操作中数据清洗通常会占据分析过程的50 80 的时间国外有些学术机构会专门研究如何做数据清洗相关的书籍也不少美亚搜data cleani

数据挖掘而之数据清洗

数据挖掘而之数据清洗 的相关文章

随机推荐

热门标签

数据挖掘而之数据清洗的相关文章