数据清洗步骤及常用的方法

2023-05-16

流程

确定数据分析目的-获取数据-清洗数据-探索数据-建模分析-结果交流
探索数据：对整个数据集有全面的认识，一边后续开展工作
建模分析：常常用到机器学习、深度学习算法
结果：使用报告、图表展示数据，将成果与他人分享
脏数据：重复、残缺、错误数据、不符合规则的数据（噪声数据）
分为数据的读写、数据的探索与描述、数据简单处理、重复值处理、缺失值处理、异常值处理、文本字符串的处理、时间格式序列的处理。除了前三个以外顺序可以调整。

数据读写

pd.read_csv()
pd.read_excel()

数据的探索与描述

df.info()
df.head()
df.shape
df.describe() #只显示数值型数据的描述统计

数据简单处理

去除数据间的空格
- 列表推导式
  df.columns = [x.strip() for x in df.columns.str]
- df.columns = df.columns.str.strip()

英文字母大小写转换

重复值处理

duplicated() #分为两种，一种是前面的是True，一种是后为True
drop_duplicates() #不在原数据集上改变，需要加inplace参数

去除掉重复行后，要进行索引重置

df.index = range(df.shape[0])
df.reset_index(drop) #drop为True，删除之前的索引后重建索引

缺失值处理

df.isnall() 查看缺失值
df.notnull()
df.dropna() #删除缺失值
df.fillna() #填补缺失值
均值填充法
向前/后填充法
模型填充，如随机森林，KNN

可以根据每一列，一次一次找缺失值

异常值处理

删除异常值记录行或列
作为缺失值处理
平均值修正、盖帽法修正
不处理：业务分析挖掘价值

根据统计学知识找3个标准差外的为异常值：
sta = (x-x.mean())/x.std()
sta.abs()>3 #即为异常值

对于建模来说，通常会删掉异常值
对于业务来说，异常值可能包含隐含信息，意味着更多的价值

文本字符串处理

去除前后空格处理
处理中间有, ()之类的数据
正则表达式提取有用信息

df[‘酒店评分’] = df.酒店.str.extract(pattern, expand=False)
expand=True 返回index/Series
expand=False 返回DataFrame

时间格式序列处理

将系统时间格式化
系统时间与时间戳转换
年月日的提取

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据清洗步骤及常用的方法

数据清洗步骤及常用的方法的相关文章

数据结构三：彻底理解栈（一）小白篇

栈个人的小理解考研方向害羞的栈栈的结构形象概括栈的元素进出过程栈的实现之顺序存储过程结构栈的实现之链式存储过程结构个人的小理解栈没有那么复杂 xff0c 可以直接理解成是一种形式 xff0c 在我的数据结构一的理解中写的也很详细
数据结构实训之——哈夫曼树压缩文件和解压文件（C语言）

文章目录实训目的代码实验部分截图心里话源码 43 实验报告 x1f60b 实训目的这次实训是我在大学第一次实训啊哈哈哈哈 xff0c 这次实训也让我对与哈夫曼压缩和解压缩这方面的应用有了很大的理解和提升这次实训的目的如下 xff1a
必备技能之——神奇的int与char 的转换，就还蛮“聪明”哒

int 和 char 类型的转换 char 转 int 代码都很简单 xff0c 主要是想呈现那个效果 include lt stdio h gt include lt string h gt include lt stdlib h gt
自制浏览器界面——属于自己的浏览器页面（一）

简约浏览器界面一直想出这方面的博客 xff0c 但是一直没有时间 xff0c 现在加油更新 xff01 谁说学计算机不能骚起来的 xff01 xff01 xff01 xff01 以下是效果图 xff0c 是非常简约的效果 xff1a 这方
如何修改VS编译器的背景图：快来换属于你的背景图！！！！！

打代码时候尤其是像我这种很看重颜值的人来说 xff0c 一个好看的编译器背景成了非常非常重要的事情 xff0c 一个好看的背景也可以让你打代码时感到顿感灵感无限效果图最近比较喜欢偏古风 xff0c 所以展示的是偏古风的背景图那直接进入
机器学习如何处理和清洗数据？

数据处理和清洗是机器学习中非常重要的步骤由于现实世界中的数据通常是杂乱无章的 xff0c 可能包含缺失值异常值重复值不一致的数据格式不完整的数据等 xff0c 这些数据可能会对模型的准确性产生负面影响因此 xff0c 在机器学习
作为大二大学生，对自己接触到的语言的用途总结和自我反思

不知不觉 xff0c 我已经大二下学期了 xff0c 自我接触计算机这个领域已经差不多两年了 x1f31a x1f31a x1f31a xff0c 在很多的良师益友的陪伴帮助以及自我学习下 xff0c 我收获了很多知识 xff0c 也打出了
测试必备技能之C语言文件函数（超级全能篇）——FILE函数

之前出过的文件FILE函数的小白篇 xff0c 现在出一个全面一些的以下讲解直接分为函数原型 43 函数作用 43 测试用例让大家真真正正的理解和感受这几个FILE函数的作用二话不说 xff0c 开冲 xff01 额先来个小表格 x
Logisim之——1位比较器设计

任务描述本关任务 xff1a 在Logisim中完成1位比较器电路的绘制并完成测试相关知识在数字电路中 xff0c 经常需要对两个位数相同的二进制数进行比较 xff0c 以判断它们的相对大小或者是否相等 xff0c 用来实现这一功能的
Logisim之——2位比较器

任务描述本关任务 xff1a 在Logisim中完成2位比较器电路的绘制并完成测试相关知识在数字电路中 xff0c 经常需要对两个位数相同的二进制数进行比较 xff0c 以判断它们的相对大小或者是否相等 xff0c 用来实现这一功能的
Ｌｏｇｉｓｉｍ之——１６位无符号比较器

任务描述本关任务 xff1a 利用在第3关中已经设计完成的4位无符号比较器 xff08 4个 xff09 级联构建16位无符号比较器相关知识比较器级联扩展的基本原理 4个4位比较器的比较结果记为 xff1a Li1 xff08 大 x
夏季来临啦，快来换浏览器界面吧——动画背景版本（二）

炎炎夏日来袭啦 xff0c 你的浏览器界面也换成夏天的吧 xff01 上效果图啦啦啦依旧是秉承简约的风格浏览器 xff0c 底部采用列表做的动画 xff0c 这里做部分代码解释 xff0c 具体代码在下方 xff0c 需要的朋友可以自行下
网络层习题专项一“子网划分”及“聚合“习题（超强个人理解）

网络层习题专项有关最大聚合问题划分子网问题1 普通的划分反问你自己2 等长子网划分问题题目来自于计算机网络基础第7版 xff08 谢希仁编著 xff09 以及我本人结合自身想法题目网络上一些经典题目 xff08 算是自己的一
PyGame “超级玛丽”游戏专题开篇——“变态超级玛丽”的诞生

欢迎来到PyGame频道 x1f431 x1f453 开篇介绍源码获取开篇介绍哈喽 xff0c 又是我 xff0c 一个很久又不更新博客的苦逼大二学生 xff0c 哈哈哈哈哈前段时间学习了PyGame xff0c 自己也做了很多游戏啦
2个74151实现16位数据选择器以及在Multisim的演示

不说废话了 xff0c 开冲开冲 x1f431 x1f680 74151是八位数据选择器 xff0c 其实实现起来也很简单 xff0c 主要就是最高位的问题嘛 xff0c 比如说 0000 那直接都用不上2个74151 xff0c 像111
(无敌解释)Python 字符串、列表、字典之间的相互转换方法总结

欢迎来到Python频道 x1f933 列表转字符串方法方法一方法二字符串转列表方法一 xff1a 刚好长得一样方法二 xff1a 将字符串中每个字符转成列表中的值方法三 xff1a 分割列表转字典方法一 xff1a 用zip 方法
华为云 OBS 海思交叉编译

https github com huaweicloud huaweicloud sdk c obs blob master Readme txt 内描述如下 xff1a 1 第三方依赖 xff1a openssl 1 0 2r zlib
超级玛丽封面完工制作，谁说新手不能学哒？？！

超级玛丽之工具环境的搭建所用参考文档 x1f40d 项目搭建的目录列表 x1f98b 本次博客内容主要呈现的效果图展示 x1f36c 文件代码分析 x1f93e tools py内容和说明 x1f63c 说明代码 setup py内容和
计算机网络期末实验考试题目+总结(用的是CISCO软件~~)

欢迎来到计算机网络频道 x1f987 前言 x1f973 实验题目 x1f63c 实验拓扑图 x1f648 实验分析交换机S3配置IP地址和默认网关信息 xff1a DHCP Server的配置 xff1a PC5 PC6 xff1a 交换

随机推荐

可爱滴css滑动导航条

欢迎来到HTML频道 x1f408 效果代码分析今天看到了一个还蛮可爱的滑动导航条 xff0c 在这里分享一下做法 xff0c 也同时感谢一下原作者 xff0c 写的特别好 x1f60e 效果这里没有录动态的了 xff0c 大家脑补一下
暴打JavaScript语法之语法糖第一弹

欢迎来到JavaScript频道 x1f407 基本语句 statement 43 注释 x1f3cc 变量 xff08 量量子鲜森 xff09 x1f9d7 var的小tips关键字和保留字 x1f9dc 数据类型 x1f3ca type
CSS之可爱的伪元素::maker详解

欢迎来到HTML部件频道 x1f9ae 这里是x魔王 xff0c 今天分享一个非常有用的部件以及它的用处 xff0c 先来看看它的效果吧点击是会变图案滴 xff0c 那么这个的做法就得益于CSS 伪元素 marker 就像这个大家一定熟悉
CSS之帅气朋克字体效果以及“故障风”按钮的实现（图片+按钮）

欢迎来到HTML部件频道 x1f430 前言 x1f4eb 今天来实现一个帅气的朋克效果 xff0c 这个效果是我很早之前就想出的一篇博客 xff0c 今天补上 xff0c 先来欣赏一下朋克的效果感 x1f60b 不知道各位看官感觉如何呢
jQuery+风琴拉伸效果唯美少女滴风格菜单的做法

欢迎来到HTML部件频道 x1f49e 今天记录一款非常常见的菜单做法 xff0c 具体效果看下图 xff1a x1f9d0 好啦如果说对今天的分享感兴趣的话就继续往下看吧 x1f4a8 lt doctype html gt lt html
暴打javascript语法之变量详解

欢迎来到javascript频道 x1f435 变量讨论全局与局部基本类型与引用类型动态属性关于复制问题传递的是基本类型传递的是引用类型小栗子对象内建对象宿主对象变量讨论全局与局部当我们在讨论一个变量的时候 xff0c 最重要的就是
还不会时间复杂度的计算？？你该补补了！

大家好 xff0c 这里是数据结构频道 x1f366 为什么需要讨论复杂度 xff1f xff1f x1f9d0 时间复杂度 x1f511 插播一下类型 x1f35c 加法规则 x1f363 乘法规则 x1f961 我的总结 x1f54a
暴打JavaScript语法之DOM基础一：节点详解和类型简单说明

欢迎来到JavaScript频道 x1f505 x1f505 x1f505 语法篇章总是这样冗杂而漫长 xff0c 但是要坚持什么是 34 DOM 34 x1f4a2 节点概念节点属性重要类型Node类型Document类型 x1f3
sed cat 命令

检测 sed 39 2019 12 16 00 00 00 2019 12 16 17 20 00 p 39 store logs freight py taobao 2019 12 16 freight log grep 34 耗时 34
jQuery中的$和$()含义基础解释

欢迎来到必备技能频道 x1f419 x1f99e x1f980 常用情况 x1f31d 直接进入主题啦是jQuery的别称 xff0c 也就是是jQuery的对象 xff0c 所有在用到的地方都可以使用JQuery来代替 xff0c
HBuilder宝藏背景主题颜色分享+如何拥有属于自己的HBuilder主题+做法

欢迎来到编译器背景图频道 x1fa70 x1fa70 x1fa70 紫粉主题 x1f49c 浅粉浅紫主题大家好这里是X xff0c 今天给大家分享几个HBuilder我本人常用也非常喜欢的背景主题 xff0c 下面是效果 xff1a 紫粉
点击时会跳动的按钮做法详解

欢迎来到HTML部件频道今天分享一下那种带有 34 跳动 34 效果的按钮的做法 xff0c 那么先来看一下效果吧 x1f342 x1f342 x1f342 大概的效果就是这样 xff0c 当然了这个按钮的样式很丑啊不过这个没关系主要是学
必备技能—icomoon图库的详细使用+例子展示

欢迎来到必备技能频道 x1f302 x1f97d x1f97d 前段时间去开发了一个小项目去了 xff0c 好久没写博客啦 xff0c 这几天把这些天从这个小项目中学到的知识都写在博客里 xff0c 开始大补啦 x1f35a x1f35a
最强前端宝藏网站分享之前端开发者的“秘密花园“第一浪(非常值得收藏)

大家好 xff0c 这里是大魔王 x1f431 x1f464 xff0c 今天推荐一下我学习HTML的这一年来收藏和使用过觉得非常好的一些网站 xff0c 包括很多像CSS生成器网站等的分享 xff0c 好啦如果对这些内容感兴趣就继续往下看
Font Awesome、ionic icon图标库的超详细使用方法

Hello 这里是大魔王 x1f5a4 x1f5a4 x1f5a4 xff0c 今天来介绍两个非常常用的图标库的使用方法 xff0c 这两个图标库使用起来非常方便 xff0c 不像其他图标库那样 xff0c 是可以直接使用的 xff0c 那
HTML部件之—搜索框深水炸弹第二弹

大家好这里是大魔王 x1f4a4 x1f4a4 x1f4a4 xff0c 最近比较喜欢做所搜框 xff0c 所以今天又来分享一个搜索框 x1f9e1 xff0c 以后的分享会做的更加详细一些 xff0c 如果对你有帮助 xff0c 别忘了收
暴打JavaScript语法之DOM基础二：Node类型的详细说明和操作节点的操作演示

大家好 xff0c 这里是X x1f41f xff0c 今天继续来更DOM基础啦 xff0c 事先说明一下本篇博客主要内容 xff0c 关于Node类型和Document类型的简单解释我在上一篇博客已经说明过了 xff0c 这篇博客是对上一
博客样板样式太单调?超强总结CSDN博客Markerdown各种炫丽样式(必须收藏)

大家好这里是X x1f90d xff0c 今天来出一篇写博客不同样式的技巧 x1f9e1 不管是新手小白还是已经写博客很久的大神 xff0c 都可以收藏总结一下在CSDN写博客都有哪些好看又实用的样式噢 xff0c 让我们开始吧 xff01
CSDN关于数学各种符号的表示，快来收藏啦！

大家好我是X x1f49a xff0c 在CSDN上写博客对于数学各种符号不知道如何表示 x1f4a8 快来学习 xff0c 建议收藏噢 x1f49b 先来几个效果吧 i 61 1
数据清洗步骤及常用的方法

流程确定数据分析目的获取数据清洗数据探索数据建模分析结果交流探索数据 xff1a 对整个数据集有全面的认识 xff0c 一边后续开展工作建模分析 xff1a 常常用到机器学习深度学习算法结果 xff1a 使用报告图表展

热门标签