python数据清洗的三个常用的处理方式！

2023-11-06

关于python数据处理过程中三个主要的数据清洗说明，分别是缺失值/空格/重复值的数据清洗。

这里还是使用pandas来获取excel或者csv的数据源来进行数据处理。若是没有pandas的非标准库需要使用pip的方式安装一下。

pip install pandas

准备一下需要处理的脏数据，这里选用的是excel数据，也可以选择其他的格式数据，下面是源数据截图。

在这里插入图片描述

使用pandas的read_excel()函数读取出我们需要处理的data.xlsx文件。

# Importing the pandas library and giving it an alias of pd.
import pandas as pd

# Reading the excel file and storing it in a variable called `result_`
result_ = pd.read_excel('D:/test/data.xlsx')

# Printing the dataframe.
print(result_)

注意，若是新的python环境直接安装pandas模块后执行上面的读取excel数据代码可能会出现没有openpyxl模块的情况。

这时候，我们使用pip的方式再次安装一下openpyxl即可。

pip install openpyxl

完成后再次执行读取excel数据的代码块会成功的返回结果。

#           姓名    年龄    班级   成绩 表现
# 0   Python 集中营  10  1210   99  A
# 1   Python 集中营  11  1211  100  A
# 2   Python 集中营  12  1212  101  A
# 3   Python 集中营  13  1213  102  A
# 4   Python 集中营  14  1214  103  A
# 5   Python 集中营  15  1215  104  A
# 6   Python 集中营  16  1216  105  A
# 7   Python 集中营  17  1217  106  A
# 8   Python 集中营  18  1218  107  A
# 9   Python 集中营  19  1219  108  A
# 10  Python 集中营  20  1220  109  A
# 11  Python 集中营  21  1221  110  A
# 12  Python 集中营  22  1222  111  A
# 13  Python 集中营  23  1223  112  A
# 14  Python 集中营  24  1224  113  A
# 15  Python 集中营  25  1225  114  A
# 16  Python 集中营  26  1226  115  A
# 17  Python 集中营  27  1227  116  A
# 18  Python 集中营  28  1228  117  A
#
# Process finished with exit code 0

准备好数据源之后，我们使用三个方式来完成对源数据的数据清洗。

1.strip函数清除空格

首先，将所有的列名称提取出来，使用DataFrame对象的columns函数进行提取。

# Extracting the column names from the dataframe and storing it in a variable called `columns_`.
columns_ = result_.columns.values

# Printing the column names of the dataframe.
print(columns_)

# ['  姓名  ' '年龄' '班级' '成绩' '表现']

从列名称的打印结果发现’姓名’这一列是存在空格的，我们直接查找列名称是找不到的，因为需要对列名称的空格进行数据清洗。

为了减少代码块的使用，我们这里直接使用列表推导式的方式对列名称的空格进行清洗。

# A list comprehension that is iterating over the `columns_` list and stripping the whitespaces from each element of the
# list.
result_.columns = [column_name.strip() for column_name in columns_]

# Printing the column names of the dataframe.
print(result_.columns.values)

# ['姓名' '年龄' '班级' '成绩' '表现']

经过数据清洗后，发现所有的列名称空格情况已经被全部清洗了。若是存在某个列中的值空格需要清洗也可以采用strip函数进行清洗。

2.duplicated函数清除重复数据

关于重复数据的判断有两种情况，一种是两行完全相同的数据即为重复数据。另外一种则是部分相同指的是某个列的数据是相同的需要清洗。

# The `duplicated()` function is returning a boolean series that is True if the row is a duplicate and False if the row is
# not a duplicate.
repeat_num = result_.duplicated().sum()

# Printing the number of duplicate rows in the dataframe.
print(repeat_num)

# 1

通过上面的duplicated().sum()函数得到的是两个完全相同的数据行是多少。

接着则可以对源数据进行实际意义上的删除，使用DataFrame对象的drop_duplicates函数进行删除。

# The `drop_duplicates()` function is dropping the duplicate rows from the dataframe and the `inplace=True` is
# modifying the dataframe in place.
result_.drop_duplicates(inplace=True)

# Printing the dataframe.
print(result_)

#            姓名  年龄    班级   成绩 表现
# 0   Python 集中营  10  1210   99  A
# 1   Python 集中营  11  1211  100  A
# 2   Python 集中营  12  1212  101  A
# 3   Python 集中营  13  1213  102  A
# 4   Python 集中营  14  1214  103  A
# 5   Python 集中营  15  1215  104  A
# 6   Python 集中营  16  1216  105  A
# 7   Python 集中营  17  1217  106  A
# 8   Python 集中营  18  1218  107  A
# 9   Python 集中营  19  1219  108  A
# 10  Python 集中营  20  1220  109  A
# 11  Python 集中营  21  1221  110  A
# 12  Python 集中营  22  1222  111  A
# 13  Python 集中营  23  1223  112  A
# 14  Python 集中营  24  1224  113  A
# 15  Python 集中营  25  1225  114  A
# 16  Python 集中营  26  1226  115  A
# 17  Python 集中营  27  1227  116  A

因为最后一行和第一行的数据是完全相同的，因此最后一行的数据已经被清洗掉了。

一般在数据清洗删除重复值之后需要重置索引，避免索引产生不连续性。

# The `range(result_.shape[0])` is creating a list of numbers from 0 to the number of rows in the dataframe.
result_.index = range(result_.shape[0])

# The `print(result_.index)` is printing the index of the dataframe.
print(result_.index)

# RangeIndex(start=0, stop=18, step=1)

3.数据缺失值补全

一般查看DataFrame数据对象的缺失值就是通过使用isnull函数来提取所有数据缺失的部分。


# The `isnull()` function is returning a boolean series that is True if the value is missing and False if the value
# is not missing.
sul_ = result_.isnull()

# The `print(sul_)` is printing the boolean series that is True if the value is missing and False if the value is not
# missing.
print(sul_)

#        姓名     年龄     班级     成绩     表现
# 0   False  False  False  False  False
# 1   False  False  False  False  False
# 2   False  False  False  False  False
# 3   False  False  False  False  False
# 4   False  False  False  False  False
# 5   False  False  False  False  False
# 6   False  False  False  False  False
# 7   False  False  False  False  False
# 8   False  False  False  False  False
# 9   False  False  False  False  False
# 10  False  False  False  False  False
# 11  False  False  False  False  False
# 12  False  False  False  False  False
# 13  False  False  False  False  False
# 14  False  False  False  False  False
# 15  False  False  False  False  False
# 16  False  False  False  False  False
# 17  False  False  False  False  False

返回的每一个单元格数据结果为False则代表这个单元格的数据是没有缺失的，或者也可以使用notnull来反向查看。

使用isnull函数不想显示很多的列表数据时，可以使用sum函数进行统计。

# The `isnull_sum = result_.isnull().sum()` is returning a series that is the sum of the boolean series that is True if
# the value is missing and False if the value is not missing.
isnull_sum = result_.isnull().sum()

# The `isnull_sum = result_.isnull().sum()` is returning a series that is the sum of the boolean series that is True if
# the value is missing and False if the value is not missing.
print(isnull_sum)

# 姓名    0
# 年龄    0
# 班级    0
# 成绩    0
# 表现    0
# dtype: int64

通过isnull函数处理后使用sum函数进行统计，统计后会返回每一列的数据单元格为空的个数。

接下来就是数据值的填补过程，通常可以筛选每一列中的空值填补固定的数据。

# The `result_.loc[result_.姓名.isnull(), '姓名']` is returning a series that is the values of the column `姓名`
# where the values are missing. The `'Python 集中营'` is the value that is being assigned to the series.
result_.loc[result_.姓名.isnull(), '姓名'] = 'Python 集中营'

# Printing the dataframe.
print(result_)

#             姓名  年龄    班级   成绩 表现
# 0   Python 集中营  10  1210   99  A
# 1   Python 集中营  11  1211  100  A
# 2   Python 集中营  12  1212  101  A
# 3   Python 集中营  13  1213  102  A
# 4   Python 集中营  14  1214  103  A
# 5   Python 集中营  15  1215  104  A
# 6   Python 集中营  16  1216  105  A
# 7   Python 集中营  17  1217  106  A
# 8   Python 集中营  18  1218  107  A
# 9   Python 集中营  19  1219  108  A
# 10  Python 集中营  20  1220  109  A
# 11  Python 集中营  21  1221  110  A
# 12  Python 集中营  22  1222  111  A
# 13  Python 集中营  23  1223  112  A
# 14  Python 集中营  24  1224  113  A
# 15  Python 集中营  25  1225  114  A
# 16  Python 集中营  26  1226  115  A
# 17  Python 集中营  27  1227  116  A

4.数据保存

数据清洗完成之后，可以使用DataFrame对象提供的to_csv/to_excel等函数进行特定格式的数据保存。

result_.to_excel('data.xlsx')

最后，整个数据清洗的过程就完成了，希望可以给大家带来帮助，感谢阅读！

【往期精彩】

数据可视化：四种关系图数据可视化的效果对比！

学会这几项windows操作，轻松玩转自己的个人电脑！

python自动化：使用socket做一个多进程的端口扫描器！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

数据分析

python数据清洗的三个常用的处理方式！的相关文章

如何在Python中获得更精确的十进制值[重复]

这个问题在这里已经有答案了 from math import sqrt a 1e 8 b 10 c 1e 8 x1 b sqrt b 2 4 a c 2 a x2 b sqrt b 2 4 a c 2 a print x1 format x
使用 Flask 从 Jinja 模板中的 settings.py 文件获取变量

假设我有 settings py 文件其中包含一堆常量将来可能会更多如何访问 Jinja 模板中的这些变量 Flask 会自动将您的应用程序的配置包含在标准上下文 http flask pocoo org docs templatin
swig char ** 作为指向 char * 的指针

我在使用 swig 和 char 作为指向变量 char 的指针时遇到问题而不是作为 char 的列表我找不到将指针包装到 char 的方法目的是将连接的结果写入指针引用的 char 中以下是我的代码文件指针 cpp includ
pandas：使用运算符链接过滤 DataFrame 的行

大多数业务在pandas可以通过操作符链接来完成 groupby aggregate apply等但我发现过滤行的唯一方法是通过普通的括号索引 df filtered df df column value 这没有吸引力因为它需要我分配d
如何在 django 表单中设置自定义 HTML 属性？

我有一个 Django 表单它是页面的一部分假设我有一个字段 search input forms CharField u Search word required False 我只能通过模板访问它 form search input
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
如何消除 matplotlib 轴的相对偏移

当我尝试对具有足够大数字的范围进行绘图时我得到一个所有刻度都有相对偏移的轴例如 plot 1000 1001 1002 1 2 3 我在横坐标轴上得到这些刻度 0 0 0 5 1 0 1 5 2 0 1e3 问题是如何删除 1e3并得到
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
ctypes.ArgumentError：不知道如何转换参数

我在C库中定义了一个函数如下所示 int Test char str1 int id1 char str2 float val float ls 我想在Python中使用它所以我编写了以下Python代码 str1 a str2 b i
如何在 python 中连接到 GObject 信号，而不保留对连接器的引用？

问题基本上是这样的在 python 的 gobject 和 gtk 绑定中假设我们有一个在构造时绑定到信号的类 class ClipboardMonitor object def init self clip gtk clipboard
如何使用 Tkinter 创建等宽网格列？

如何强制 Tkinter 应用程序窗口中的列宽度相等 tkdocs网站声明如下每列的宽度或每行的高度取决于列或行中包含的小部件的宽度或高度这意味着当绘制用户界面并将其划分为行和列时您无需担心每列或行的宽度相等或高度大概 TkD
Python 对象初始化错误。或者我误解了对象的工作原理？ [复制]

这个问题在这里已经有答案了 1 import sys 2 3 class dummy object 4 def init self val 5 self val val 6 7 class myobj object 8 def init s
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
将 Python 3 的“范围”“向后移植”到 Python 2 是一个坏主意吗？

我的一门课程要求用 Python 完成作业作为练习我一直使用如下脚本确保我的程序可以在 Python 2 和 Python 3 中运行 bin bash Run some PyUnit tests python2 test py pyt
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
Python：如何访问 Lotus Notes 8.5 Inbox 来阅读电子邮件

我想用 python 创建一个脚本从 Lotus Notes 8 5 读取电子邮件然后在 jira 中为每封电子邮件创建一个问题但当我尝试从 Lotus 读取邮件时它会返回此错误 Traceback most recent call
纯Python库读写jpeg格式

伙计们我正在寻找 jpeg 写入阅读会很好但不是必需的库的纯 python 实现我只在以下位置创建了 TonyJPEG 库端口 http mail python org pipermail image sig 2004 Novem
使用 PyCharm 分析 Django

即使在开发环境中我的应用程序也相当慢所以我想找出是什么导致它变慢以便我可以尝试修复它我了解调试工具栏根据它的报告数据库查询和下载的源都不是问题所以它一定是业务逻辑但是我无法使用 Django 服务器运行 PyCharm 分
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
从 s3 获取 ogg 轨道的长度而不下载整个文件

如何在不下载整个文件的情况下获取 ogg 文件的播放长度我知道这是可能的因为 HTML5 标签和 VLC 都可以在加载 URL 后立即显示整个播放长度而无需下载整个文件有标题或我可以阅读的内容吗也许甚至是比特率我可以将其除以文件

随机推荐

Linux 网络通讯 : smbd 命令详解

smbd命令用于Samba服务器程序 smbd为Samba服务器程序可分享文件与打印机等网络资源供Windows相关的用户端程序存取语法 1 smbd aDhoP d lt 排错层级 gt i lt 范围 gt l lt 记录文件 gt
FPGA(三)——基于FPGA的SPI通讯协议实现

一 SPI通讯基本原理 1 SPI通讯介绍 SPI Serial Perripheral Interface 串行外围设备接口是 Motorola 公司推出的一种同步串行接口技术 SPI 总线在物理上是通过接在外围设备微控制器 PICmi
Docker快速安装RabbitMQ服务

Docker快速安装RabbitMQ服务快速开始 bin bash 建议保存为start sh脚本执行 docker run d hostname my rabbit name some rabbit restart always p 1
Java 基础入门篇（一）：Java 概述

文章目录一 Java 概述二 Java 的产品 JDK 2 1 JDK 安装 2 2 Java与 Javac 介绍 2 3 Java 程序的开发步骤三 Java 程序的执行原理四 JDK 的组成五 Java 的跨平台工作原理一
Solidity transfer，call和send 的区别

address transfer throws on failure forwards 2 300 gas stipend not adjustable safe against reentrancy should be used in m
SDF文件【简要说明】

SDF Standard Delay Format 标准延时格式文件常用延迟反标注该文件包含了仿真用到的所有 IOPATH INTERCONNECT的延时线延时 INTERCONNECT fsm block U27 Q fsm blo
2020-10-10

闭包和装饰器 1 高阶函数接收函数作为参数是高阶函数将函数作为返回值返回的函数就是高阶函数 2 匿名函数 lambda函数无名函数语法 lambda 参数列表表达式 filter 函数过滤列表第一个参数函数第二个参数序列
Java设计模式（十四）—— 模板方法模式

模板方法模式是指定义一个操作中算法的骨架而将一些步骤延迟到子类中模板方法使子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤适合模板方法模式的情景如下编制一个通用算法将某些步骤的具体实现留给子类来实现需要重构代码将各
对Linux svn保存的明文密码加密

需求来源随着GitHub GitLab的兴起 svn已经渐渐的没落了从公司当初的源代码管理服务器逐渐演变成公司的ftp服务器最近需要部署gitlab的CI单元测试模块而软件版本都在svn上有备份我就希望从代码的提交 gt 到版本
Python统计文本数字，字母，单词量

统计一百万位圆周率中数字0 9各自的数量统计一本书中字母a z各自的数量统计一本书共有多少个单词含重复的单词和单词量不含重复的单词 import string class CountNums 求txt文本中数字或字母的数量 def
Jvm类加载机制详解---类加载器及双亲委托模型

前面介绍了类加载的几个过程实际中这些过程大部分都是由虚拟机本身去执行的我们没有办法去改变或影响这些过程的执行但是虚拟机团队将类加载阶段第一步中的通过一个类的全限定名来获取描述该类的二进制字节流这个动作放到虚拟机外部去实现以便让应
使用R语言绘制ovarian数据集中病例年龄分布的直方图

使用R语言绘制ovarian数据集中病例年龄分布的直方图直方图是一种常用的数据可视化工具用于展示连续变量的分布情况在R语言中我们可以使用hist 函数轻松地创建直方图本文将展示如何使用R语言绘制ovarian数据集中病例年龄的分布
String、StringBuffer和StringBuilder三者之间的区别

最基本的区别就是String是一个字符串常量长度不可改变 StringBuffer和StringBuilder是字符串变量他们两个的长度可以改变但StringBuffer是线程安全的而StringBuilder是非线程安全的 Str
** LeetCode 刷题 459

这是一道我没做出来的简单题 5555 学习方法1 移动匹配如果一个字符串可以由一个字串重复获得那么将两个相同字符串并起来一定可以在中间再找到该字符串 class Solution public bool repeatedSubstr
JavaEE-过滤器和监听器案例分析

目录过滤器和监听器什么是过滤器过滤器编程接口接口Filter的主要方法设计过滤器实例1 编写一个过滤器审计用户对资源的访问什么是监听器监听器编程接口设计监听器实例编写一个HttpSession事件监听器用来记录当前在线
Python pandas读取Excel 数据写入到数据库

需求得到天眼查的法人信息数据导入到数据库中经过多次不断试错最后使用Python导入先上代码 import pandas as pd import sqlalchemy as sqla import os 读取Excel数据 def ge
net::ERR_HTTP2_PROTOCOL_ERROR 200错误

场景 web端的环境上某一个请求报这个问题了其他的请求正常打开f12控制台看到异常net ERR HTTP2 PROTOCOL ERROR 200错误排查查看nginx的error log 报是某一个临时文件的权限不足原因是启动n
CSVDE导出AD域下指定子OU的Group中所有成员的信息

CSVDE导出AD域下指定子OU的Group中所有成员的信息最近搞CSVDE搞的头疼网上各种乱七八糟的资料都是东搞一下西搞一下好不容易找到一篇系统性的介绍使用CSVDE来对AD进行导入导出操作的文章具体链接 http www co
mybatis（六）处理枚举类型

处理枚举类型若想映射枚举类型 Enum 则需要从 EnumTypeHandler 或者 EnumOrdinalTypeHandler 中选一个来使用比如说我们想存储取近似值时用到的舍入模式默认情况下 MyBatis 会利用 EnumT
python数据清洗的三个常用的处理方式！

关于python数据处理过程中三个主要的数据清洗说明分别是缺失值空格重复值的数据清洗这里还是使用pandas来获取excel或者csv的数据源来进行数据处理若是没有pandas的非标准库需要使用pip的方式安装一下 pip ins

python数据清洗的三个常用的处理方式！

python数据清洗的三个常用的处理方式！ 的相关文章

随机推荐

热门标签

python数据清洗的三个常用的处理方式！的相关文章