python数据分析之pandas数据清洗（数据查看、空值的处理）

2023-05-16

文章目录

- 一、准备工作（导入数据）
- 二、数据查看
- - 1、查看数据表的基本信息
  - 2、空值的与缺失值概念（NAN、NAT）
  - 3、查看所有值是否为空值
  - 4、判断是否存在空值
  - 5、唯一值查看
- 三、数据清洗
- - 1、空值的处理
  - 2、格式转换
  - 3、更改列名即字段名
  - 4、保留一个重复值
  - 5、数据替换

一、准备工作（导入数据）

#导入必备数据分析库
import pandas as pd
import numpy as np

#导入excel数据文件
df = pd.DataFrame(pd.read_excel("TMao.xlsx")) 
#导入csv数据文件
# df = pd.DataFrame(pd.read_csv("Attributes.csv",header=1,sep=','))  #表示第一行为字段名

注意：

需要安装openpyxl库才可以读取xlsx文件，使用pip install openpyxl
以上导入文件的语句用一句即可。

二、数据查看

1、查看数据表的基本信息

（根据需要对数据进行总体上的查看，建议不要全部执行，而是一条一条依次执行查看效果）

#维度查看：返回几行几列，注意不要加()
df.shape

#查看列名称：类似于SQL中的desc
df.columns

#数据表基本信息（维度、列名称、数据格式、所占空间等）
df.info

#查看每一列数据的格式
df.dtypes
#某一列数据的格式
df['订单付款时间'].dtype
df['订单金额'].dtype

查看列名df.columns：
2.1.1

2、空值的与缺失值概念（NAN、NAT）

空值：在pandas中的空值是""，也叫空字符串；

缺失值：在dataframe中为NAN或者NAT（缺失时间），在series中为none或者nan

3、查看所有值是否为空值

（所有值全部列出来，不实用的操作，这里简单介绍一下用法）

#查看是否为空值
df.isnull()
#某一列的空值
df["订单付款时间"].isnull()

4、判断是否存在空值

# 查看所有值中是否存在空值
df.isnull().any()

# 判断某列是否存在空值
df["订单付款时间"].isnull().any()  #或者.values

# 打印空值行的数据
if df["订单付款时间"].isnull().any():
     print(df[df.isnull().values==True])
     print(df[df.isna().values==True])

5、唯一值查看

#查看某一列的唯一值
df["订单金额"].unique()

#查看数据表的值
df.values

#查看前几行/后几行的数据
df.head()  #默认前5行
df.tail(10)  #指定数值10，查看后10行的数据

三、数据清洗

1、空值的处理

1）删除含有空值的行或列：用dropna()时可以同时剔除Nan和NaT

# 准备工作
df.isnull().any()  #查看哪一列有空值，发现是<订单付款时间>列
print(df[df['订单付款时间'].isna().values==True])  #输出<订单付款时间>列存在空值的行

#清洗空值
df2 = df.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)  #删除含有空值的行或列 
df2['订单付款时间'].isna().any()  #查看是否还存在空值

#再次查看
df2.shape

axis:维度，axis=0表示index行,axis=1表示columns列，默认为0

how:"all"表示这一行或列中的元素全部缺失（为nan）才删除这一行或列，"any"表示这一行或列中只要有元素缺失，就删除这一行或列

thresh:一行或一列中至少出现了thresh个才删除。

subset：在某些列的子集中选择出现了缺失值的列删除，不在子集中的含有缺失值得列或行不会删除（有axis决定是行还是列）

inplace：刷选过缺失值得新数据是存为副本还是直接在原数据上进行修改。

2）若发现dropna()后仍然存在空值，则有可能其中并不是空值，而是空字符串，这里就可以将空字符串替换成空值再进行dropna()操作

df.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True)
df['订单付款时间'].dropna()

3）填充含有空值的行或列（ffill / bfill）

df.isna().any()  #查看原数据表是否存在空值
df3 = df.fillna(method='ffill',axis=0,inplace=False,limit=None,downcast=None)
df3.isna().any()  #查看填充后的数据表是否存在空值

#用均值填充空值（mean方法）
df['订单金额'].fillna(df[订单金额].mean())

value:需要用什么值去填充缺失值

axis:确定填充维度，从行开始或是从列开始

method：ffill:用缺失值前面的一个值代替缺失值，如果axis=1，那么就是横向的前面的值替换后面的缺失值，如果axis=0，那么则是上面的值替换下面的缺失值。backfill/bfill，缺失值后面的一个值代替前面的缺失值。注意这个参数不能与value同时出现

limit:确定填充的个数，如果limit=2，则只填充两个缺失值。

2、格式转换

1）清除空格字符strip
调用map函数对str对象进行空格去除，若去除逗号可以用map(str.strip(‘,’))

df['收货地址']=df['收货地址'].map(str.strip())

2）大小写转换lower/upper

df['编码']=df['编码'].strip().lower()  #大写同理，upper()

3）更改数据格式astype

df['订单金额'].astype('int')  #int整数类型，同理float浮点型

3、更改列名即字段名

df.rename(columns={'实付金额':'实付'})  #把实付金额，改成 实付

4、保留一个重复值

df['收货地址'].drop_duplicates()  #删除列中后出现的值
df['收货地址'].drop_duplicates(keep='last')  #删除列中先出现的值，即保留最后一个值

5、数据替换

把收货地址中的四川改为四川省

df['收货地址'].replace('四川', '四川省')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python数据分析之pandas数据清洗（数据查看、空值的处理）的相关文章

Java基础知识之数组的初始化和基本操作

文章目录一 Java项目的层次二数组基本操作三初始化3类一 Java项目的层次 xff08 1 xff09 创建Project项目 xff08 2 xff09 创建Module模块 xff08 3 xff09 创建Package包
Java基础知识之数组常见错误、操作案例

文章目录一数组使用时的常见错误二数组的操作案例三评委打分案例 xff08 综合 xff09 一数组使用时的常见错误 1 索引越界错误 span class token keyword public span span class
Java基础知识之方法的通用格式、注意事项与带参数的方法

文章目录一方法调用过程二带参数的方法三方法的通用格式一方法调用过程 1 方法定义 public static void 方法名方法体 2 方法调用过程图片 xff1a 64 黑马程序员 3 案例练习 xff1a 设计一个方法
Java基础知识之方法的返回值与重载

文章目录一方法的返回值二方法的重载一方法的返回值 1 说明就是方法调用结束的标志 xff0c 会返回一个值给调用该方法的方法里 xff0c 然后我们常用的就是使用一个变量去接收这个值 xff0c 并把这个值用作其他的操作 2 练
Java基础语法之方法的参数传递与综合案例

文章目录一参数传递二案例 xff1a 遍历数操作三案例 xff1a 获取最值一参数传递 1 基本类型传递 xff08 实参形参 xff09 在调用方法时传入的参数叫做实参 xff0c 定义方法与方法实际执行时使用的参数是形式参
Java面向对象之构造方法、构造方法重载

文章目录一构造方法二构造方法重载一构造方法 1 简单说明在创建对象时 xff0c 自动调用的方法为构造方法 xff0c 它没有返回值 xff0c 最大的作用就是用来存放类的属性信息 xff08 存放转换 xff09 同时 xf
Java面向对象之构造方法模拟捕鱼达人游戏【附源码】

1 创建捕手类 span class token keyword public span span class token keyword class span span class token class name Test02 Capt
Java面向对象之静态属性静态方法、访问权限、getter与setter

一静态 1 static静态的特点 xff08 1 xff09 数据共享 xff08 2 xff09 属于类的并不属于对象 xff08 3 xff09 优先于对象产生的 2 优于对象产生 xff08 构造器解释 xff09 在程序执行时
Java面向对象之继承、super关键字、方法重写

一继承 1 简单说明子类可以拥有父类中除了私有变量函数外的所有的内容 xff0c 当出现x是y的一种什么的时候可以使用继承 xff0c x继承于y xff0c x是y的儿子 xff0c x子类是对y父类的扩展反映的是一种特殊关系 x
Java面向对象之多态解析、final关键字

一多态 1 简单说明 xff08 1 xff09 同一个对象拥有多个状态 xff0c 可以把不同的类型进行统一 xff0c 让程序具有超强的可扩展性 xff0c 简化了调用时的操作 xff08 2 xff09 父类 61 子类向上赋值
PHP Laravel-Homestead开发环境安装与配置

Laravel Homestead 是一个官方预载的 Vagrant 封装包 xff0c 提供你一个美好的开发环境 xff0c 不需要在你的本机端安装 PHP HHVM 网页服务器或任何服务器软件 Homestead 可以在任何 Windo
Linux下Mysql-8.0修改密码

1 查看mysql版本 mysql version 2 登录mysql xff0c 输入 mysql u p 后 xff0c 回车 xff0c 输入mysql密码 3 执行命令 use mysql update user set authe
Java面向对象之抽象方法抽象类、接口的使用

一抽象 1 简单说明只是声明 xff0c 并不去实现抽象方法 xff1a public abstract void act xff0c 没有方法体 xff0c 直接结束 xff0c 抽象方法只能存在于抽象类中抽象类 xff1a pub
Java面向对象之成员变量的初始值、object类与对象

一成员变量初始值 1 测试 span class token keyword class span span class token class name Test06 Num span span class token punctuat
Java面向对象之object类自带的方法解析（equals与==、toString方法、instanceof方法、参数传递问题）

一 equals与 61 61 1 简单说明 61 61 xff1a 是用来判断两个变量对象是否相等 xff08 数值内存地址 xff09 xff1b equals xff1a 用来判断两个对象是否相等 xff0c 可以通过自己重写eq
Java面向对象之异常处理机制（try-catch-finally、throws、自定义异常）

文章目录一异常与异常分类二异常处理机制1 try catch处理2 try catch finally处理3 throws可能抛异常 xff08 少用 xff09 4 throw抛出异常 xff08 少用 xff09 三自定义异常
SQL语言基础【DDL、DML、DCL、DQL】

文章目录一 SQL语言简介二对数据库的操作 xff08 SQL语句分类 xff09 一 SQL语言简介 1 来源 SQL Structure Query Language xff0c 直译结构化查询语言 xff0c 它是是数据库的核心语
最全使用SQL Server创建、配置数据库的各种方法和注意细节

文章目录一创建配置数据库二其他数据库设置三使用SQL语句创建更改删除数据库四附加分离数据库五编写数据库脚本一创建配置数据库 1 创建方法 xff08 1 xff09 直接在连接后的数据库中的对象资源管理器里面 gt
SQL数据库语言基础之SQL Server自带数据类型、自定义数据类型与使用、创建修改数据表

文章目录一几种数据类型二创建数据表三修改数据表结构一几种数据类型 1 Character 字符串类型 char chr 5 varchar varchar 5 text 数据类型描述char n 固定长度的字符串最多 8 00
SQL数据库语言基础之SqlServer数据表的六大约束（主键、外键、检查、非空、唯一性、默认值约束）的创建

文章目录一主键约束 xff08 primary key xff09 二外键约束 xff08 foreign key xff09 三检查约束 xff08 check xff09 四非空约束 xff08 not null xff09

随机推荐

SQL数据库语言基础之SqlServer登陆账户、数据文件的导入导出、备份与恢复

文章目录一创建登陆账户与授权登陆二导入导出数据文件三数据库的备份与恢复一创建登陆账户与授权登陆在csdn中已经有相关大佬总结过这方面的知识了 xff0c 在此引用两篇比较详细的文章 xff0c 方便需要的读者可以快速检索学习
SQL数据库语言基础之SqlServer的自动化管理功能（SQL Server代理、作业、警报、操作员）

文章目录 1 概念自动化管理功能就是实现SQL Server数据库的自动化管理 xff0c 免去了一些人工的操作 xff0c 这样就可以加强我们管理数据库的效率 2 SQL Server代理帮助数据库管理员来实现管理工作启动方法就是在
Vue使用axios POST提交数据PHP却无法接收到参数？

公司一个非常老的项目 xff0c 为了与时俱进方便开发 xff0c 通过script方式引入了Vue和element ui 之前都是使用jQuery发送Post请求 xff0c 当使用axios发送POST请求是 xff0c PHP却接收不
SQL数据库语言基础之SqlServer条件查询、排序数据表、like模糊查询【大总结】

文章目录一语句查询数据 xff08 SELECT xff09 二获取满足查询条件的语句 xff08 WHERE xff09 三排序查询 xff08 ORDER BY xff09 四高级条件查询一语句查询数据 xff08 SEL
SQL数据库语言基础之SqlServer系统函数、聚合集合函数【大总结】

文章目录 1 聚合函数2 类型转换函数3 日期函数4 数学函数5 字符函数6 其他系统函数 1 聚合函数 xff08 1 xff09 聚合函数的概念它是系统函数中最常用的一类函数主要是对一组值进行计算然后返回一个值聚合函数主要包括S
SQL数据库语言基础之SqlServer分组查询总结

文章目录 1 分组的概念2 聚合函数与分组配合使用3 查询数据的直方图 xff08 REPLICATE xff09 4 排序分组结果 xff08 ORDER BY放在分组后面 xff09 5 反转查询 xff08 CASE与分组的结合 xf
SQL数据库语言基础之SqlServer多表连接查询与INNER JOIN内连接查询

文章目录一简单连接查询二多表连接查询三 INNER JOIN 内连接查询一简单连接查询 1 直接连接 xff1a 无连接规则连接两表 xff0c 得到的是两个表的笛卡尔积连接后的行数 61 表1行数表2行数连接后的列数 61
SQL数据库语言基础之SqlServer表数据的插入、更新与删除

文章目录一数据的插入 xff08 INSERT INTO VALUES xff09 二数据的更新 xff08 UPDATE xff09 三删除数据 xff08 DELETE xff09 一数据的插入 xff08 INSERT IN
SQL数据库语言基础之SqlServer视图的创建、修改与视图数据的增删改查

文章目录一认识视图二创建查询视图三修改删除视图四修改视图数据 xff08 与操作表一样 xff0c 只是把table换成view xff09 一认识视图 1 视图的理解从用户角度来看 xff0c 一个视图是从一个特定的角度
数据分析20大基本分析方法技术总结【分析目的、分析案例、分析方法与思路】

文章目录零分析方法基础一 5W2H分析法二逻辑树分析法 xff08 类似思维导图 xff09 三 PEST分析法 xff08 行业分析方法 xff09 四多维度拆解分析法 xff08 维度 43 拆解 xff09 五对比分析法六
Excel数据分析实用小技巧【过坑】

文章目录 1 梯形填充2 快速填充功能3 带倒三角的文本型数字解决方案4 Excel的十万行数据极限5 组合单元格6 数据透视表的非重复值计数7 取整函数 1 梯形填充 1 xff09 定位条件的填充快捷键先选择区域 xff0c 然后在右
数据分析应用统计学之基本统计量【平均数、众数、中位数、四分位数】

文章目录 1 平均数 xff08 X bar xff09 2 众数 xff08 M0 xff09 3 中位数 xff08 Me xff09 4 四分位数 1 平均数 xff08 X bar xff09 1 xff09 算数平均数在一组数据
数据分析应用统计学之分散性与变异性的测量【极差、四分位差、偏态系数、峰态系数、统计指标】

文章目录 1 极差与四分位差 xff08 R xff09 2 方差与标准差 xff08 西格玛 V xff09 3 偏态系数与峰态系数 xff08 SK xff09 4 统计指标类型 1 极差与四分位差 xff08 R xff09 1 xf
Angular-使用ng update命令升级到Angular7.1.2

Angular 使用ng update命令升级到Angular7 1 2 Angular CLI 是 Angular 的一个命令行工具 xff0c 可以便捷的执行创建项目创建文件测试打包和发布等任务 Angular 版本 Angula
SPSS数据分析之描述性统计、区间估计与假设检验【操作详解】

文章目录 1 描述统计2 区间估计3 假设检验 1 描述统计 xff08 1 xff09 依次点击分析 xff0c 描述性统计 xff0c 描述 xff08 2 xff09 选项可以选择需要进行描述统计的统计变量 xff08 3 xff09
SPSS数据分析之列联分析与卡方检验、方差分析与LSD方法【操作详解】

文章目录 1 列联分析与卡方检验2 方差分析 1 列联分析与卡方检验 xff08 1 xff09 依次打开选项卡中的 lt 分析 gt xff0c lt 描述统计 gt xff0c lt 交叉表 gt xff08 2 xff09 然后依次选
SQL数据分析之数据提取、数据查询、数据清洗【MySQL速查】

文章目录一数据提取二数据查询1 选取数据 xff08 select xff09 2 筛选 xff08 where xff09 3 范围匹配 xff08 IN xff09 4 排序 xff08 order by xff09 5 条件筛选
Jupyter使用技巧+快捷键【速查手册】

文章目录一编辑模式与命令行模式二编辑模式快捷键 xff08 1 xff09 运行代码命令模式也可用 xff08 2 xff09 光标跳转 xff08 3 xff09 提示和格式 xff08 4 xff09 操作三命令行模式快捷键
pandas用法大全【速查手册】

文章目录一生成数据表二数据表信息查看三数据表清洗四数据预处理五数据提取六数据筛选七数据汇总八数据统计九数据输出一生成数据表 1 首先导入pandas库 xff0c 一般都会用到numpy库 xff0c 所以我们先导入
python数据分析之pandas数据清洗（数据查看、空值的处理）

文章目录一准备工作 xff08 导入数据 xff09 二数据查看1 查看数据表的基本信息2 空值的与缺失值概念 xff08 NAN NAT xff09 3 查看所有值是否为空值4 判断是否存在空值5 唯一值查看三数据清洗1 空值的