数据分析08——Pandas中对数据进行数据清洗

2023-11-08

0、前言：

使用pandas修改数据是否会改变源数据？
- Pandas 对 DataFrame 的操作通常是针对原始数据本身而不是其副本的。例如，当我们使用 .loc 或 .iloc 方法选择 DataFrame 中的某行或某列并进行修改时，实际上是直接更改了原始数据，而不是创建了一个副本进行修改。
- 为了避免修改源数据，我们可以采取以下两种方法：
  - 使用 copy() 方法，生成原 DataFrame 的副本，并对副本进行操作，这样就不会对原 DataFrame 产生影响。
  - 使用 Pandas 提供的 inplace 参数来指定是否在原 DataFrame 上进行操作。例如，在对某个 DataFrame 做操作时，可以加上 inplace=True 的参数选项（如：df.drop(‘c’, axis=1, inplace=True)），这样任何修改都将应用于原始 DataFrame，否则将返回新的 DataFrame 对象。
以下操作，都来自调用表格导入数据

import pandas as pd
df = pd.read_excel('./data/demo_06.xlsx', sheet_name='Sheet1')

1、处理缺失值：

理解：对于所获取数据中如果有缺失值（空值），可以通过查找缺失值、填充缺失值、删除缺失值的方法来处理
通过查看字段信息检查是否有缺失值：df.info()
查看每列空值数量：df.isnull().sum() # 显示每列空值总数
查看每列是否存在空值：

# any: or 或
df.isnull().any()

填充缺失值：
- 填充缺失值方法
  - 均值(mean)：正态分布
  - 众数(mode)：分类变量
  - 中位数(median)：非正态分布

# 众数可能存在多个，通过众数填充
most = df['类别'].mode()[0]
df['类别'] = df['类别'].fillna(most)

# 向前填充，forward
df['类别'] = df['类别'].fillna(method='ffill')

# 向后填充，backward
df['类别'] = df['类别'].fillna(method='bfill')

删除缺失值：

# 删除存在空值的行，整表判断
df.dropna()

# 删除指定列存在空值的行，其中一列存在空值则删除整行（or）
df.dropna(how='any', subset=['产品数量', '类别'])

# 删除指定列存在空值的行，指定列都存在空值则删除整行（and）
df.dropna(how='all', subset=['产品数量', '类别'])

# 删除非空值小于4个的行（不删存在4个非空值的行）
df.dropna(thresh=4)

2、处理重复值：

理解：对于所获取数据中如果有重复值，可以通过判断是否有重复值、删除重复值的方法来处理
查看每行是否完全重复：df.duplicated()
删除整行完全重复的数据：df.drop_duplicates(keep=‘last’) # keep是指保留重复数据的哪一条
用列索引作为判断依据，如果有重复则删除改列对应重复值所在的行：
- df.drop_duplicates(subset=‘用户ID’, keep=‘first’)
- df.drop_duplicates(subset=[‘用户ID’, ‘产品名称’], keep=‘last’)

3、数据筛选：

理解：对于所获取数据中如果有重复值，可以给通过数据筛选来显示满足对应列索引要求的数据
query方法筛选（and、or、not，&、|、~）
数值范围筛选
时间段筛选（先转化为索引，再筛选）

# 数值筛选
df.query('产品数量 >= 2')
# 文本筛选
df.query('类别 == "优选"')
# df.query("类别 == '优选'")
# 组合筛选
df.query('类别 == "优选" and 产品数量 >= 2')

# 左包含右包含
df[df['产品数量'].between(3, 5)]

# 筛选时间段在12:00:00-23:00:00之间的数据
tb = df.set_index('订单付款时间')
tb.between_time('12:00:00', '23:00:00')

# 时间点筛选
tb = df.set_index('订单付款时间')
tb.at_time('22:54:26')

4、数据清洗：

理解：对于所获取数据中如果有重复值，可以通过pandas中的高级函数来修改对应内容
普通方法筛选：df.filter(items=[‘用户ID’, ‘产品清单’])
正则方法筛选：df.filter(regex=‘用户ID|第\d+次交易金额’)
特殊操作：

# 字段合并
pd.Series.str.cat()
df['基本信息'] = df['性别'].str.cat(df['年龄'], sep='，')

内容替换
pd.Series.str.replace()
df['交易金额'].str.replace('元', '').astype(int)
# astype(int)是把操作结束的数据转为整型

信息提取
pd.Series.str.extract()
df['手机号码'] = df['联系方式'].str.extract(pat='(\d{11})', expand=True)

# 爆炸序列：一行拆分成多行
tb = df[['用户ID', '产品清单']].copy()
# split+explode
tb['产品清单'] = tb['产品清单'].str.split('，', expand=False)
tb = tb.explode(column='产品清单', ignore_index=True)
# ignore_index=True：目的是把分裂出的行重新排序，否则，分裂出的行会沿用之前的索引行号

# 文本聚合：多行合并成一行
df[['用户ID', '产品清单']]
tb.groupby('用户ID', as_index=False).agg(lambda x: '，'.join(x))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析

pandas

python

数据分析08——Pandas中对数据进行数据清洗的相关文章

Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
distutils.errors.DistutilsPlatformError：需要 Microsoft Visual C++ 14.0

我想安装Pandas在我的机器上但出现以下消息错误 distutils errors DistutilsPlatformError 需要 Microsoft Visual C 14 0 获取它与 Microsoft Visual C 构
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

虚节点解法（有点像快慢指针？）---203. 移除链表元素

Definition for singly linked list public class ListNode int val ListNode next ListNode ListNode int val this val val Lis
激光焊接汽车尼龙塑料配件透光率测试仪

激光塑性成型技术是近年来塑性加工界出现的一种新技术通常塑料主要是通过加热加压依赖模具成型这对于单品种大批量生产是有效的而对于各种不同形状的塑料制件则需要昂贵的模具装置也较庞大高度聚焦的激光束垂直照射在待变形的板料上由于塑料直接
.rar .zip 格式压缩/解压缩命令

安装rar工具命令 sudo apt get install rar 安装不成功就重新启动虚拟机 rar x test rar 解压缩test文件 rar a test rar test 将目标文件test压缩为test rar zip r
Laya air 之实现按钮控制人物驱动模块

国际惯例先上效果图一场景布置 ok 下面将介绍如果实现摇杆操作物体在这里我会创建一个res的文件夹用来存放这三张图创建一个but节点挂到场景节点下分别将内圆和外圆的图片挂载到该节点下更名为out cricle和in cricl
ImportError: cannot import name ‘OrderedDict‘ from ‘typing‘ (/root/miniconda3/envs/clip/lib/...)

出现这个错误的原因是因为python和pytorch的版本不一致 pytorch里的torchvision模块需要从typing中导入OrderedDict 但是python 3 7对应的typing包里没有OrderedDict 所以无法
vue 常见指令双向绑定原理

1 淘宝镜像 npm 的下载是需要访问国外服务器才可以下载但是国内访问很慢所以淘宝集团自行搭建了一个服务器这个服务器每隔10分钟就会把npm国外服务器的内容拉去一次就叫淘宝镜像要使用需要配置 npm i g cnpm regis
[Nowcoder] Agamemnon‘s Odyssey

链接 Agamemnon the great king of Mycenae was assembling his troops in Aulis to sail to the shores of Troy when he had a vi
交换字符使得字符串相同--贪心算法

LeetCode 交换字符使得字符串相同有两个长度相同的字符串 s1 和 s2 且它们其中只含有字符 x 和 y 你需要通过交换字符的方式使这两个字符串相同每次交换字符的时候你都可以在两个字符串中各选一个字符进行交换交换
java map equals_Java HashMap equals()方法

Java HashMap equals 方法 java util HashMap equals 方法用于检查两个HashMap之间的相等性它验证作为参数传递的一个映射的元素是否等于该映射的元素 1 语法 public boolean eq
SOA中的两个概念：编制（orchestration）和编排（choreography）

以下是摘自 Understanding SOA with Web Services 中文版关于两个概念的解释编制 orchestration 和编排 choreography 是常用于描述合成Web服务的两种方式的术语虽然它们有共
C 和 C++的区别 / struct 和 class 的区别 / 指针和引用的区别 / new 与 malloc 的区别 / 堆和栈的区别 / sizeof 和 strlen 的区别

C 和 C 的区别主要从以下三个方面来谈设计思想编程思想方面语言特性方面语法内存管理库执行效率方面 C 和 C 的区别 C 是面向过程的语言而 C 是面向对象的语言因此 C 语言中有类和对象以及继承多态这样的面向对象语言
maskrcnn-benchmark训练自己数据集用于视觉分割

1 标记数据用labelme 建议用ubuntu版本去做因为window可能因为这个需要环境改变影响其他自己犯过这个问题 https github com wkentaro labelme 2 labelme转化成coco数据集用于分割
Hyperlynx仿真操作小点

一改变传输线的属性双击传输线在对话框中选择要的线型设置部分线的阻抗点击edit coupling regions栏选择右上方的edit stackup 编辑想要的叠层属性通常改变顶底层和电源层地层之间的PP厚度 10 8 5
使用Python和XPath解析动态JSON数据

JSON动态数据在Python中扮演着重要的角色为开发者提供了处理实时和灵活数据的能力 Python作为一种强大的编程语言提供了丰富的工具和库来处理动态JSON数据使得解析和处理动态JSON数据变得简单和高效例如使用内置的json模
python自动化处理，PPT处理

一 PPT相关库介绍安装python pptx库同其他文件转换pptx2md rst2pptx 导入库 import pptx 初始化 ppt pptx Presentation 二幻灯片层次结构说明 PPT文件结构 PPT文件结构指
深入理解JVM—垃圾回收机制

一前言明确垃圾收集器关注的部分堆和方法区着重学习如何确定哪些垃圾需要回收垃圾回收算法以及GC触发条件二如何确定哪些垃圾需要回收 1 引用计数算法在对象中添加一个引用计数器每当有一个地方引用它时计数器值就加一当引用失效时
ROS2系统节点开机自启动

要将ROS2节点设置为开机自启动您可以创建一个systemd服务单元来管理它一创建launch文件 cd ros2 ws mkdir launch touch launch ros launch py 编辑内容 from launch
# 解析bt文件_PC端BT资源搜索及下载，诸位请节制！

Hello大家好这里是TopOne软件管家毕竟要求的人太多了今天将我测试最好的搭配给大家分享一下当然这个是站在我的角度大家可以根据自己的使用情况进行调整今天分享的是PC端由于Mac限制苹果电脑现只提供BT搜索软件 BT搜索
Windows下基于WSL2的Ubuntu开发环境搭建

1 背景介绍 Windows是市场占有率最高的桌面操作系统嵌入式开发领域一般需要搭建ubuntu虚拟机环境以实现linux下的交叉编译等工作传统的Vmvare Ubuntu虚拟机安装过程繁琐且资源消耗巨大自从Windows提供WSL2
数据分析08——Pandas中对数据进行数据清洗

0 前言使用pandas修改数据是否会改变源数据 Pandas 对 DataFrame 的操作通常是针对原始数据本身而不是其副本的例如当我们使用 loc 或 iloc 方法选择 DataFrame 中的某行或某列并进行修改时实际上是

数据分析08——Pandas中对数据进行数据清洗

0、前言：

1、处理缺失值：

2、处理重复值：

3、数据筛选：

4、数据清洗：

数据分析08——Pandas中对数据进行数据清洗 的相关文章

随机推荐

热门标签

数据分析08——Pandas中对数据进行数据清洗的相关文章