我们拿到的原始数据通常都是一团糟的,缺失值尤其常见,自己在做论文的时候也常常被缺失数据困扰,所以打算写一些如何用python进行缺失值的处理。首先需要大家注意的是,数据的清理很枯燥,但是很重要,根据IBM的研究,数据科学家80%的时间都在做数据清理的工作。本文,我主要写最常见的数据清理任务,即清理缺失值。
数据导入
实例数据地址:https ://raw.githubusercontent.com/dataoptimal/posts/master/data%20cleaning%20with%20python%20and%20pandas/property%20data.csv
首先瞅一瞅数据集长啥样
import pandas as pdimport numpy as npdf = pd.read_csv('dataset/property data.csv')df
可以看到这是一个非常迷你的数据集,但是练习缺失值处理肯定够用了。
缺失数据识别
我们先看ST_NUM和NUM_BEDROOMS这两列,我们知道这个数据集的ST_NUM列有2个缺失,NUM_BEDROOMS这一列应该有3个缺失&