1.导入需要的库,Numpy,Pandas
2.导入数据集
3.处理丢失数据,数据可能是因为各种原因丢失,未了不降低机器学习模型的性能,需要处理数据,我们可以用整列的平均值,或中间值替换丢失的数据。我们用sklearn。preprocessing库中的Imputer类完成这项任务。
4.解析分类数据,分类数据是指含有标签值而不是数字值的变量,取值范围通常是固定的,例如yes,no不能用于模型的数值计算,所以需要解析成数字。为实现这一功能,我们可以用sklearn.preprocessing库中的LabelEncoder类。
5.拆分数据集为训练集和测试集,两者比例一般是8:2,我们用sklearn.crossvalidation库中的train_test_split()方法。
6.特征缩放,大部分算法使用两点间的欧式距离计算,但此特征在幅度,单位,和范围姿态问题上变化很大。在距离计算中,高幅度特征权重更大。可用特征标准化或Z值归一化解决,导入sklearn.preprocessing库中的Stan-dardScalar类。
转自:https://github.com/MLEveryday/100-Days-Of-ML-Code