1. 什么是转换器?
这就是一个名字,不要被这个名字吓一跳。很简单,就是将数据,转换一种形态。比如,将数据标准化就是一种转换,将数据分为训练集和测试集也是一种转换。
2. 测试集和训练集
2.1 训练集 、测试集、验证集
10折比较常用,K可以取任意值。
这篇就说一下训练集、测试集、验证集。
至于K折交叉验证的使用范围:数据量少的时候可以使用该方法拆分数据;也可以使用该方法计算K折预测误差,寻找最优参数或者最优模型。后面的文章会写,本文不介绍。
2.2 拆分训练集测试集有个问题
拆分的时候,数据并不一定是平衡的。就是说0,1分布不一定就会被均匀的抽样出来。不仅跟抽样方式有关,更加跟原样本的分布有关。具体解决方法是采用SMOTE算法对非平衡数据抽样。本文不做介绍,后面的博客会写。
2.3 代码
先来看看参数
from sklearn