注明:本文章所有代码均来自scikit-learn官方网站
在实际情况中,如果一个模型要上线,数据分析员需要反复调试模型,以防止模型仅在已知数据集的表现较好,在未知数据集上的表现较差。即要确保模型的泛化能力,它指机器学习对新鲜样本的适应能力。只有保证模型的泛化能力,模型的构建才有意义。因此,交叉验证在整个建模流程中显得尤为重要。
如果不对数据集进行处理,而仅是用含有标签的已知数据训练模型会得到很高分数,但却失效于对未知数据的预测,这种情况称为“过拟合”。过拟合的出现表明模型未学习到数据中的本质规律,造成模型的预测能力较差,因此,如何避免模型的过拟合,是一个值得关注且必须解决的问题。在scikit-learn中,可以使用训练集/测试集拆分和交叉验证的方法避免该种情况的出现,如下图所示,将数据集进行训练集/测试集拆分,在训练集上进行交叉验证后得到最佳模型参数,从而在测试集上得到该模型的评分。
在开始分享之前,要搞清楚两个概念,即过拟合和欠拟合。其中,过拟合为模型在训练集的分数较高,在测试集表现的得分较低。欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。相对过拟合,欠拟合现象并不经常出现。很容易想到的思路是将模型的拟合能力限制在过拟合和欠拟合之间,就会得到较好的模型预测结果,但训练集/测试集划分和交叉验证只能帮助避免模型的过拟合而不是欠拟合。
以sklearn中自带的莺尾花数据集(iris)为例进行说明:
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> from sklearn import datasets
>>> from sklearn import svm
>>> X, y = datasets.load_iris(return_X_y=True)
>>> X.shape, y.shape
((150, 4), (150,))
将数据集拆分为60%训练集,40%测试集,代码如下:
>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.4, random_state=0)
>>&