为什么 CaliberatedClassifierCV 的性能不如直接分类器?

2023-12-20

我注意到 sklearn 是新的CalibratedClassifierCV似乎表现不如直接base_estimator当。。。的时候base_estimator is GradientBoostingClassifer,(我没有测试过其他分类器)。有趣的是,如果make_classification的参数为:

n_features = 10
n_informative = 3
n_classes = 2

那么CalibratedClassifierCV似乎表现稍好(对数损失评估)。

然而,在以下分类数据集下CalibratedClassifierCV似乎通常表现不佳:

from sklearn.datasets import make_classification
from sklearn import ensemble
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import log_loss
from sklearn import cross_validation
# Build a classification task using 3 informative features

X, y = make_classification(n_samples=1000,
                           n_features=100,
                           n_informative=30,
                           n_redundant=0,
                           n_repeated=0,
                           n_classes=9,
                           random_state=0,
                           shuffle=False)

skf = cross_validation.StratifiedShuffleSplit(y, 5)

for train, test in skf:

    X_train, X_test = X[train], X[test]
    y_train, y_test = y[train], y[test]

    clf = ensemble.GradientBoostingClassifier(n_estimators=100)
    clf_cv = CalibratedClassifierCV(clf, cv=3, method='isotonic')
    clf_cv.fit(X_train, y_train)
    probas_cv = clf_cv.predict_proba(X_test)
    cv_score = log_loss(y_test, probas_cv)

    clf = ensemble.GradientBoostingClassifier(n_estimators=100)
    clf.fit(X_train, y_train)
    probas = clf.predict_proba(X_test)
    clf_score = log_loss(y_test, probas) 

    print 'calibrated score:', cv_score
    print 'direct clf score:', clf_score
    print

一次运行产生:

也许我错过了一些关于如何CalibratedClassifierCV有效,或者没有正确使用它,但我的印象是,如果有的话,将分类器传递给CalibratedClassifierCV将导致性能相对于base_estimator alone.

谁能解释一下观察到的表现不佳?


概率校准本身需要交叉验证,因此CalibratedClassifierCV每折叠训练一个校准分类器(在本例中使用StratifiedKFold),并在调用 Predict_proba() 时取每个分类器的预测概率的平均值。这可能会导致对效应的解释。

我的假设是,如果训练集相对于特征和类别的数量来说很小,则每个子分类器的减少的训练集会影响性能,并且集成不能弥补它(或使其变得更糟)。此外,GradientBoostingClassifier 可能从一开始就提供了相当好的概率估计,因为它的损失函数针对概率估计进行了优化。

如果这是正确的,那么以与 CaliberatedClassifierCV 相同的方式但没有校准的集成分类器应该比单个分类器更差。此外,当使用更多的折叠次数进行校准时,这种影响应该会消失。

为了测试这一点,我扩展了您的脚本以增加折叠数量并包含未经校准的集成分类器,并且我能够确认我的预测。 10 倍校准的分类器总是比单个分类器表现更好,而未校准的集成则明显更差。在我的运行中,三重校准分类器的表现也并不比单一分类器差,所以这也可能是一个不稳定的效果。这些是同一数据集的详细结果:

这是我的实验的代码:

import numpy as np
from sklearn.datasets import make_classification
from sklearn import ensemble
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import log_loss
from sklearn import cross_validation

X, y = make_classification(n_samples=1000,
                           n_features=100,
                           n_informative=30,
                           n_redundant=0,
                           n_repeated=0,
                           n_classes=9,
                           random_state=0,
                           shuffle=False)

skf = cross_validation.StratifiedShuffleSplit(y, 5)

for train, test in skf:

    X_train, X_test = X[train], X[test]
    y_train, y_test = y[train], y[test]

    clf = ensemble.GradientBoostingClassifier(n_estimators=100)
    clf_cv = CalibratedClassifierCV(clf, cv=3, method='isotonic')
    clf_cv.fit(X_train, y_train)
    probas_cv = clf_cv.predict_proba(X_test)
    cv_score = log_loss(y_test, probas_cv)
    print 'calibrated score (3-fold):', cv_score


    clf = ensemble.GradientBoostingClassifier(n_estimators=100)
    clf_cv = CalibratedClassifierCV(clf, cv=10, method='isotonic')
    clf_cv.fit(X_train, y_train)
    probas_cv = clf_cv.predict_proba(X_test)
    cv_score = log_loss(y_test, probas_cv)
    print 'calibrated score (10-fold:)', cv_score

    #Train 3 classifiers and take average probability
    skf2 = cross_validation.StratifiedKFold(y_test, 3)
    probas_list = []
    for sub_train, sub_test in skf2:
        X_sub_train, X_sub_test = X_train[sub_train], X_train[sub_test]
        y_sub_train, y_sub_test = y_train[sub_train], y_train[sub_test]
        clf = ensemble.GradientBoostingClassifier(n_estimators=100)
        clf.fit(X_sub_train, y_sub_train)
        probas_list.append(clf.predict_proba(X_test))
    probas = np.mean(probas_list, axis=0)
    clf_ensemble_score = log_loss(y_test, probas)
    print 'uncalibrated ensemble clf (3-fold) score:', clf_ensemble_score

    clf = ensemble.GradientBoostingClassifier(n_estimators=100)
    clf.fit(X_train, y_train)
    probas = clf.predict_proba(X_test)
    score = log_loss(y_test, probas)
    print 'direct clf score:', score
    print
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 CaliberatedClassifierCV 的性能不如直接分类器? 的相关文章

随机推荐