sklearn:在 RandomizedSearchCV 中使用 Pipeline?

2024-02-26

我希望能够在 sklearn 的 RandomizedSearchCV 构造中使用管道。然而现在我相信只支持估计器。这是我希望能够执行的操作的示例:

import numpy as np

from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler    
from sklearn.pipeline import Pipeline

# get some data
iris = load_digits()
X, y = iris.data, iris.target

# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000], 
          'gamma': [0.001, 0.0001], 
          'kernel': ['rbf', 'linear'],}

# create pipeline with a scaler 
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)

# do search
search = RandomizedSearchCV(pipeline, 
param_distributions=param_dist, n_iter=50)
search.fit(X, y)

print search.grid_scores_

如果你只是这样运行,你会得到以下错误:

ValueError: Invalid parameter kernel for estimator Pipeline

sklearn 有没有好的方法可以做到这一点?


RandomizedSearchCV, 也GridSearchCV, do支持管道(事实上,它们独立于其实现,并且管道被设计为等同于通常的分类器)。

如果您认为应该重新搜索哪些参数,那么问题的关键非常简单。由于管道由许多对象(多个转换器+一个分类器)组成,因此人们可能希望为分类器和转换器找到最佳参数。因此,您需要以某种方式区分从何处获取/设置属性。

所以你需要做的是说你想要找到一个值,比如说,而不仅仅是一些抽象的值gamma(管道根本没有),但是gamma管道的分类器,在您的情况下称为rbf_svm(这也证明了名称的必要性)。这可以使用双下划线语法来实现,该语法在 sklearn 中广泛用于嵌套模型:

param_dist = {
          'rbf_svm__C': [1, 10, 100, 1000], 
          'rbf_svm__gamma': [0.001, 0.0001], 
          'rbf_svm__kernel': ['rbf', 'linear'],
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn:在 RandomizedSearchCV 中使用 Pipeline? 的相关文章

随机推荐