自定义交叉验证拆分sklearn

2024-03-08

我正在尝试在 sklearn 中拆分数据集以进行交叉验证和 GridSearch。我想定义自己的分割，但 GridSearch 只采用内置的交叉验证方法。

但是，我无法使用内置的交叉验证方法，因为我需要某些示例组位于同一折叠中。所以，如果我有例子： [A1、A2、A3、A4、A5、B1、B2、B3、C1、C2、C3、C4、...、Z1、Z2、Z3]

我想执行交叉验证，以便每个组 [A、B、C...] 中的示例仅存在于一个折叠中。

即 K1 包含 [D,E,G,J,K...]，K2 包含 [A,C,L,M,...]，K3 包含 [B,F,I,...] 等

这种类型的事情通常可以用sklearn.cross_validation.LeaveOneLabelOut。您只需要构建一个对您的组进行编码的标签向量。即，所有样本K1会带标签1，所有样本在K2将采用标签 2，依此类推。

这是一个带有假数据的完全可运行的示例。重要的线路是创建cv对象，以及调用cross_val_score

import numpy as np

n_features = 10

# Make some data
A = np.random.randn(3, n_features)
B = np.random.randn(5, n_features)
C = np.random.randn(4, n_features)
D = np.random.randn(7, n_features)
E = np.random.randn(9, n_features)

# Group it
K1 = np.concatenate([A, B])
K2 = np.concatenate([C, D])
K3 = E

data = np.concatenate([K1, K2, K3])

# Make some dummy prediction target
target = np.random.randn(len(data)) > 0

# Make the corresponding labels
labels = np.concatenate([[i] * len(K) for i, K in enumerate([K1, K2, K3])])

from sklearn.cross_validation import LeaveOneLabelOut, cross_val_score

cv = LeaveOneLabelOut(labels)

# Use some classifier in crossvalidation on data
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
scores = cross_val_score(lr, data, target, cv=cv)

然而，您当然可能会遇到这样的情况：您想完全手动定义折叠。在这种情况下，您需要创建一个iterable（例如list) 的情侣(train, test)通过索引指示将哪些样本纳入每次折叠的训练和测试集中。让我们检查一下：

# create train and test folds from our labels:
cv_by_hand = [(np.where(labels != label)[0], np.where(labels == label)[0])
               for label in np.unique(labels)]

# We check this against our existing cv by converting the latter to a list
cv_to_list = list(cv)

print cv_by_hand
print cv_to_list

# Check equality
for (train1, test1), (train2, test2) in zip(cv_by_hand, cv_to_list):
    assert (train1 == train2).all() and (test1 == test2).all()

# Use the created cv_by_hand in cross validation
scores2 = cross_val_score(lr, data, target, cv=cv_by_hand)


# assert equality again
assert (scores == scores2).all()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自定义交叉验证拆分sklearn

python

validation

machinelearning

scikitlearn

crossvalidation

自定义交叉验证拆分sklearn 的相关文章

在 Pandas 中按日期获取有效合约

从正在运行的 python 脚本检测优化标志是否为 -O 或 -OO

如何确定非阻塞套接字是否真正连接？

Tensorflow 可变图像输入大小（自动编码器、放大......）

从字符串到类型的词法转换

Python 3 getattribute 与点访问行为

python 中分割字符串以获得一个值？

如何限制Django CreateView中ForeignKey字段的选择？

定义函数后对其进行修饰？

如何在 Python 中将彩色输出打印到终端？

更改 pandas 中多个日期时间列的时区信息

ActiveRecord 布尔验证接受非布尔值

Python：计算数据帧列中所有行中特定字符的实例数

Angular 5 表单验证（必需）不起作用

laravel 5.4 在请求验证之前修改数据[关闭]

将 Pandas 列中的列表拆分为单独的列

Tensorflow 2.0 中的二阶导数

在 MacO 和 Linux 上安装 win32com [重复]