我希望使用插入符包并行运行随机森林,并且我希望设置种子以获得可重现的结果,如下所示使用插入符号完全可重现的并行模型 https://stackoverflow.com/questions/13403427/fully-reproducible-parallel-models-using-caret。但是,我不明白以下代码中的第 9 行(取自插入符帮助):为什么我们要采样 22 个(加上第 12、23 行中的最后一个模型)整数(评估参数 k 的 12 个值)?有关信息,我希望运行 5 倍 CV 来评估 RF 参数“mtry”的 584 个值。任何帮助深表感谢。谢谢。
## Not run:
## Do 5 repeats of 10-Fold CV for the iris data. We will fit
## a KNN model that evaluates 12 values of k and set the seed
## at each iteration.
set.seed(123)
seeds <- vector(mode = "list", length = 51)
for(i in 1:50) seeds[[i]] <- sample.int(1000, 22) # Why 22?
## For the last model:
seeds[[51]] <- sample.int(1000, 1)
ctrl <- trainControl(method = "repeatedcv",
repeats = 5,
seeds = seeds)
我想说这是一个错误,而且应该是12而不是 22。
据我了解,您将运行模型 10*5 = 50 次,对于每个 k 值。因此,对于each我 1:50 后,你需要12 seeds(每 k 一个)。获得最佳 k 后,您将运行最终模型。这次,您只需要一颗种子(不再重复重采样)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)