crossvalidation

如何在 R 中执行随机森林/交叉验证

我无法找到对我尝试生成的回归随机森林模型执行交叉验证的方法因此我有一个数据集其中包含 1664 个解释变量不同的化学性质和一个响应变量保留时间我正在尝试生成一个回归随机森林模型以便能够预测给定保留时间的物质的化学性质 ID

r RandomForest crossvalidation

ValueError: n_splits=10 不能大于每个类中的成员数

我正在尝试运行以下代码 from sklearn model selection import StratifiedKFold X hey join now hello join today join us now not today jo

python scikitlearn crossvalidation

分组时间序列（面板）数据的交叉验证

我使用面板数据随着时间的推移我观察许多单位例如人对于每个单元我都有相同固定时间间隔的记录当将数据分为训练集和测试集时我们需要确保这两个集是不相交的并且顺序的即训练集中的最新记录应该在测试集中最早的记录之前参见例如此博客文章

python3x scikitlearn TimeSeries crossvalidation paneldata

在选定的数据范围内创建数据分区，将其输入到 caret::train 函数中以进行交叉验证

我想为下面的数据框创建折刀数据分区这些分区将用于caret train 像caret groupKFold 产生然而问题是我想将测试点限制为超过 16 天同时使用这些数据的其余部分作为训练集 df lt data frame Eff

r crossvalidation rcaret datapartitioning

如何在交叉验证和GridSearchCV中实现SMOTE

我对 Python 比较陌生您能帮助我将 SMOTE 的实施改进为适当的管道吗我想要的是在每次 k 次迭代的训练集上应用过采样和欠采样以便模型在平衡的数据集上进行训练并在不平衡的遗漏部分上进行评估问题是当我这样做时我无法使用熟

python scikitlearn pipeline crossvalidation Gridsearch

R：glmnet 的 caret::train 函数可以在固定的 alpha 和 lambda 下交叉验证 AUC 吗？

我想使用最佳 alpha 和 lambda 计算弹性网络回归模型的 10 倍交叉验证 AUCcaret train https stats stackexchange com questions 69638 does caret train

r LogisticRegression crossvalidation rcaret ROC

ValueError：cross_val_predict仅适用于分区

我有一个包含特征数组 X 和因变量数组 y 的多类分类问题 y 有四个类 1 2 3 和 4 数据严重不平衡第 4 类只有少数观察结果我选择的分类器模型为 model RandomForestClassifier n estimator

python precision crossvalidation

使用带有 cross_val_score 的自定义估计器失败

我正在尝试使用cross val score使用定制的估算器重要的是该估计器接收一个成员变量该变量稍后可以在fit功能但里面好像cross val score成员变量被销毁或者正在创建估计器的新实例这是可以重现错误的最小代码 f

python scikitlearn crossvalidation

pyspark 中的交叉验证

我使用交叉验证来训练线性回归模型使用以下代码 from pyspark ml evaluation import RegressionEvaluator lr LinearRegression maxIter maxIteration m

apachespark machinelearning PySpark crossvalidation apachesparkml

如何在CARET中自定义模型来执行PLS-[Classifier]两步分类模型？

这个问题是同一线程的延续here https stats stackexchange com questions 81727 what is the best strategy to train and validate classific

r Classification crossvalidation rcaret

获取 RFECV scikit-learn 中的功能

受此启发 http scikit learn org stable auto examples feature selection plot rfe with cross validation html sphx glr auto exam

python scikitlearn crossvalidation rfe

仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样

我有一个高度不平衡的数据集 99 5 0 5 我想使用以下命令对随机森林模型执行超参数调整sklearn s RandomizedSearchCV 我希望使用 SMOTE 对每个训练折叠进行过采样然后在最终折叠上评估每个测试保持原始分布

python machinelearning scikitlearn pipeline crossvalidation

Sklearn 预处理 - PolynomialFeatures - 如何保留输出数组/数据帧的列名/标题

TLDR 如何从 sklearn preprocessing PolynomialFeatures 函数获取输出 numpy 数组的标题假设我有以下代码 import pandas as pd import numpy as np fro

python python27 validation scikitlearn crossvalidation

GridSearchCV Pipeline 中的替代不同模型

我想在 sklearn 中构建一个 Pipeline 并使用 GridSearchCV 测试不同的模型举个例子请不要关注具体选择的型号 reg LogisticRegression proj1 PCA n components 2 pr

python scikitlearn pipeline crossvalidation Gridsearch

如何在 scikit-learn 中正确执行交叉验证？

我正在尝试对 k nn 分类器进行交叉验证但我对以下两种方法中哪一种正确执行交叉验证感到困惑 training scores defaultdict list validation f1 scores defaultdict list v

python machinelearning scikitlearn crossvalidation

R中启动库的cv.glm中的成本函数

我正在尝试使用 R 中启动库中的交叉验证 cv glm 函数来确定应用 glm 逻辑回归时错误分类的数量该函数具有以下签名 cv glm data glmfit cost K 前两个表示数据和模型 K 指定 k 倍我的问题是成本参数其

r GLM crossvalidation

自定义交叉验证拆分sklearn

我正在尝试在 sklearn 中拆分数据集以进行交叉验证和 GridSearch 我想定义自己的分割但 GridSearch 只采用内置的交叉验证方法但是我无法使用内置的交叉验证方法因为我需要某些示例组位于同一折叠中所以如果我有

python validation machinelearning scikitlearn crossvalidation

如何显示每个交叉验证折叠的混淆矩阵和报告（召回率、精度、fmeasure）

我正在尝试在 python 中执行 10 折交叉验证我知道如何计算混淆矩阵和分割测试报告例如分割 80 训练和 20 测试但问题是我不知道如何计算混淆矩阵并报告每个折叠例如折叠 10 时我只知道平均准确度的代码为了简单起见以下

python machinelearning scikitlearn crossvalidation confusionmatrix

如何计算sklearn中交叉验证的每个模型中的特征重要性

我在用RandomForestClassifier with 10 fold cross validation如下 clf RandomForestClassifier random state 42 class weight balanc

python machinelearning scikitlearn Classification crossvalidation

使用 Caret 在 R 中创建 k 折 CV 的折叠

我正在尝试使用以下位置提供的数据为几种分类方法 hiperparameters 制作 k 折 CVhttp archive ics uci edu ml machine learning databases undocumented con

r crossvalidation rcaret