R：glmnet 的 caret::train 函数可以在固定的 alpha 和 lambda 下交叉验证 AUC 吗？

2024-04-17

我想使用最佳 alpha 和 lambda 计算弹性网络回归模型的 10 倍交叉验证 AUCcaret::train

https://stats.stackexchange.com/questions/69638/does-caret-train-function-for-glmnet-cross-validate-for-both-alpha-and-lambda/69651 https://stats.stackexchange.com/questions/69638/does-caret-train-function-for-glmnet-cross-validate-for-both-alpha-and-lambda/69651解释了如何交叉验证 alpha 和 lambdacaret::train

我关于交叉验证的问题已关闭，因为它已被归类为编程问题：https://stats.stackexchange.com/questions/505865/r-calculate-the-10-fold-crossvalidated-auc-with-glmnet-and-given-alpha-and-lamb?noredirect=1#comment934491_505865 https://stats.stackexchange.com/questions/505865/r-calculate-the-10-fold-crossvalidated-auc-with-glmnet-and-given-alpha-and-lamb?noredirect=1#comment934491_505865

我拥有的

Dataset:

library(tidyverse)
library(caret)
library(glmnet)
library(mlbench)

# example data
data(PimaIndiansDiabetes, package="mlbench")

# make a training set
set.seed(2323)
train.data <- PimaIndiansDiabetes

我的型号：

# build a model using the training set
set.seed(2323)
model <- train(
  diabetes ~., data = train.data, method = "glmnet",
  trControl = trainControl("cv",
                           number = 10,
                           classProbs = TRUE,
                           savePredictions = TRUE),
  tuneLength = 10,
  metric="ROC"
)

我在这里得到错误：

Warning message:
In train.default(x, y, weights = w, ...) :
  The metric "ROC" was not in the result set. Accuracy will be used instead.

如果我忽略错误，最好的 alpha 和 lambda 是：

model$bestTune
   alpha      lambda
11   0.2 0.002926378

现在我想使用具有最佳 alpha 和 lambda 以及训练数据的模型来获得 10 倍交叉验证的 AUC。

我尝试过的

我的方法是这样的，但是，我收到错误：Something is wrong; all the Accuracy metric values are missing:

model <- train(
  diabetes ~., data = train.data, method = "glmnet",
  trControl = trainControl("cv",
                           number = 10,
                           classProbs = TRUE,
                           savePredictions = TRUE),
  alpha=model$bestTune$alpha,
  lambda=model$bestTune$lambda,
  tuneLength = 10,
  metric="ROC"
)

如何使用最佳 alpha 和 lambda 以及训练数据计算交叉验证的 AUC？

我仍然不确定如何交叉验证 AUC，而不是准确性。

感谢您的帮助。

您打算使用“ROC” - ROC 曲线下的区域来选择最佳调整参数，但您没有指定twoClassSummary() https://www.rdocumentation.org/packages/caret/versions/6.0-86/topics/defaultSummary它保存了这个指标。这就是警告的内容通知你

Warning message:
In train.default(x, y, weights = w, ...) :
  The metric "ROC" was not in the result set. Accuracy will be used instead.

执行车削：

library(tidyverse)
library(caret)
library(glmnet)
library(mlbench)

data(PimaIndiansDiabetes, package="mlbench")

set.seed(2323)
train.data <- PimaIndiansDiabetes

set.seed(2323)
model <- train(
  diabetes ~., data = train.data, method = "glmnet",
  trControl = trainControl("cv",
                           number = 10,
                           classProbs = TRUE,
                           savePredictions = TRUE,
                           summaryFunction = twoClassSummary),
  tuneLength = 10,
  metric="ROC" #ROC metric is in twoClassSummary
)

既然你指定了classProbs = TRUE and savePredictions = TRUE您可以根据预测计算任何指标。计算精度：

model$pred %>%
  filter(alpha == model$bestTune$alpha,   #filter predictions for best tuning parameters
         lambda == model$bestTune$lambda) %>%
  group_by(Resample) %>% #group by fold
  summarise(acc = sum(pred == obs)/n()) #calculate metric
#output
`summarise()` ungrouping output (override with `.groups` argument)
# A tibble: 10 x 2
   Resample   acc
   <chr>    <dbl>
 1 Fold01   0.740
 2 Fold02   0.753
 3 Fold03   0.818
 4 Fold04   0.776
 5 Fold05   0.779
 6 Fold06   0.753
 7 Fold07   0.766
 8 Fold08   0.792
 9 Fold09   0.727
10 Fold10   0.789

这给出了每倍的度量。为了获得平均性能

model$pred %>%
  filter(alpha == model$bestTune$alpha,
         lambda == model$bestTune$lambda) %>%
  group_by(Resample) %>%
  summarise(acc = sum(pred == obs)/n()) %>%
  pull(acc) %>%
  mean
#output
0.769566

当 ROC 用作选择指标时，超参数会在所有决策阈值上进行优化。在许多情况下，使用默认决策阈值 0.5 时，所选模型的表现可能不是最优的。

插入符有一个功能thresholder() https://www.rdocumentation.org/packages/caret/versions/6.0-86/topics/thresholder

它将根据超过指定决策阈值的重新采样数据计算许多指标。

thresholder(model, seq(0, 1, length.out = 10)) #in reality I would use length.out = 100

#output

alpha     lambda prob_threshold Sensitivity Specificity Pos Pred Value Neg Pred Value Precision Recall        F1 Prevalence Detection Rate Detection Prevalence Balanced Accuracy  Accuracy
1    0.1 0.03607775      0.0000000       1.000  0.00000000      0.6510595            NaN 0.6510595  1.000 0.7886514  0.6510595      0.6510595            1.0000000         0.5000000 0.6510595
2    0.1 0.03607775      0.1111111       0.994  0.02621083      0.6557464      0.7380952 0.6557464  0.994 0.7901580  0.6510595      0.6471463            0.9869617         0.5101054 0.6562714
3    0.1 0.03607775      0.2222222       0.986  0.15270655      0.6850874      0.8711111 0.6850874  0.986 0.8082906  0.6510595      0.6419344            0.9375256         0.5693533 0.6952837
4    0.1 0.03607775      0.3333333       0.964  0.32421652      0.7278778      0.8406807 0.7278778  0.964 0.8290127  0.6510595      0.6276316            0.8633459         0.6441083 0.7408578
5    0.1 0.03607775      0.4444444       0.928  0.47364672      0.7674158      0.7903159 0.7674158  0.928 0.8395895  0.6510595      0.6041866            0.7877990         0.7008234 0.7695147
6    0.1 0.03607775      0.5555556       0.862  0.59002849      0.7970454      0.7053968 0.7970454  0.862 0.8274687  0.6510595      0.5611928            0.7043575         0.7260142 0.7669686
7    0.1 0.03607775      0.6666667       0.742  0.75740741      0.8521972      0.6114289 0.8521972  0.742 0.7926993  0.6510595      0.4830827            0.5677204         0.7497037 0.7473855
8    0.1 0.03607775      0.7777778       0.536  0.90284900      0.9156149      0.5113452 0.9156149  0.536 0.6739140  0.6510595      0.3489918            0.3828606         0.7194245 0.6640636
9    0.1 0.03607775      0.8888889       0.198  0.98119658      0.9573810      0.3967404 0.9573810  0.198 0.3231917  0.6510595      0.1289474            0.1354751         0.5895983 0.4713602
10   0.1 0.03607775      1.0000000       0.000  1.00000000            NaN      0.3489405       NaN  0.000       NaN  0.6510595      0.0000000            0.0000000         0.5000000 0.3489405
       Kappa          J      Dist
1  0.0000000 0.00000000 1.0000000
2  0.0258717 0.02021083 0.9738516
3  0.1699809 0.13870655 0.8475624
4  0.3337322 0.28821652 0.6774055
5  0.4417759 0.40164672 0.5329805
6  0.4692998 0.45202849 0.4363768
7  0.4727251 0.49940741 0.3580090
8  0.3726156 0.43884900 0.4785352
9  0.1342372 0.17919658 0.8026597
10 0.0000000 0.00000000 1.0000000

现在根据您所需的指标选择一个阈值并使用它。通常用于不平衡数据的指标科恩的卡帕 https://en.wikipedia.org/wiki/Cohen%27s_kappa, 尤登的J https://en.wikipedia.org/wiki/Youden%27s_J_statistic or 马修斯相关系数（MCC） https://en.wikipedia.org/wiki/Matthews_correlation_coefficient。这里有一个体面的paper https://www.semanticscholar.org/paper/Predictive-Accuracy-%3A-A-Misleading-Performance-for-Akosa/8eff162ba887b6ed3091d5b6aa1a89e23342cb5c就此事。

请注意，由于该数据用于查找最佳阈值，因此通过这种方式获得的性能将存在乐观偏差。为了评估所选决策阈值的性能，最好使用几个独立的测试集。换句话说，我建议嵌套重采样，您可以使用内部折叠优化参数和阈值并评估外部折叠。

这是一个解释 https://stackoverflow.com/questions/62183291/statistical-test-with-test-data/62193116#62193116关于如何使用插入符号和回归的嵌套重采样。需要进行一些修改才能使其与具有优化阈值的分类一起使用。

请注意，这不是选择最佳决策阈值的唯一方法。另一种方法是先验地选择所需的度量（例如 MCC）并将决策阈值视为要与所有其他超参数联合调整的超参数。我相信创建自定义模型时插入符号不支持这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R：glmnet 的 caret::train 函数可以在固定的 alpha 和 lambda 下交叉验证 AUC 吗？的相关文章

访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
rpart是自动剪枝吗？

Is rpart自动修剪生成的决策树rpart比具有自动修剪功能的 Oracle Data Mining 生成的级别要多得多否但拟合函数的默认值可能会提前停止分割对于早期的某些定义 See rpart control对于您可
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
在`rmarkdown`中，如何在句子中添加图标？

In rmarkdown 如何在句子中添加图标例如如下如何添加markdown icon单词 Markdown 和 is 之间有一个很好的 R 包可以轻松下载 RMarkdown 文档并将图标添加到其中 icons https gi
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
修改linux下的路径

虽然我认为我已经接近 Linux 专业人士但显然我仍然是一个初学者当我登录服务器时我需要使用最新版本的R 统计软件 R 安装在 2 个地方当我运行以下命令时 which R I get usr bin R 进而 R version
函数“[<-”将_替换_一个元素，但不会追加_元素_

我在使用时注意到以下几点 lt 我成功于替换元素但不位于追加向量的一个元素例子 VarX lt integer VarX 1 lt 11 lt VarX 2 22 VarX 1 11 Expected the value of VarX
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer
如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
如何从 R 数据框中提取关键字

我是 R 中文本挖掘的新手我想从数据框的列中删除停用词即提取关键字并将这些关键字放入新列中我尝试制作一个语料库但它对我没有帮助 df C3是我目前拥有的我想添加栏目df C4 但我无法让它工作 df lt structure l
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d

随机推荐

如何在 2.0 和 1.x 之间切换 TensorFlow 版本？

有没有办法切换tensorflow的版本当我使用conda安装tensorflow 2 0时它更新了很多东西甚至是python 跑步时conda list它显示两个版本张量流2 0 0 mkl py37h66b46cc 0张量流 1
测试 AWS Elastic Beanstalk 扩展

我已经在弹性豆茎中设置了一个服务器需要时应该将实例数量从 1 增加到最多 4 但是我有一个潜在的怀疑当它启动一个新实例时该实例将无法正确配置因为我无法安装用于 Python 的 mySQL 模块无需 ssh 进入实例并手动设置
如何通过反射加载所有 Entity Framework 4.1 实体配置实体？

In my OnModelCreating我的数据上下文的方法目前正在手动映射所有实体配置映射类例如 protected override void OnModelCreating DbModelBuilder modelBuilder
将数据批量插入 Oracle 数据库的最佳方法

我将创建很多数据脚本例如 INSERT INTO 和 UPDATE 如果不是 1 000 000 条记录也会有 100 000 条以上记录快速将这些数据导入 Oracle 的最佳方法是什么我已经发现 SQL Loader 不适合这样
解析 LDAP dn 的正则表达式

我有以下字符串 cn abcd cn groups dc domain dc com 这里可以使用正则表达式来提取第一个之后的字符串吗cn 在第一个之前在上面的例子中答案应该是abcd cn 大多数语言会将匹配提取为 1 或 match
DOMNodeRemovedFromDocument 的简单 MutationObserver 版本

我将一些功能附加到 DOM 元素并希望能够在从 DOM 中删除该元素时清除所有引用以便可以对其进行垃圾收集我检测元素删除的初始版本是这样的 var onremove function element callback var dest
控制空格子面板的放置

当绘制的面板少于完整网格时您会得到一个没有面板的间隙大多数格函数将间隙放在右上角但我希望将其放在右下角如marginal plot确实见图有没有办法让其他晶格函数也能做同样的事情我知道面板顺序是由调节变量的因子水平的顺序决定的
单击我网站上的任何链接 (a) 时如何运行 jQuery 函数

我有一个基于 corecommerce 系统的新网站该系统对 HTML 和 PHP 没有太多访问权限我唯一可以使用的是 JavaScript 他们的系统目前的页面加载速度不是很好所以我希望至少客户在等待 5 8 秒页面加载时知道发生了
C 中声明后可以初始化数组吗？

有没有办法在实际初始化变量之前声明这样的变量 CGFloat components 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 我希望它声明类似这样的内容除非这不起作用 CGFloat components 8
如何通过lcov和代码覆盖率比较来处理不同目录中的.gcda和.gcno文件

我可以通过 lcov 在同一目录中使用 gcda 文件和 gcno 文件生成 info 文件但是如何在不同位置使用 gcda 文件和 gcno 文件生成代码覆盖率例如 Users swd Library Developer Xcode
对一系列点重新采样

我有一个 3d 点数组想象一下球的轨迹有 X 个样本现在我想对这些点重新采样以便我有一个新数组其中包含 y 个样本的位置 y 可以大于或小于 x 但不能小于 1 始终至少有 1 个样本将原始数组重新采样为新数组的算法会是什么样
名称冲突：test2 类型的方法 add(Object) 与 HashSet 类型的 add(E) 具有相同的擦除功能，但不会覆盖它

导入 java util class A extends HashSet
如何在Python中仅在回车符和readlines上进行分割？

我有一个包含两者的文本文件 n and r n行尾标记我只想分割 r n 但无法找到使用 python 的 readlines 方法来执行此操作的方法有一个简单的解决方法吗正如 eskaev 提到的如果没有必要您通常会希望避免将完
如何使用xPages上传控件将上传的文件存储到本地文件系统？

如何使用xPages上传控件将上传的文件存储到本地磁盘我的 xPages 上只有一个带有文本字段和 fileUpload 控件的简单表单没有与文档的绑定因此我访问 xpages 组件以在提交时获取它们的值如何从我的 java 代码访
我应该创建代理键而不是复合键吗？

结构 Actor lt ActorMovie gt Movie ActorMovie ActorID fk MovieId fk gt pk ActorID MovieID 我应该创建一个代理键吗ActorMovie桌子是这样的 Actor
iOS Swift - 如何以编程方式为所有按钮分配默认操作

我正在开发一个处于原型开发阶段的应用程序某些界面元素没有通过情节提要或以编程方式分配给它们的任何操作根据用户体验指南我想在应用程序中找到这些非活动按钮并让它们在测试期间点击时显示功能不可用警报这可以通过 UIButton
Javascript 中数组大小如何工作

在 JavaScript 中如果将数组设置为大小 5 var foo new Array 5 这只是初始尺寸吗创建后可以扩展元素数量吗是否也可以做这样的事情 arr new Array 然后一一分配元素提前致谢是的这只是一个初始
重新排序因子会给出不同的结果，具体取决于加载的包

我想创建一个条形图其中条形按高度排序而不是按类别按字母顺序排序当我加载的唯一包是 ggplot2 时这工作得很好然而当我加载更多的包并运行创建排序和绘制数据框的相同代码时条形图已恢复为再次按字母顺序排序我每次使用时都会检查
使用 tkinter 时在 Google Colab 中设置 $DISPLAY 环境变量 [重复]

这个问题在这里已经有答案了我有一个简单的 python 脚本它使用 tkinter 库来创建简单的表单这个脚本在 jupyer 笔记本和本地计算机上完美运行但是当我想在 google colab 中运行时它会抛出以下问题 usr
R：glmnet 的 caret::train 函数可以在固定的 alpha 和 lambda 下交叉验证 AUC 吗？

我想使用最佳 alpha 和 lambda 计算弹性网络回归模型的 10 倍交叉验证 AUCcaret train https stats stackexchange com questions 69638 does caret train

R：glmnet 的 caret::train 函数可以在固定的 alpha 和 lambda 下交叉验证 AUC 吗？

R：glmnet 的 caret::train 函数可以在固定的 alpha 和 lambda 下交叉验证 AUC 吗？ 的相关文章

随机推荐

热门标签

R：glmnet 的 caret::train 函数可以在固定的 alpha 和 lambda 下交叉验证 AUC 吗？的相关文章