使用预测概率的插入符包中的自定义性能函数

2023-12-06

这个帖子是关于在中使用自定义性能测量函数caret包裹。您想要找到最佳的预测模型，因此您构建了多个预测模型，并通过计算通过比较观察值和预测值得出的单个指标来比较它们。有默认函数来计算此指标，但您也可以定义自己的指标函数。此自定义函数必须将观测值和预测值作为输入。

在分类问题（假设只有两个类别）中，预测值是0 or 1。然而，我需要评估的也是模型中计算的概率。有什么办法可以实现这一点吗？

原因是在某些应用程序中您需要知道是否1预测实际上有 99% 的概率或 51% 的概率 - 不仅仅是预测为 1 或 0。

有人可以帮忙吗？

Edit好的，让我尝试更好地解释一下。在文档中caret5.5.5（替代性能指标）下的包有一个描述如何使用您自己的自定义性能函数，如下所示

fitControl <- trainControl(method = "repeatedcv",
                           number = 10,
                           repeats = 10,
                           ## Estimate class probabilities
                           classProbs = TRUE,
                           ## Evaluate performance using 
                           ## the following function
                           summaryFunction = twoClassSummary)

twoClassSummary是本例中的自定义性能函数。此处提供的函数需要将数据框或矩阵作为输入obs and pred。这就是要点 - 我想使用一个不接受观察和预测，而是观察和预测的函数可能性.

还有一件事：

也欢迎其他软件包的解决方案。我唯一不寻找的是“这就是你编写自己的交叉验证函数的方式”。

当您指定时，插入符确实支持将类概率传递给自定义汇总函数classProbs = TRUE in trainControl。在这种情况下data创建自定义汇总函数时的参数将具有额外的两列，名为类，其中包含每个类的概率。这些类的名称将在lev参数是长度为 2 的向量。

参见示例：

library(caret)
library(mlbench)
data(Sonar)

自定义总结LogLoss：

LogLoss <- function (data, lev = NULL, model = NULL){ 
  obs <- data[, "obs"] #truth
  cls <- levels(obs) #find class names
  probs <- data[, cls[2]] #use second class name to extract probs for 2nd clas
  probs <- pmax(pmin(as.numeric(probs), 1 - 1e-15), 1e-15) #bound probability, this line and bellow is just logloss calculation, irrelevant for your question 
  logPreds <- log(probs)        
  log1Preds <- log(1 - probs)
  real <- (as.numeric(data$obs) - 1)
  out <- c(mean(real * logPreds + (1 - real) * log1Preds)) * -1
  names(out) <- c("LogLoss") #important since this is specified in call to train. Output can be a named vector of multiple values. 
  out
}

fitControl <- trainControl(method = "cv",
                           number = 5,
                           classProbs = TRUE,
                           summaryFunction = LogLoss)


fit <-  train(Class ~.,
             data = Sonar,
             method = "rpart", 
             metric = "LogLoss" ,
             tuneLength = 5,
             trControl = fitControl,
             maximize = FALSE) #important, depending on calculated performance measure

fit
#output
CART 

208 samples
 60 predictor
  2 classes: 'M', 'R' 

No pre-processing
Resampling: Cross-Validated (5 fold) 
Summary of sample sizes: 166, 166, 166, 167, 167 
Resampling results across tuning parameters:

  cp          LogLoss  
  0.00000000  1.1220902
  0.01030928  1.1220902
  0.05154639  1.1017268
  0.06701031  1.0694052
  0.48453608  0.6405134

LogLoss was used to select the optimal model using the smallest value.
The final value used for the model was cp = 0.4845361.

或者使用lev包含类级别并定义一些错误检查的参数

LogLoss <- function (data, lev = NULL, model = NULL){ 
 if (length(lev) > 2) {
        stop(paste("Your outcome has", length(lev), "levels. The LogLoss() function isn't appropriate."))
    }
  obs <- data[, "obs"] #truth
  probs <- data[, lev[2]] #use second class name
  probs <- pmax(pmin(as.numeric(probs), 1 - 1e-15), 1e-15) #bound probability
  logPreds <- log(probs)        
  log1Preds <- log(1 - probs)
  real <- (as.numeric(data$obs) - 1)
  out <- c(mean(real * logPreds + (1 - real) * log1Preds)) * -1
  names(out) <- c("LogLoss")
  out
}

查看插入符书的这一部分：https://topepo.github.io/caret/model-training-and-tuning.html#metrics

获取更多信息。如果您打算使用插入符号，即使您不这样做，这本书也值得一读。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用预测概率的插入符包中的自定义性能函数的相关文章

R 监督潜在狄利克雷分配包

我在用着这个LDA包 https cran r project org web packages lda 对于 R 具体来说我正在尝试做监督潜在狄利克雷分配 slda https www cs princeton edu blei pap
R：适合显示具有倾斜计数的数据的图

我有这样的数据 Name Count Object1 110 Object2 111 Object3 95 Object4 40 Object2000 1 因此只有前 3 个物体的计数较高其余 1996 个物体的数量少于 40 个其中
Dplyr 过滤多个类似条件

我正在尝试在 dplyr 中做一个过滤器其中的列就像某些观察结果我可以使用 sqldf 作为 Test lt sqldf select from database Where SOURCE LIKE ALPHA OR SOURCE LI
ggplot2 中的颜色和填充参数有什么区别？

ggmap location geom density 2d aes long lat df geom point aes long lat color special alpha 0 5 data df 当我更改填充颜色时我看不出有什么
R：igraph、社区检测、edge. Betweenness 方法、统计/列出每个社区的成员？

我有一个相对较大的图表其中顶点 524 边 1125 是现实世界的交易边是有向的并且具有权重包含是可选的我正在尝试调查图中的各个社区并且本质上需要一种方法计算所有可能的社区计算最佳社区数量返回每个最佳社区的成员成员数量
do.call 的 envir 选项如何工作？

的文档do call states If quote is FALSE 默认值然后对参数进行求值在调用环境中而不是在envir 这句话向我暗示当quote FALSE 指定envir没有什么区别然而事实并非如此事实上我遇到过需
包什么时候需要为它自己的对象使用 :::

考虑这个 R 包有两个函数一个是导出函数另一个是内部函数 hello R export hello lt function internalFunctions hello internal 你好内部 R hello internal
缩放geom_密度以将geom_bar与y上的百分比相匹配

因为我对数学感到困惑上次我尝试问这个问题 https stackoverflow com questions 32412805 ggplot2 histogram with density curve that sums to 1 这是另一
将 r 中的一列从出生日期更改为年龄

我是第一次使用 data table 我的表中有大约 400 000 个年龄的列我需要将它们从出生日期转换为年龄做这个的最好方式是什么我一直在思考这个问题到目前为止对这两个答案都不满意我喜欢用lubridate 就像 KFB 所做
使用插入符号完全可重现的并行模型

当我在插入符中运行 2 个随机森林时如果设置随机种子我会得到完全相同的结果 library caret library doParallel set seed 42 myControl lt trainControl method cv
使用 R 进行语言相关排序

1 如何正确排序任务是根据英文字母对美国州名缩写进行排序但我注意到 R 根据某种操作系统语言或区域设置对列表进行排序例如在我的语言立陶宛语中甚至拉丁语非立陶宛语字母的顺序也与英语字母表中的顺序不同仅比较两个字母表中的非立
可以使用部分名称访问列表成员吗？这是一个功能吗？

考虑这个 R 代码 gt l list key 1 gt l k 1 1 gt l ke 1 1 gt l k NULL gt names l 1 key 这是否意味着您可以使用以下方式访问列表成员及其部分名称当我在一次令人沮丧的错误搜
使用条件求 R 中的累积和

我需要创建一个新变量其中包含每个 ID 过去三年金额的总和如果没有三年的数据则应显示 NA 举个例子 ID YEAR AMOUNT 1 2010 5 1 2011 2 1 2012 4 1 2013 1 1 2014 3 2 2013
为什么我们应该在 Keras 中对深度学习数据进行标准化？

我正在 Keras 中测试一些网络架构以对 MNIST 数据集进行分类我已经实现了一个类似于 LeNet 的方法我看到在网上找到的例子中有一个数据标准化的步骤例如 X train 255 我在没有这种标准化的情况下进行了测试我发
将值排列在特定组内

我试图在嵌套数据帧的精确组内按降序排列值我的输入数据如下所示我有两个分组变量 group1 and group2 和三个值即id value2 value3 library tidyverse set seed 1234 df lt
从R中的序列中随机提取多个连续项

Frag lt seq 1 30000 K lt 9 P lt sample 1 K 1 sys sample lt Frag seq P length Frag K 现在 sys sample 包含 3333 个数字如何在R中随机提取1
在 R 中创建 xlsx 工作表 - 字体颜色不起作用

我正在开发一个项目需要从特定类型的数据框架自动生成数据电子表格我读过关于如何执行此操作的有用解释here http www sthda com english wiki r xlsx package a quick start guid
如何从 Matlab 运行 R 脚本 [重复]

这个问题在这里已经有答案了我有 m 文件我想用它来运行 R 脚本我怎样才能做到这一点 Matlab文件 caller m some matlab code need to call a R script some matlab cod
R 中的整数或双精度列表

我有一个大约 1000 个整数的列表我需要能够进行一些数学计算但它们被困在列表或字符形式中我怎样才能切换它们以便它们可用样本数据 gt y 1 1 7 3 1 6 7 1 7 6 5 3 1 3 3 0 6 2 4 9 19 1 9
如何从线性模型 (lm) 预测 x 值

我有这个数据集 x lt c 0 40 80 120 160 200 y lt c 6 52 5 10 4 43 3 99 3 75 3 60 我使用计算了一个线性模型lm model lt lm y x 我想知道的预测值x如果我有新的y值

随机推荐

libGdx 如何使用图像或演员作为主体

我浏览了 libGdx wiki 教程但没有找到使用图像或演员作为物理体的示例在我的游戏中我在舞台上添加了一名演员但我想添加这个演员或精灵图像作为物理体我必须拖动这个演员甚至想要检测与其他物体的碰撞如果有请给我参考 Thank
修改shell脚本来监控/ping多个ip地址

好吧所以我需要不断监控多个路由器和计算机以确保它们保持在线我找到了一个很棒的剧本here如果无法 ping 通单个 IP 它将通过咆哮通知我这样我就可以在手机上收到即时通知我一直在尝试修改脚本以 ping 多个地址但运气不佳当
执行从 Xib 到 ViewController 的 segue

我有一个带有按钮的 Xib 文件单击按钮时我想转到另一个视图控制器我已经在 StoryBoard 中的视图控制器之间创建了一个 Segue 并创建了一个标识符但似乎无法以编程方式调用它 IBAction func buttonActi
Log4j |更新Appender的日志级别

我的 log4j properties 文件 log4j rootLogger INFO stdout console output appender log4j appender stdout org apache log4j Conso
pandas“DataFrame”对象没有属性“map”

我有两个 df df a 和 df b df a number cur code 1000 USD 700 2000 USD 800 3000 USD 900 df b number amount deletion code 1000 0
在链接器方法之外将元素的文本存储在 Cypress 中

如何存储 div 的文本值一次并在整个 cypress 测试中使用它到目前为止我已经通过将大部分测试逻辑嵌套在调用中来做到这一点then方法但这看起来并不优雅或理想 cy get div then div gt let storedV
如何将文件缓冲区转换为标签 src？

我正在开发一个应用程序使用 Node js 作为后端并作为我的前端进行反应现在我创建了一个上传文件并将其作为缓冲区类型存储在 mongodb 中的路由我的问题是当我在 React 应用程序中收到这些数据时如何使用这些数据将其转换
AVPlayer 无法从本地文件播放 m3u8

我正在尝试让 AVPlayer 播放本地文件的 m3u8 播放列表我使用 Apple 的示例播放列表之一将其范围缩小为一个简单的测试用例 https tungsten aaplimg com VOD bipbop adv fmp4 exa
创建实体框架模型时忽略数据库默认值

假设我的数据库中有下表 CREATE TABLE dbo Test Id INT IDENTITY 1 1 NOT NULL Active BIT DEFAULT 1 NOT NULL When creating an EF model f
学习汇编-echo程序名

我正在尝试用汇编语言编写一个简单的程序来写出程序的名称使用 gdb 进行调试我确定对 sys write 的调用返回 14 EFAULT 我还能够验证我的 strlen 函数是否正常工作似乎存在某种内存访问问题但考虑到 strlen
如何让我的 kubernetes 获取最新的 docker 镜像？ [复制]

这个问题在这里已经有答案了 Problem Slack 和 Stack Overflow 上出现的一个常见问题是当镜像标签未更改但底层镜像已更改时如何触发 Deployment RS RC 的更新考虑存在一个带有映像 foo lat
如何将发件人地址设置为其他gmail中的任何电子邮件（通过Gmail在.NET中发送电子邮件）？

在这篇文章中通过 Gmail 在 NET 中发送电子邮件我们有一个通过gmail发送电子邮件的代码在发送邮件中我们从字段中找到包含我使用的gmail帐户我使用相同的代码但通过将发件人地址更改为我想要的任何电子邮件并在凭据中设置 gma
Spark 2.4 的 lineSep 选项

Is lineSep该选项确实适用于 Spark 2 4 版本 lineSep default covers all r r n and n defines the line separator that should be used fo
如何修复 - 41：无法从静态上下文引用非静态变量 -> 这是什么原因？

我正在尝试编写此代码来获取第一个initialCapacity素数然后使用java按顺序打印它们它不起作用有两个原因首先我收到错误 41 不能从静态上下文引用非静态变量 listOfPrimeNumbers 当我尝试运行该程序时但即
如何获取 SwiftUI Text 中每个字符的位置

我的第一个想法是基于文本运算符似乎很容易通过组合一个字符一个字符来构建整个文本并检查部分结果的宽度不幸的是我没有找到如何做到这一点的方法所有已知的获取几何图形的技巧 alignmentGuide GeometryReade
套接字关闭并重新绑定 - 如何避免长时间等待？

我正在 python 中使用套接字并且在开发阶段我需要经常终止并重新启动我的程序问题是一旦杀死了我的 python 脚本我必须等待很长时间才能重新绑定侦听套接字这是重现该问题的片段 usr bin env python3 impo
WebRTC：同时重新协商问题

Use Case 三个同伴正在与同一房间中的另外两个同伴进行视频聊天服务器发送一条消息并且所有三个同伴都将模式更改为音频目前只有 chrome 支持重新协商因此对于 firefox 我只需关闭连接并创建新的对等连接但在我检查双方
Angular2 访问全局服务而不将其包含在每个构造函数中

我有三门课 Injectable export class ApiService constructor public http Http get url string return http get url Injectable expo
小叶杂食+聚类标记+过滤标记聚类组

我尝试使用 Mapbox 和 Leafet 的杂食动物插件制作地图以便通过教程搜索数据我不知道如何在我的例子中集成来自杂食动物插件的代码我使用 geojson url 作为我的数据 getJSON 用Leaflet的MarkerClu
使用预测概率的插入符包中的自定义性能函数

这个帖子是关于在中使用自定义性能测量函数caret包裹您想要找到最佳的预测模型因此您构建了多个预测模型并通过计算通过比较观察值和预测值得出的单个指标来比较它们有默认函数来计算此指标但您也可以定义自己的指标函数此自定义函数必须将观

使用预测概率的插入符包中的自定义性能函数

使用预测概率的插入符包中的自定义性能函数 的相关文章

随机推荐

热门标签

使用预测概率的插入符包中的自定义性能函数的相关文章