R中启动库的cv.glm中的成本函数

2024-03-10

我正在尝试使用 R 中启动库中的交叉验证 cv.glm 函数来确定应用 glm 逻辑回归时错误分类的数量。

该函数具有以下签名：

cv.glm(data, glmfit, cost, K)

前两个表示数据和模型，K 指定 k 倍。我的问题是成本参数，其定义为：

成本：指定成本函数的两个向量参数的函数用于交叉验证。 cost 的第一个参数应该对应到观察到的响应，第二个参数应该对应于广义线性模型的预测或拟合响应。 cost 必须返回非负标量值。默认值是平均平方误差函数。

我想对于分类来说，有一个返回错误分类率的函数是有意义的，例如：

nrow(subset(data, (predict >= 0.5  & data$response == "no") | 
                  (predict <  0.5  & data$response == "yes")))

这当然在语法上也是不正确的。

不幸的是，我有限的 R 知识让我浪费了很多时间，我想知道是否有人能给我指出正确的方向。

听起来你可能只使用成本函数（即名为cost）在“示例”部分进一步定义?cv.glm。引用该部分：

 # [...] Since the response is a binary variable an
 # appropriate cost function is
 cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)

这基本上就是您在示例中尝试执行的操作。将“不”和“是”替换为0 and 1，假设你有两个向量，predict and response. Then cost()设计得很好，可以获取它们并返回平均分类率：

## Simulate some reasonable data
set.seed(1)
predict <- seq(0.1, 0.9, by=0.1)
response <-  rbinom(n=length(predict), prob=predict, size=1)
response
# [1] 0 0 0 1 0 0 0 1 1

## Demonstrate the function 'cost()' in action
cost(response, predict)
# [1] 0.3333333  ## Which is right, as 3/9 elements (4, 6, & 7) are misclassified
                 ## (assuming you use 0.5 as the cutoff for your predictions).

我猜最棘手的一点就是让你的思想完全围绕着将函数作为参数传递的想法。（至少对我来说，在很长一段时间里，这是使用boot包，这需要移动相当多的地方。）

2016年3月22日添加：

功能cost()，在我看来，上面给出的内容是不必要的混淆；下面的替代方案做了完全相同的事情，但以更具表现力的方式：

cost <- function(r, pi = 0) { 
        mean((pi < 0.5) & r==1 | (pi > 0.5) & r==0)
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

GLM

crossvalidation

R中启动库的cv.glm中的成本函数的相关文章

在 R Shiny 中，如何使用可排序 js 将其在列表中出现的顺序次数附加到每个列表元素？

下面的可重现代码适用于将元素从一个面板拖动到另一个面板并在拖动到面板中自动使用 HTML CSS 对拖入的每个元素进行排名顺序编号但是我现在尝试附加到每个拖动到列表元素的末尾使用某种形式的paste0 我假设该元素在拖至
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5
kmeans 对分组数据进行聚类

目前我尝试在分组数据中找到簇的中心通过使用示例数据集和问题定义我能够创建kmeans每个组内的集群然而当涉及到给定组的集群的每个中心时我不知道如何获取它们 https rdrr io cran broom man kmeans
使用滑动窗口动画 ggplot 时间序列图

我正在寻找在不失去分辨率的情况下对长时间序列图进行动画处理的方法我希望视图能够平移数据显示从开始到结束的滑动子集假设我有以下内容 library ggplot2 library dplyr library gganimate df
R：为什么 boxplot(x,log="y") 与 boxplot(log(x)) 不同？

delme lt exp rnorm 1000 1 5 0 3 boxplot delme log y boxplot log10 delme 为什么这两个图中的胡须不同谢谢阿古斯我想说的是在您的第一个图中您只是将 y 轴更改为对
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
如何从R中的日期中提取月份

我正在使用lubridate封装并应用month从日期中提取月份的函数我在日期字段上运行了 str 命令得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
如何在 R 中为回归量创建“宏”？

对于长且重复的模型我想创建一个宏在 Stata 中称为宏并通过以下命令完成 global var1 var2 其中包含回归量的模型公式例如来自 library car lm income education prestige d
stat_function 从函数生成平线

我有以下代码 library ggplot2 f lt function x if x gt 2 1 x 0 3 else 0 graph lt ggplot data frame x c 0 10 aes x graph lt graph
将不同的 grViz 组合成一个图

我想结合不同的DiagrammeR绘制成一个图形生成的图如下例所示 library DiagrammeR pDia lt grViz digraph boxes and circles a graph statement graph ov
如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
为每个因素级别添加日期时间序列

我有一个带有因子列的数据框 s lt data frame id 901 910 s id lt as factor s id 我有一个日期时间序列 library lubridate start lt now as difftime 2
删除缺失的数据值

我删除了原始帖子以便能够发布更大版本的数据集实际上总共有 418 行这是我正在进行的生存分析的数据第一列是 ID 号其他列标记为 V2 V20 有很多缺失的数据用表示我用coxph 函数来获取以下内容 Saves survi
R：ifelse 中的字符串列表

我正在寻找与 MySQL 中的 where var in 语句类似的东西我的代码如下 data lt data frame id 10001 10030 cc1 rep c a b c 10 attach data data new lt
R 错误：无法更改锁定绑定的值

我试图估计无限数字流的平均值和标准差当我运行代码时出现错误消息无法更改锁定绑定的值我做了一些研究发现这个错误与我使用全局变量有关但我无法弄清楚任何帮助将非常感激在此先感谢您的帮助 define global variable
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
R参考类问题

我正在尝试在 R 中创建一个简单的参考类这是我的代码 R 初学者 MyClass lt setRefClass MyClass fields list a numeric b numeric methods list initialize
通过 r markdown 中的循环创建代码片段

如同如何使用R中的knitr创建一个包含代码块和文本的循环 https stackoverflow com questions 36373630 how to create a loop that includes both a code
按组计算连续行中的值之间的差异

这是我的一个df 数据框 group value 1 10 1 20 1 25 2 5 2 10 2 15 我需要按组计算连续行中的值之间的差异所以我需要一个结果 group value diff 1 10 NA because the

随机推荐

使用CSS检测输入中是否有文本——在我正在访问且无法控制的页面上？

有没有办法通过 CSS 检测输入中是否有文本我尝试过使用 empty伪类我尝试过使用 value 这两个都不起作用我似乎无法找到单一的解决方案我想这一定是可能的考虑到我们有伪类 checked and indeterminate
Xcode 突然停止在硬件上运行项目：“无法启动 xxx.app：.. 没有这样的文件..”[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Xcode 已停止运行我的应用程序它在我从设备中删除它并尝试通过在 Xcode 中重新运行它来重新安装后立即启动我之前已经做过数百
使用 boost Spirit 解析带有二进制信封的文本文件

我目前正在尝试为 ASCII 文本文件编写一个解析器该文件被一个带有校验和的小信封包围该文件的基本结构是我想将有效负载提取到另一个字符串中以将其提供给下一个解析器我用来解析这个信封的解析器表达式是 qi phrase parse
如何杀死shell的所有子进程？

我正在编写一个 bash 脚本它可以完成几件事一开始它会启动几个监视脚本每个脚本都运行一些其他工具在我的主脚本结束时我想杀死从我的外壳中产生的所有东西所以它可能看起来像这样 bin bash some monitor1 sh
是什么使得树遍历是前序的还是有序的？

为什么通过根左右进行的树遍历称为前序难道这不应该是有序的吗因为根总是第一位的对我来说为什么这样称呼它没有意义因为根始终是第一个元素我们总是有这样的限制左孩子在右孩子之前被访问主要区别在于根在哪里如果根是before两个
Git 拉取失败并出现错误的包头错误

git pull 失败并出现以下错误 remote Counting objects 146 done remote fatal unable to create thread Resource temporarily unavailabl
如何获取硬盘已用空间，可用空间，而不是分区可用空间

我想知道每个硬盘的可用空间已用空间而不是分区可用空间谢谢使用 GetDiskFreeSpaceEx 函数参见这篇文章 http msdn microsoft com en us library aa364937 28v vs 85
ASP.NET 会员提供商

是否有人使用过 ASP NET Membership Provider 代码以及新的 1 3 工具包和 MVC 我正在寻找一些更新的代码到目前为止我所能找到的就是这里的代码 http archive msdn microsoft com
是否可以从 Dart 的控制台读取内容？

我知道我们可以使用 print 语句在 dart 中打印到控制台我想知道是否可以从控制台读取数据我进行了搜索并查看了 dart io 包但找不到任何参考 Thanks 您可以使用字符串输入流 http api dartlang org
用大写字母分割字符串[重复]

这个问题在这里已经有答案了可能的重复将 PascalCase 字符串拆分为单独的单词 https stackoverflow com questions 3216085 split a pascalcase string into se
UIButton 上的文本更改不粘

我的视图中有一个 UIButton 上面写着 STOP 当按下时它应该当然停止播放并且将其标签更改为 RTN TO ZERO 这很简单 stopButton titleLabel text RTN TO ZERO 然而这种变化只出
SheetJS：不要在 json_to_sheet 中包含标题

The SheetJS 文档 https docs sheetjs com array of objects input展示了一种获取 JSON 对象并将其转换为 Excel 工作表的方法从他们的例子来看 var ws XLSX util
Tensorflow 2.2.0 错误：[预测必须 > 0] [条件 x >= y 不满足元素方向：] 使用双向 LSTM 层时

在处理命名实体识别任务时我收到以下错误消息 tensorflow python framework errors impl InvalidArgumentError assertion failed predictions must be
在 asp.net 中按日期过滤 DirectoryInfo 文件

我正在使用指定路径 DirectoryInfo 中的文件填充数据网格控件我想根据用户指定的日期范围开始日期和结束日期过滤文件在搜索 S O 时我发现this https stackoverflow com questions 52
有没有办法在 Android 中创建自定义答录机？

我想创建一个应用程序允许您使用以下命令过滤来电到各种应答消息对于列入黑名单的电话号码此号码不可用给陌生人的正式信息关于您为朋友所做的事情的信息性消息我不知道如何自动接听电话播放录制的消息然后等待应答并录制或者也许只有一种与
如何从给定类 Item 获取数组？

首先我是新手我正在尝试使用媒体存储获取媒体文件详细信息并将详细信息保存在列表中mitems 这就是我正在做的事情 public class MusicRetriever final String TAG MusicRetriever C
Java Date Hibernate 截止时间

我在 Oracle DB 中有一个日期类型列它肯定包含日期和时间但是当我尝试在java应用程序中获取数据时它将返回带有一堆零的日期而不是实时的在代码中它将是这样的 SQLQuery sqlQuery session createSQ
pyspark.sql.utils.AnalysisException：“无法推断 CSV 的架构。必须手动指定。;'

我尝试了这两个 spark read option header true csv s3 spark read format csv option header true load s3 有没有办法在运行时读取架构请确认它是有效的 CS
在 C# 中，是否可以模拟 IMessageReceiver 和相关类进行单元测试？

我希望为以下课程创建单元测试 public class ServiceBusClient private readonly IMessageReceiver messageReceiver private readonly int maxi
R中启动库的cv.glm中的成本函数

我正在尝试使用 R 中启动库中的交叉验证 cv glm 函数来确定应用 glm 逻辑回归时错误分类的数量该函数具有以下签名 cv glm data glmfit cost K 前两个表示数据和模型 K 指定 k 倍我的问题是成本参数其

R中启动库的cv.glm中的成本函数

R中启动库的cv.glm中的成本函数 的相关文章

随机推荐

热门标签

R中启动库的cv.glm中的成本函数的相关文章