为什么在套索回归中计算 MSE 会给出不同的输出？

2023-12-24

我正在尝试对 lasso2 包中的前列腺癌数据运行不同的回归模型。当我使用 Lasso 时，我看到两种不同的方法来计算均方误差。但它们确实给了我完全不同的结果，所以我想知道我是否做错了什么，或者这是否仅仅意味着一种方法比另一种方法更好？

# Needs the following R packages.
library(lasso2)
library(glmnet)

# Gets the prostate cancer dataset
data(Prostate)

# Defines the Mean Square Error function 
mse = function(x,y) { mean((x-y)^2)}

# 75% of the sample size.
smp_size = floor(0.75 * nrow(Prostate))

# Sets the seed to make the partition reproductible.
set.seed(907)
train_ind = sample(seq_len(nrow(Prostate)), size = smp_size)

# Training set
train = Prostate[train_ind, ]

# Test set
test = Prostate[-train_ind, ]

# Creates matrices for independent and dependent variables.
xtrain = model.matrix(lpsa~. -1, data = train)
ytrain = train$lpsa
xtest = model.matrix(lpsa~. -1, data = test)
ytest = test$lpsa

# Fitting a linear model by Lasso regression on the "train" data set
pr.lasso = cv.glmnet(xtrain,ytrain,type.measure='mse',alpha=1)
lambda.lasso = pr.lasso$lambda.min

# Getting predictions on the "test" data set and calculating the mean     square error
lasso.pred = predict(pr.lasso, s = lambda.lasso, newx = xtest) 

# Calculating MSE via the mse function defined above
mse.1 = mse(lasso.pred,ytest)
cat("MSE (method 1): ", mse.1, "\n")

# Calculating MSE via the cvm attribute inside the pr.lasso object
mse.2 = pr.lasso$cvm[pr.lasso$lambda == lambda.lasso]
cat("MSE (method 2): ", mse.2, "\n")

这些是我得到的两个 MSE 的输出：

MSE (method 1): 0.4609978 
MSE (method 2): 0.5654089

他们完全不同。有谁知道为什么？预先非常感谢您的帮助！

Samuel

正如 @alistaire 所指出的，在第一种情况下，您使用测试数据来计算 MSE，在第二种情况下，报告来自交叉验证（训练）折叠的 MSE，因此这不是同类比较。

我们可以执行类似下面的操作来进行同类比较（通过在训练折叠上保留拟合值），并且我们可以看到，如果在相同的训练折叠上计算，则 mse.1 和 mse.2 完全相等（尽管值与你的略有不同，我的桌面 R 版本 3.1.2，x86_64-w64-mingw32，Windows 10）：

# Needs the following R packages.
library(lasso2)
library(glmnet)

# Gets the prostate cancer dataset
data(Prostate)

# Defines the Mean Square Error function 
mse = function(x,y) { mean((x-y)^2)}

# 75% of the sample size.
smp_size = floor(0.75 * nrow(Prostate))

# Sets the seed to make the partition reproductible.
set.seed(907)
train_ind = sample(seq_len(nrow(Prostate)), size = smp_size)

# Training set
train = Prostate[train_ind, ]

# Test set
test = Prostate[-train_ind, ]

# Creates matrices for independent and dependent variables.
xtrain = model.matrix(lpsa~. -1, data = train)
ytrain = train$lpsa
xtest = model.matrix(lpsa~. -1, data = test)
ytest = test$lpsa

# Fitting a linear model by Lasso regression on the "train" data set
# keep the fitted values on the training folds
pr.lasso = cv.glmnet(xtrain,ytrain,type.measure='mse', keep=TRUE, alpha=1)
lambda.lasso = pr.lasso$lambda.min
lambda.id <- which(pr.lasso$lambda == pr.lasso$lambda.min)

# get the predicted values on the training folds with lambda.min (not from test data)
mse.1 = mse(pr.lasso$fit[,lambda.id], ytrain) 
cat("MSE (method 1): ", mse.1, "\n")

MSE (method 1):  0.6044496 

# Calculating MSE via the cvm attribute inside the pr.lasso object
mse.2 = pr.lasso$cvm[pr.lasso$lambda == lambda.lasso]
cat("MSE (method 2): ", mse.2, "\n")

MSE (method 2):  0.6044496 

mse.1 == mse.2
[1] TRUE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么在套索回归中计算 MSE 会给出不同的输出？的相关文章

如何在 R 中的多图形环境中画一条线？

举一个非常简单的例子 mfrow c 1 3 每个图都是不同的直方图我将如何画一条水平线类似于abline h 10 所经过的all3位数也就是说甚至是它们之间的边距显然我可以为每个图形添加一条 abline 但这不是我想要的
ggplot：如何检索轴标签的值？

如何提取下面的 ggplot 中用于标记 y 轴和 x 轴的数字分别为20 30 40 and 10 15 20 25 30 35 Plot From r 统计公司 http r statistics co Top50 Ggplot2 V
R 单个变量中的多重图

嗨我有下一个代码 par mfrow c 1 3 plot BCxyz 1 BCxyz 2 main Bray Curtis 1 2 pch 20 cex 3 col c blue green red yellow Metadata Sa
如何以干净高效的方式在 pytorch 中获得小批量？

我试图做一件简单的事情即使用火炬通过随机梯度下降 SGD 训练线性模型 import numpy as np import torch from torch autograd import Variable import pdb def
如何在 nlme 与 lme4 中指定不同的随机效应？

我想使用指定模型中的不同随机效应nlme lme 数据在底部随机效应是 1 intercept and position变化超过subject 2 intercept变化超过comparison 这很简单使用lme4 lmer lmer
R 中计算滚动实现波动率的更快方法

我想计算一组指数的滚动 20 天已实现波动率这是我用来下载指数价格计算每日收益和 20 天已实现波动率的代码 library quantmod library PerformanceAnalytics tickers c RUT STO
使用 R 中的晶格为 xyplot 中的每个面板添加不同的垂直线

我有一个按年份排列的几个站点的植物物种频率图我正在使用 grid 包中的 xyplot 绘制这些站点我已经弄清楚如何获取每个物种位点组合的散点图但是我想添加一个 abline 代表进行化学处理的每年每个地点在不同年份添加了化学处理
ggplot2错误：美学必须是长度一，或者与数据长度相同问题：颜色、字母

我收到此错误错误美学必须是长度一或者与数据长度相同问题颜色字母当我将 ggplot 与数据框一起使用时Z如图所示 Z lt data frame Name c A G C T T T AG AG GC GC CT CT AT A
查询文本指定 use_legacy_sql:false，而 API 选项指定:true

我将 standardSQL 与 bigrquery 一起使用 library bigrquery project lt sql lt standardSQL SELECT result lt query exec sql project
读取r中不同目录中的多个文件[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想从不同的目录读取多个 csv 文件然后将其放入单个数据框中我有两种目录可供阅读 A LogIIS 文件夹01 文件 csv 在
ValueError：在 R 中使用 keras 模型时在用户代码中

我正在尝试使用 R 在 R 中运行一维 CNNkeras包裹我正在使用以下代码 library MASS library keras Create some data data Boston data lt Boston create a
R数据表：将行值与组值进行比较，有条件

这是问题的延伸 R数据表将行值与组值进行比较 https stackoverflow com questions 33285050 r data table compare row value to group values 我现在有了
如何更改 ESS 中的智能分配键（“_”到“<-”）绑定

在 emacs ESS 中如何正确更改 ess smart S assign 的键绑定我尝试的是添加 custom set variables ess smart S assign key to my emacs 但这让奇怪的事情发生了
为什么我的精确率-召回率和 ROC 曲线不平滑？

我有一些标记为 0 或 1 的数据我正在尝试使用随机森林来预测这些类别每个实例都标有 20 个用于训练随机森林的特征约 30 000 个训练实例和约 6000 个测试实例我使用以下代码绘制精确召回率和 ROC 曲线 precisio
使用 google 查询邮政编码距离

我有两个邮政编码列表 R 语言其中一个是孩子的地址及其学业成绩另一个是学校的地址我希望能够为每个孩子找到最近的学校所以大概需要通过转换为长和纬度值来计算邮政编码之间的距离然后我希望能够在谷歌地图上绘制每所学校的所有孩子并看看住在
如何在小插图中的同一 R 包中放置指向另一个小插图的链接

我有一个关于 Bioconductor 的包我正在向它添加第二个小插图我想将第二个小插图链接到第一个小插图因为一个小插图位于包的一般工作流程上第二个小插图用于针对更高级的用户的精细参数调整有没有一种干净的方法来做到这一点我发现的
根据 B 列中的一系列值获取 A 列的平均值

我的数据框有几列如下所示 df1 lt data frame A c 1 2 4 B c 1 3 1 C c 1 1 3 我有两个条件来获取 A 列的平均值条件1 我想在B为1时获得A列的平均值即只对row1和row2进行平均条件2
加载 plyr 包时出现问题

我使用 R 2 13 1 但未能成功尝试在 R 中加载包 plyr 1 6 我已将其手动安装到目录 R library 中我的代码是 libPaths R library library plyr 我收到消息库 plyr 中的错误 pl
R Shiny 中表格的条件格式

我正在尝试可视化队列分析并想使用RenderDataTable闪亮以获得这种可视化效果我将能够突出显示基于具有值 1 0 的单独列的所有单元格其中 1 被着色 0 不被着色我尝试了几件事包括尝试使用geom tile in ggp
通过另一个函数将数据和列名称传递给 ggplot

我将直接跳到一个示例并在后进行评论 cont lt data frame value c 1 20 variable c 1 20 1 20 1 5 1 20 2 group rep c 1 2 3 each 20 value variab

随机推荐

如何在codeigniter中显示电子邮件中的图像？

this gt load gt library upload this gt load gt library email this gt email gt set newline r n this gt email gt from emai
为什么 DapperRow.GetType() 返回 null？

据我所知 Object GetType 永远不应该返回 null 相关讨论 https stackoverflow com questions 2201007 can object gettype ever return null Dapp
ZF + Doctrine2 phpUnit 错误：PDOExeption：您无法序列化或反序列化 PDO 实例

我正在使用 DynamicGuys Doctrine2 集成到 zend 框架中 https github com dynamicguy zf1doctrine2 它有效但如果我想用 phpUnit 进行测试我会收到此错误 PDOExe
无法在异步模块中使用“map”功能

我正在使用node js 异步模块并且需要使用 map 方法基本上我有一个包含其他数组的数组内部数组包含 2 个元素类型和图像文件名 var arr0 var arr1 type1 image1 jpg jsonArr push o
QListWidget中的InternalMove使项目消失

我正在尝试在树小部件内进行拖放操作以便能够在该小部件内移动项目我已经设法使项目可拖动但是当我释放鼠标按钮时该项目就会消失为了缩小范围我尝试了以下示例取自此处的另一篇文章它与 Windows 7 上的 Qt 5 4 中的树小部
Automapper 自定义值解析器重用多种类型

我有一个项目我试图使用 AutoMapper 从多个类进行映射每个类中都有一些属性我想使用一些自定义逻辑将源值解析到目标我尝试使用 AutoMapper 文档中记录的自定义解析器方法这是我的代码 public class Cust
Chrome 中的同步控制台日志记录

是否可以同步记录到控制台我经常遇到代码执行比转储结构更快的情况这解决了输出已更改的对象的问题我当然可以使用调试器浏览代码进行单元测试等通常很方便console log只是为了大致了解正在发生的事情您可以在将对象传递给之前创建该对
将 React Element 的字符串值的一部分设为粗体

我在我的文件中定义了变量 var text The start of string b this state isTrue Bolded Also Bolded b the end of string 该字符串被传递给 React 元素 s
构建批量插入语句powershell到sql

我有一个 powershell 脚本它从特定目录开始递归地写入每个文件及其属性这可行但目录可能包含多达 1 000 000 个文件我想要做的是以每个事务 1000 次插入的方式对它们进行批处理 PS原图如下 server Datab
Spring WebClient：使用 WebFlux.fn +reactor-addons 重试

我正在尝试添加条件重试WebClient使用 Kotlin 协程 WebFlux fn reactor addons suspend fun ClientResponse asResponse ServerResponse status s
Qt：无法执行''：请求的操作需要提升

我无法运行 Qt 创建者的应用程序它抱怨以下错误无法执行请求的操作需要提升我的 exe 文件上有一个 Windows 管理员盾牌符号我需要更改项目设置吗我广泛使用 Qt File 库来执行一些文件操作您的可执行文件的文件名是什
我需要在样式表中插入一些 PHP 代码

在我的CSS中 div image width px 大小存储在一个数组中所以我在这里调用 size 1 我是php初学者有人请帮忙吗更好的解决方案是在我的示例 cssfile php 中为 css php 文件设置标头然后就可以使
带有子菜单的可检查菜单项

WPF 中是否可以将顶级子菜单设置为复选框我似乎无法让它发挥作用
来自具有交互作用的多元回归 glm 的 LC50 / LD50 置信区间

我有一个准二项式 glm 其中有两个连续解释变量假设 LogPesticide 和 LogFood 和交互作用我想计算不同食物量例如最小和最大食物值下农药的 LC50 和置信区间如何才能实现这一目标示例首先我生成一个数据集 m
Rails 的即时通讯实现？

我花了一些时间研究几种技术来为 ruby on Rails 应用程序构建一个简单的即时消息系统这看起来非常复杂因为我还没有找到任何跨浏览器的实现或任何 1 1 概念证明调查 xmpp客户端 github上有Candy只支持群聊 xmp
存储库层是否应该返回数据传输对象（DTO）？

我有一个存储库层负责我的数据访问它由服务层调用服务层返回经过序列化并通过线路发送的 DTO 通常服务只是访问存储库并返回存储库返回的任何内容但要使其发挥作用存储库必须返回该 DTO 的实例否则您首先必须将存储库返回的数据层对象
Android：选择器中禁用按钮的文本颜色未显示？

我正在尝试制作一个带有选择器的按钮我的按钮可以具有以下状态启用禁用按下未按下根据上述状态我需要操纵按钮文字颜色背景图该按钮从我被禁用开始因此它应该具有禁用的 textColor 和禁用的按钮背景但我可以看到默认的文本
jQuery Mobile 弹出窗口未在 .popup('open') 上打开

我正在尝试使用 jQuery Mobile 1 3 1 的弹出窗口在登录凭据错误时警告用户我从 jquerymobile 文档中的基本模板开始但我无法让它与 popupBasic popup open 如果我这样使用它 div div
如何在加特林的Json Body中添加随机值？

我需要每次创建一个随机正整数并将其发送到加特林中的 Json 主体我使用下面的代码创建一个随机正整数 val r new scala util Random val OrderRef r nextInt Integer MAX VALUE
为什么在套索回归中计算 MSE 会给出不同的输出？

我正在尝试对 lasso2 包中的前列腺癌数据运行不同的回归模型当我使用 Lasso 时我看到两种不同的方法来计算均方误差但它们确实给了我完全不同的结果所以我想知道我是否做错了什么或者这是否仅仅意味着一种方法比另一种方法更好 Ne

为什么在套索回归中计算 MSE 会给出不同的输出？

为什么在套索回归中计算 MSE 会给出不同的输出？ 的相关文章

随机推荐

热门标签

为什么在套索回归中计算 MSE 会给出不同的输出？的相关文章