The glmnet
包使用了一系列LASSO
调整参数lambda
从最大缩放lambda_max
在此情况下不选择预测变量。我想知道如何glmnet
计算这个lambda_max
价值。例如,在一个简单的数据集中:
set.seed(1)
library("glmnet")
x <- matrix(rnorm(100*20),100,20)
y <- rnorm(100)
fitGLM <- glmnet(x,y)
max(fitGLM$lambda)
# 0.1975946
包小插图 (http://www.jstatsoft.org/v33/i01/paper)在第 2.5 节中描述了它计算该值的方式如下:
sx <- as.matrix(scale(x))
sy <- as.vector(scale(y))
max(abs(colSums(sx*sy)))/100
# 0.1865232
这显然很接近,但不是相同的值。那么,是什么原因造成这种差异呢?在一个相关的问题中,我如何计算lambda_max
用于逻辑回归?
为了获得相同的结果,您需要使用标准差来标准化变量n
代替n-1
分母。
mysd <- function(y) sqrt(sum((y-mean(y))^2)/length(y))
sx <- scale(x,scale=apply(x, 2, mysd))
sx <- as.matrix(sx, ncol=20, nrow=100)
sy <- as.vector(scale(y, scale=mysd(y)))
max(abs(colSums(sx*sy)))/100
## [1] 0.1758808
fitGLM <- glmnet(sx,sy)
max(fitGLM$lambda)
## [1] 0.1758808
对于未缩放的(原始)x
and y
,最大 lambda 应该是
mysd <- function(y) sqrt(sum((y-mean(y))^2)/length(y))
sx <- scale(x,scale=apply(x, 2, mysd))
norm(t(sx) %*% y, 'i') / nrow(x)
## [1] 0.1975946
# norm of infinity is also equal to
max(abs(colSums(sx*y)))/100
## [1] 0.1975946
max(fitGLM$lambda) - norm(t(sx) %*% y, 'i') / nrow(x)
## [1] 2.775558e-17
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)