我正在使用 glmnet 包来执行 LASSO 回归。有没有办法获得所选单个变量的重要性?我考虑对通过 coef(...) 命令获得的系数进行排名(即距零的距离越大,变量越重要)。这是一个有效的方法吗?
感谢您的帮助!
cvfit = cv.glmnet(x, y, family = "binomial")
coef(cvfit, s = "lambda.min")
## 21 x 1 sparse Matrix of class "dgCMatrix"
## 1
## (Intercept) 0.14936
## V1 1.32975
## V2 .
## V3 0.69096
## V4 .
## V5 -0.83123
## V6 0.53670
## V7 0.02005
## V8 0.33194
## V9 .
## V10 .
## V11 0.16239
## V12 .
## V13 .
## V14 -1.07081
## V15 .
## V16 .
## V17 .
## V18 .
## V19 .
## V20 -1.04341
这是如何完成的caret
包裹。
总而言之,您可以取最终系数的绝对值并对它们进行排序。排名系数是您的变量重要性。
要查看源代码,您可以输入
caret::getModelInfo("glmnet")$glmnet$varImp
如果你不想使用caret
包,您可以从包中运行以下几行,它应该可以工作。
varImp <- function(object, lambda = NULL, ...) {
## skipping a few lines
beta <- predict(object, s = lambda, type = "coef")
if(is.list(beta)) {
out <- do.call("cbind", lapply(beta, function(x) x[,1]))
out <- as.data.frame(out, stringsAsFactors = TRUE)
} else out <- data.frame(Overall = beta[,1])
out <- abs(out[rownames(out) != "(Intercept)",,drop = FALSE])
out
}
最后,根据您的需要调用该函数。
varImp(cvfit, lambda = cvfit$lambda.min)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)