在 R 中将 LASSO 与分类变量结合使用

2023-12-23

我有一个包含 1000 个观察值和 76 个变量的数据集，其中大约 20 个是分类变量。我想对整个数据集使用 LASSO。我知道通过 lars 或 glmnet 在 LASSO 中使用因子变量并不能真正起作用，但是变量太多，并且它们可以采用太多不同的无序值来合理地对它们进行数字重新编码。

这种情况可以使用LASSO吗？我该怎么做呢？创建预测变量矩阵会产生以下响应：

hdy<-as.numeric(housingData2[,75])
hdx<-as.matrix(housingData2[,-75])
model.lasso <- lars(hdx, hdy)
Error in one %*% x : requires numeric/complex matrix/vector arguments

我意识到其他方法可能更容易或更合适，但挑战实际上是使用 lars 或 glmnet 来做到这一点，所以如果可能的话，我将不胜感激任何想法或反馈。

谢谢你，

这里的其他答案指出了将分类因素重新编码为虚拟因素的方法。根据您的应用程序，这可能不是一个很好的解决方案。如果您关心的只是预测，那么这可能没问题，并且 Flo.P 提供的方法应该没问题。 LASSO 将为您找到一组有用的变量，并且您可能不会过度拟合。

然而，如果您有兴趣解释您的模型或事后讨论哪些因素很重要，那么您就处于一个奇怪的境地。 model.matrix 的默认编码在单独使用时有非常具体的解释。 model.matrix 使用所谓的“虚拟编码”。（我记得把它学为“参考编码”；参见here https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqwhat-is-dummy-coding/）这意味着，如果包含这些虚拟变量之一，您的模型现在有一个参数，其解释是“该因素的一个水平与该因素的任意选择的其他水平之间的差异”。也许没有选择该因素的其他虚拟人。您可能还会发现，如果因子水平的排序发生变化，您最终会得到不同的模型。

有很多方法可以解决这个问题，但我不会尝试将某些东西混在一起，而是尝试使用组套索。基于上面 Flo.P 的代码：

install.packages("gglasso")
library(gglasso)


create_factor <- function(nb_lvl, n= 100 ){
  factor(sample(letters[1:nb_lvl],n, replace = TRUE))}

df <- data.frame(var1 = create_factor(5), 
                 var2 = create_factor(5), 
                 var3 = create_factor(5), 
                 var4 = create_factor(5),
                 var5 = rnorm(100),
                 y = rnorm(100))

y <- df$y
x <- model.matrix( ~ ., dplyr::select(df, -y))[, -1]
groups <- c(rep(1:4, each = 4), 5)
fit <- gglasso(x = x, y = y, group = groups, lambda = 1)
fit$beta

因此，由于我们没有指定因子（var1、var2 等）和 y 之间的关系，因此 LASSO 做得很好，并将所有系数设置为 0，除非应用最小量的正则化。您可以使用 lambda（调整参数）的值，或者将选项留空，函数将为您选择一个范围。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 R 中将 LASSO 与分类变量结合使用的相关文章

SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异

我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema
NumericVector 和 vector 之间有性能差异吗？

假设有人使用NumericVector和其他用途vector
R 中舍入到下一个数量级的算法

如果标题不清楚我很抱歉但我无法简洁地解释它给定一个浓度向量我想将最大值四舍五入到下一个数量级即 345 到 1000 另外我想将最小值四舍五入到较低的数量级即 3 2 到 1 这些浓度也可能低于 1 因此例如 0 034 需要
如果落在 R 中另一个数据集中的两个变量定义的范围内，则从一个数据集中获取变量值

我有一个关于 R 中日期操作的问题我已经查了好几天了但在网上找不到任何帮助我有一个数据集其中有 id 和两个日期另一个数据集具有相同的 id 变量日期和价格例如 x data frame id c A B C C date1
如何在有条件的情况下获得R中多列的中位数（根据另一列）

我是 R 初学者我想知道如何完成以下任务我想用数据集所有列的中位数替换数据集的缺失值但是对于每一列我想要某个类别的中位数取决于另一列我的数据集如下 structure list Country structure 1 5 La
data.table 查找值并翻译

像许多人一样我是 R 新手我有一个大数据集 500M 行我已将其读取到 data table 中logStats其中有如下数据 head logStats 15 time pid mean 1 2014 03 10 00 00 00
e_facet 在 echarts4r 问题中使用分组数据

我真的很喜欢这个包提供的可能性并且想在一个闪亮的应用程序中使用它然而我正在努力重新创建从 ggplot 到 echarts4r 的情节 library tidyverse library echarts4r data tibble ti
GLMER 警告：方差-协方差矩阵 [...] 不是正定的或包含 NA 值

我有时发现我的 GLMM 来自glmer 包裹lme4 当调用其摘要时显示以下警告消息 Warning messages 1 In vcov merMod object use hessian use hessian variance co
k折交叉验证 - 如何自动获得预测？

这可能是一个愚蠢的问题但我只是找不到一个包来做到这一点我知道我可以编写一些代码来获得我想要的东西但如果有一个函数可以自动完成它那就太好了所以基本上我想对 glm 模型进行 k 倍交叉验证我想自动获取每个验证集的预测和实际值因此
错误：美学必须是长度一，或者在省略 NA 时与 dataProblems:personCategoryz 的长度相同

我正在尝试使用泰坦尼克号数据集创建一个图表该数据集查看女性儿童和男性及其生存率我创建了新的类别来读取数据但当我尝试超越该点时不断出现错误消息当我运行一个图表来显示这一点时它显示得很好只是它有一个单独的 NA 数据类别所以我
R 中 optim() 的优化（L-BFGS-B 需要“fn”的有限值）

我在 R 中使用 optim 来求解涉及积分的可能性时遇到一些问题我收到一条错误消息 optim par c 0 1 0 1 LLL method L BFGS B lower c 0 L BFGS B 需要 fn 的有限值中的错误下
更快地评估从右到左的矩阵乘法

我注意到以二次形式评估矩阵运算右到左明显快于左到右在 R 中取决于括号的放置方式显然它们都执行相同的计算量我想知道为什么会这样这与内存分配有什么关系吗 A 5000 5000 B 5000 2 A matrix runif 5000
时间序列，将月度数据改为季度

现在我有一些每月数据例如 1 1 90 620 2 1 90 591 3 1 90 574 4 1 90 542 5 1 90 534 6 1 90 545 etc 如果我使用 ts 函数很容易将数据转换为时间序列结构例如 Jan F
ggplot：如何检索轴标签的值？

如何提取下面的 ggplot 中用于标记 y 轴和 x 轴的数字分别为20 30 40 and 10 15 20 25 30 35 Plot From r 统计公司 http r statistics co Top50 Ggplot2 V
R 单个变量中的多重图

嗨我有下一个代码 par mfrow c 1 3 plot BCxyz 1 BCxyz 2 main Bray Curtis 1 2 pch 20 cex 3 col c blue green red yellow Metadata Sa
如何在 nlme 与 lme4 中指定不同的随机效应？

我想使用指定模型中的不同随机效应nlme lme 数据在底部随机效应是 1 intercept and position变化超过subject 2 intercept变化超过comparison 这很简单使用lme4 lmer lmer
R 中计算滚动实现波动率的更快方法

我想计算一组指数的滚动 20 天已实现波动率这是我用来下载指数价格计算每日收益和 20 天已实现波动率的代码 library quantmod library PerformanceAnalytics tickers c RUT STO
使用 R 中的晶格为 xyplot 中的每个面板添加不同的垂直线

我有一个按年份排列的几个站点的植物物种频率图我正在使用 grid 包中的 xyplot 绘制这些站点我已经弄清楚如何获取每个物种位点组合的散点图但是我想添加一个 abline 代表进行化学处理的每年每个地点在不同年份添加了化学处理
R CMD INSTALL --build package --> “小插图丢失”

问题 C gt Rcmd exe INSTALL build library C Users local aphalo Documents R win library 3 0 photobiology C gt Rcmd exe INSTA
如何将表输出复制到剪贴板？

我试图通过单击按钮将表输出复制到剪贴板我尝试查看 rclipboard 包但以我有限的理解它似乎无法复制输出我添加了一个actionButton屏幕截图中带有一个图标来显示我想要实现的目标现在按钮没有任何作用 Code libra

随机推荐

将数据插入 SQL Server 返回错误代码 00q

首先我的代码的最大部分是在几周前工作的与此同时我们从 MySQL 服务器更换为 SQL 服务器并且对架构设计进行了一些更改我使用 Percobol 据我所知它使用 OpenCobol 编译器 PERFORM 2010 GEBRU
Dynamic_cast<> 是否仅限于沿着继承层次结构进行直接转换？

CODE struct A virtual details there but left out struct B virtual details there but left out struct C A B virtual detail
WaitHandle.WaitAll 64 个句柄限制的解决方法？

我的应用程序通过以下方式生成不同的小工作线程负载ThreadPool QueueUserWorkItem我通过多个跟踪ManualResetEvent实例我用WaitHandle WaitAll方法阻止我的应用程序关闭直到这些线程完成
如何向 RCpp 中的数据框添加新列？

我正在尝试使用 RCpp 向数据框添加新列在下面的代码中我打算向数据框 df 添加一个结果列但运行代码后数据集没有结果列你能告诉我他们出了什么问题吗 R 文件调用 AddNewCol 函数 library Rcpp sour
如何在 Perl 中将数组转换为散列？

我有一个数组并尝试将数组内容转换为带有键和值的哈希值索引 0 是键索引 1 是值索引 2 是键索引 3 是值依此类推但它没有产生预期的结果代码如下 open FILE message xml die Cannot open
初始拒绝后使用 getUserMedia() 重新提示权限

在被拒绝一次后我们如何使用 getUserMedia 请求相机麦克风访问权限我正在使用 getUserMedia 来访问用户的相机并将数据通过管道传输到画布那一点一切都很好在测试中我点击了一次拒绝此时在 Chrome 和 F
如何伪造Time.now？

最好的设置方法是什么Time now为了在单元测试中测试时间敏感的方法我真的很喜欢Timecop https github com travisjeffery timecop图书馆您可以以块形式进行时间扭曲就像时间扭曲一样 Timec
如何从特定模块创建所有装饰函数的向量？

我有一个文件main rs和一个文件rule rs 我想定义函数rule rs将被纳入Rules rule矢量而不必将它们一一推动我更喜欢一个循环来推动它们 main rs struct Rules rule Vec
错误 1054。Insert 子句中的未知列

我有这个问题如果我编写以下查询 INSERT INTO prodotto Barcode InseritoDa DataInserimento UrlImage VALUES vfr ff 12 10 2012 vfr jpg 我收到此错
自定义弹出菜单（布局）

我正在尝试升级我的 PopupMenu 以便它带有图标和自定义样式我为它创建了一个新的布局
位置无关可执行文件的正确 Xcode 设置是什么

最近刚刚开始收到一封应用商店提交后的电子邮件其中包含以下建议请确保您的构建设置已配置为创建 PIE 可执行文件然而 XCode 中的设置看起来是正确的在链接部分我发现不创建位置无关的可执行文件设置为否双重否定YUK 您收到此
Android排序数组

我如何按日期或名称对该数组进行排序 String datetable new String 21 2 datetable 0 0 2011 01 01 datetable 0 1 Name1 datetable 1 0 2011 01 03
为什么宽度/高度不适用于非定位伪元素？

我想设置一个width of before伪元素达到80 如果我使用定位那么一切都会正常但如果我不使用它那么一切都会失败你能解释一下为什么百分比宽度在没有定位的情况下不起作用吗如果可以的话请添加一些对规范的引用 position
jQuery 方法链接是流畅编程的一个例子吗？

我对 JavaScript jQuery 有点陌生但是当我看到方法链接的示例时我立即感到熟悉其他接口如 LINQ 执行类似的操作其中一组方法的返回类型与它们所操作的类型相同 TweetSharp 执行的操作非常类似这是流畅编程的
从 CSV 文件批量插入 - 跳过重复项

更新最终使用了 Johnny Bubriski 创建的这个方法然后对其进行了一些修改以跳过重复项效果就像一个魅力而且速度显然相当快关联 http johnnycode com 2013 08 19 using c sharp sq
向 Django FlatPages 添加功能，无需更改原始 Django 应用程序

我想向 Django FlatPage 数据库模型添加一个字段但我真的不知道如何在不编辑原始应用程序的情况下扩展它我想要做的是将以下字段添加到模型中 from django db import models from django co
在 nginx 上找不到 Laravel 路由

当我尝试访问我的测试应用程序时只有索引路由有效 malte italoborg es http malte italoborg es 如果我尝试访问另一条路线例如 malte italoborg es admin http malte
我可以使用 jQuery 检查是否至少有一个复选框被选中吗？

我有以下 HTML 表单其中可以有许多复选框单击提交按钮时我希望用户收到一个 javascript 警报以检查至少一个复选框如果未选中有没有一种简单的方法可以使用 jQuery 来做到这一点
Android：API 级别低于 19 的远程 Webview 调试？

据我所知远程调试通过chrome inspect已在 API 级别 19 中添加用于 Web 视图不过我正在开发一个支持 17 设备的应用程序只是在 API 19 上我得到了02 28 00 31 16 569 12332 123
在 R 中将 LASSO 与分类变量结合使用

我有一个包含 1000 个观察值和 76 个变量的数据集其中大约 20 个是分类变量我想对整个数据集使用 LASSO 我知道通过 lars 或 glmnet 在 LASSO 中使用因子变量并不能真正起作用但是变量太多并且它们可以采用

在 R 中将 LASSO 与分类变量结合使用

在 R 中将 LASSO 与分类变量结合使用 的相关文章

随机推荐

热门标签

在 R 中将 LASSO 与分类变量结合使用的相关文章