回归模型如何处理因子变量？

2023-12-23

假设我有一个带有因子和响应变量的数据。我的问题：

线性回归和混合效应模型如何处理因子变量？
如果我对因子变量的每个级别都有一个单独的模型(m3 and m4)，这与模型有何不同m1 and m2?
哪一种是最好的模型/方法？

作为一个例子，我使用Orthodont数据输入nlme包裹。

library(nlme)
data = Orthodont
data2 <- subset(data, Sex=="Male")
data3 <- subset(data, Sex=="Female")

m1 <- lm (distance ~ age + Sex, data = Orthodont) 
m2 <- lme(distance ~ age , data = Orthodont, random = ~ 1|Sex)

m3 <- lm(distance ~ age, data= data2
m4 <- lm(distance ~ age, data= data3)

问题 1：线性回归和混合效应模型如何处理因子变量？
A1：因子被编码为虚拟变量（1 = true，0 = false）。
例如，模型1的系数为：

coef(m1)    #lm( distance ~ age + Sex)
#(Intercept)         age   SexFemale 
# 17.7067130   0.6601852  -2.3210227

因此计算距离为：
距离 = 17.71 + 0.66*年龄 - 2.32*性别女性
其中 SexFemale 对于男性为 0，对于女性为 1。这简化为：
男：距离 = 17.71 + 0.66*年龄
女：距离 = 15.39 + 0.66*年龄

如果模型有更多类别（例如超重、健康、体重不足），则相应地添加虚拟变量：
R代码：lm(距离~年龄+体重状态)
计算：距离 = 年龄 + 体重超过 (weightIsOver) + 体重 (healthy) + 体重 (weightIsUnder)
为每种体重类型创建三个单独的系数，并根据个人的体重类型乘以 0 或 1。

Q2：如果我对因子变量的每个级别都有一个单独的模型（m3 and m4），这与模型有何不同m1 and m2?
A2：斜率和截距根据您的模型而变化。
m1 是多元线性回归 (MLR)，其中截距随性别而变化，但年龄的斜率相同。我们也可以将其称为随机斜率。线性混合效应 (LME) 模型 m2 还指定了随性别变化的截距（1|Sex).
m3 和 m4 ~ 随机斜率和随机截距模型，因为数据是分开的。

让我们指定一个具有随机斜率和随机截距的 LME：

m2a <- lme(distance ~ age, data = Orthodont, random= ~ age | Sex,
            control = lmeControl(opt="optim"))  
            #Changed the optimizer to achieve convergence

组合系数使我们能够检查模型的结构：

#Combine the model coefficients
coefs <- rbind(
                coef(m1)[1:2],                     
                coef(m1)[1:2] + c(coef(m1)[3], 0), #female coefficient added to intercept
                coef(m2),
                coef(m2a),
                coef(m3),
                coef(m4)); names(coefs) <- c("intercept", "age")
model.coefs <- data.frame(
                   model = paste0("m", c(1,1,2,2,"2a", "2a",3,4)),
                   type  = rep(c("MLR", "LME randomIntercept", "LME randomSlopes", 
                                  "separate LM"), each=2),
                   Sex = rep(c("male","female"), 4), 
                   coefs, row.names = 1:8)

model.coefs
#  model              model2    Sex intercept       age  #intercept & slope 
#1    m1                 MLR   male  17.70671 0.6601852  #different   same 
#2    m1                 MLR female  15.38569 0.6601852  
#3    m2 LME randomIntercept   male  17.67197 0.6601852  #different   same
#4    m2 LME randomIntercept female  15.43622 0.6601852 
#5   m2a    LME randomSlopes   male  16.65625 0.7540780  #different  different
#6   m2a    LME randomSlopes female  16.91363 0.5236138
#7    m3         separate LM   male  16.34062 0.7843750  #different  different
#8    m4         separate LM female  17.37273 0.4795455

Q3：哪一种是最好的模型/方法？
A3：这取决于具体情况，但可能是混合效应模型。

在您的示例中，m3 和 m4 彼此没有关系，并且每种性别本质上具有不同的斜率。可以检查 LME 模型以确定随机斜率是否合理（例如anova(m2, m2a)）。当您有多个级别（例如学校内班级内的学生）和重复测量（针对同一主题或跨时间的多项测量）时，混合效应模型具有多种用途。您还可以指定协方差结构 http://www.theanalysisfactor.com/covariance-matrices/与这些模型。

为了可视化这些不同的模型，让我们看看Orthodont data:

library(ggplot)
gg <- ggplot(Orthodont, aes(age, distance, fill=Sex)) + theme_bw() +
        geom_point(shape=21, position= position_dodge(width=0.2)) +  
        stat_summary(fun.y = "mean", geom="point", size=8, shape=22, colour="black" ) +
        scale_fill_manual(values = c("Male" = "black", "Female" = "white"))

Circles = raw data, Squares = means. Distance appears to increase linearly with age. Males have higher distances than females. The slopes may vary by sex too, with females having a smaller increase in distance with age compared to males. (Note: raw data have been slightly dodged on the x-axis to avoid overplotting.)

将我们的模型添加到数据中并放大：

gg1 <- gg +  
            geom_abline(data = model.coefs, size=1.5,
               aes(slope = age, intercept = intercept, colour = type, linetype = Sex)) 
gg1 + coord_cartesian(ylim = c(21, 27)) #zoom in

在这里，我们看到具有随机截距的 LME 模型类似于 MLR 模型。具有随机截距和随机斜率的 LME 类似于子集数据上的单独 LM。

最后，这是如何制作等价的m2使用lme4包裹：

m2 <- lme(distance ~ age , data = Orthodont, random = ~ 1|Sex)
library(lme4)
m5 <- lmer(distance ~ age + (1|Sex), data = Orthodont)  #same as m2

更多资源：
（广义）线性混合模型常见问题解答 http://glmm.wikidot.com/faq
比较nlme and lme4 https://freshbiostats.wordpress.com/2013/07/28/mixed-models-in-r-lme4-nlme-both/ using Orthodont data.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

回归模型如何处理因子变量？的相关文章

如何在ubuntu的conda环境中更改Rstudio中的R版本

我在基本系统中安装了 R 4 3 和 Rstudio 在 conda 环境中安装了旧版本的 R 4 2 3 命令which R返回环境中安装的 R 的目录 home 用户 miniconda3 envs anndata2ri pip bin
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
如何在 Caret 中绘制随机森林（护林员）树

我生成了如下所示的随机森林树并尝试绘制它但出现错误我在哪里犯了错误我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t
多个动态滤镜更新闪亮

我希望能够让 UI 输入闪亮并根据用户之前的选择进行自我更新因此在下面的示例中预期的行为是用户选择cyl vsor carb那么这将过滤数据集mtcars用于创建绘图即用户根据过滤条件调整绘图并更新其他过滤器中的剩余输入选择
行对名称中具有特定模式的列求和

我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
如何将神经网络的输出限制在特定范围内？

我正在使用 Keras 进行回归任务并希望将输出限制在一个范围内例如 1 到 10 之间有没有办法保证这一点像这样编写自定义激活函数 a simple custom activation from keras import back
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
R - 重塑 - 熔化错误

我正在尝试融化数据框但出现了这个奇怪的错误有什么想法吗 str zx7 data frame 519 obs of 5 variables calday new Date format 2011 01 03 2011 01 04 201
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
在网格中制作一个矩形图例，并标记行和列

我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
增加雷达图中长轴标签的空间

我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex

随机推荐

静态编译glfw

我正在尝试使用 GCC 4 4 3 在 Linux Mint 基于 Ubuntu 10 04 上将 glfw 编译为静态链接在我的项目目录中我得到了 external glfw 其中包含 glfw 2 7 1 源代码我通过运行 mak
Django 收到大量 SuspiciousOperation: Invalid HTTP_HOST header

我正在使用 Django 1 5 Apache mod wsgi 和 python 2 7 debian 托管在 linode 上自从我从 django 1 3 升级到 django 1 5 以来我开始收到一些错误消息例如 ERROR
访问 TypeScript 中定义的类的 .constructor

export class Entity add component Component componentClass new Component Entity if componentClass componentClass compone
将块从 MediaRecorder 发送到服务器并在浏览器中播放

使用 NodeJS 中的以下代码我可以播放服务器提供的 webm 文件 app get video function req res res writeHead 200 Connection close Cache Control pri
如何使用 Summernote 重置文本区域

提交后表单中除 TEXTAREA 之外的所有字段都会被清除我使用 Summernote 作为文本区域使用引导程序 description是文本区域的 id 重置完成如下 submit box是表单的id description cod
在 flutter 中添加 mlkit 会增加应用程序大小

我最近在我的应用程序中添加了 mlkit 用于微笑检测然后 abb 大小从 48mb 增加到 185mb 我怎样才能减小这个尺寸您使用的是 flutter 插件还是直接的 ML Kit 依赖项您可以尝试使用应用程序包在您的应用程序中仅
嵌套在 LockoutRealm 中时如何在 Java 中获取 Tomcat CredentialHandler

我正在使用 Tomcat 8 5 59 并在 context xml 中有以下领域
从mysql的大表中快速选择随机行

从大型 mysql 表中选择随机行的快速方法是什么我正在使用 php 工作但我对任何解决方案都感兴趣即使它是另一种语言获取所有 id 从中随机选择一个然后检索整行如果您知道 id 是连续的且没有漏洞则可以获取最大值并计算随机
数据库配置未指定适配器（Sinatra + Heroku + Activerecord）

我收到一个错误在 Sinatra ActiveRecord Heroku 上 Database configuration does not specify adapter 从一些研究来看这似乎是因为 Heroku 期望在rackup期
奇怪的 PHP 语法

我一直在努力PHP一段时间了但今天当我看到这个时它对我来说是新的 if preg match foo bar foo is a bar echo success echo foo comes before bar endif 令我惊讶的
确认浏览器后退按钮，否则留在页面上

在 javascript 或 jquery 中当用户单击具有确定取消按钮模型的浏览器后退按钮时我需要添加警报但应该说离开而不是确定而应该说留下而不是取消谢谢您无法控制确认对话框按钮文本它是硬编码功能confirm
使用notepad++创建django函数时出现“意外缩进”错误

我正在关注这本书 http www djangobook com en 2 0 chapter03 要使用 notepad 学习 django 当我使用 notepad 为以下脚本键入函数时会发生一些有趣的事情 def current d
在 CentOS 5.5 版（最终版）上的端口 80 上启动 tomcat

我想在端口 80 上启动 Tomcat 6 0 29 我的操作系统是 CentOS 版本 5 5 最终版我更改了 TOMCAT HOME conf server xml 中的以下行
有没有更好的方法将 javascript 组织在单个文件中，并为多个页面提供特定代码？

我有几个网站我使用相对少量的 jQuery 在页面上执行各种操作一般来说我们谈论的是每页几十行代码我将所有 JS 保存在一个文件中只要它不是很大并且定义相当清晰也就是说我倾向于这样组织它 document ready func
C#using语句和StreamWriter

我正在使用一个StreamWriter将东西写入记事本我发现如果我没有使用语句和实例StreamWriter独自的该方法无法运行有人知道原因吗 static void Main string args StreamWriter c n
如何从谷歌分析报告中排除谷歌代码中的自流量？

我目前正在使用 Google Analytics 来获取 code google com 上托管的项目的报告我想排除我自己产生的流量我知道 Google Analytics 基本上提供了两种过滤我的流量的方法通过 IP 地址和通过 c
如何在 matplotlib 中将数字转换为色标？

我正在制作一个条形图我希望条形的颜色根据颜色渐变从红色到蓝色变化我有一个数据框的尺寸它告诉我每个条形在红蓝色刻度上的位置我当前的方法是通过在 RGB 红色和蓝色之间进行线性插值来手动将这些值转换为 RGB 颜色但我想要一种自动方法
我如何知道何时释放 NSDate 对象？

当我完成这些日期指针中的一个或两个时需要释放我怎么知道这个我不确定因为我没有明确执行 init NSDate date NSDate date NSDate date dateWithTimeIntervalSince1970 1
Spring Data REST 和自定义实体查找（提供了错误类型的 id）

我有一个看起来像这样的模型 Entity public class MyModel Id GeneratedValue strategy GenerationType AUTO Column unique true nullable fal
回归模型如何处理因子变量？

假设我有一个带有因子和响应变量的数据我的问题线性回归和混合效应模型如何处理因子变量如果我对因子变量的每个级别都有一个单独的模型 m3 and m4 这与模型有何不同m1 and m2 哪一种是最好的模型方法作为一个例子我使用Or

回归模型如何处理因子变量？

回归模型如何处理因子变量？ 的相关文章

随机推荐

热门标签

回归模型如何处理因子变量？的相关文章