预测多个单独组的线性回归

2024-03-01

我想预测单个数据框中多个组的线性回归的值。我发现以下博客文章几乎可以满足我需要的一切：https://www.r-bloggers.com/2016/09/running-a-model-on-separate-groups/ https://www.r-bloggers.com/2016/09/running-a-model-on-separate-groups/

但是，我无法将其与带有 newdata 的 Predict() 函数结合起来。对于一组，我使用以下内容：

m <- lm(y ~ x, df)
new_df <- data.frame(x=c(5))
predict(m, new_df)

这给出了 x=5 时 y 的预测值。

当我的 df 中有多个组时，我该如何执行此操作？这是我尝试过的：

df %>%
    nest(-group) %>%
    mutate(fit = map(data, ~ lm(.$y ~ .$x)),
           results = map(fit, predict)) %>%
    unnest(results)

当我尝试使用 results = map(fit, Predict(new_df)) 时，我只收到错误。有没有办法将 x 的值（在本例中为 5）传递到上面的代码中？

理想情况下，我会得到一个新的 data.frame，其中包含两列、组和预测的 y 值。

这是一个示例数据框：

group   x   y
g1  1   2
g1  1.5 3
g1  2   4
g1  2.3 4.4
g1  3   6
g1  3.4 6.2
g1  4.11    7
g1  4.8 7.9
g1  5   8
g1  5.3 8.2
g2  2   5
g2  2.3 4
g2  4   2.2
g2  4.4 1.9
g2  7   0.3

EDIT:

使用 ggplot2 绘制样本数据，我得到以下图：

ggplot(df, aes(x,y,colour=group)) +
 geom_point() +
 stat_smooth(method="lm", se=FALSE)

使用以下代码，我得到了受欢迎的预测 y 值：

predict(lm(y ~ x, df[df$group =="g1", ]), new_df)
       1 
8.180285 

predict(lm(y ~ x, df[df$group =="g2", ]), new_df)
       1 
1.732136

我想生成一个新的数据框，它应该看起来像这样并包含预测的 y 值x=5:

group   y_predict  
g1  8.180285  
g2  1.732136

使用注释中可重复显示的输入，因为我们只需要拟合值，所以不需要使用nest但可以使用mutate:

library(dplyr)

df %>%
  group_by(group) %>%
  mutate(pred = fitted(lm(y ~ x))) %>%
  ungroup %>%
  select(group, pred)

giving:

# A tibble: 15 x 2
   group    pred
   <chr>   <dbl>
 1 g1     2.47  
 2 g1     3.19  
 3 g1     3.90  
 4 g1     4.33  
 5 g1     5.33  
 6 g1     5.90  
 7 g1     6.91  
 8 g1     7.89  
 9 g1     8.18  
10 g1     8.61  
11 g2     4.41  
12 g2     4.15  
13 g2     2.63  
14 g2     2.27  
15 g2    -0.0563

这也可以这样完成：

library(dplyr)

df %>%
  mutate(pred = fitted(lm(y ~ x*group + 0, df))) %>%
  select(group, pred)

或者像这样仅使用基本 R：

transform(df, pred = fitted(lm(y ~ x*group + 0, df)))[c("group", "pred")]

或使用 nlme 中的 lmList （它随 R 一起提供，因此不必安装）：

library(dplyr)
library(nlme)

df %>%
  mutate(pred = fitted(lmList(y ~ x | group, df))) %>%
  select(group, pred)

或使用不带 dplyr 的 lmList：

library(nlme)

transform(df, pred = fitted(lmList(y ~ x | group, df)))[c("group", "pred")]

Note

Lines <- "
group   x   y
g1  1   2
g1  1.5 3
g1  2   4
g1  2.3 4.4
g1  3   6
g1  3.4 6.2
g1  4.11    7
g1  4.8 7.9
g1  5   8
g1  5.3 8.2
g2  2   5
g2  2.3 4
g2  4   2.2
g2  4.4 1.9
g2  7   0.3"
df <- read.table(text = Lines, header = TRUE)

Added

关于注释，此代码按组生成 x = 5 的预测：

df %>%
  group_by(group) %>%
  summarize(pred = predict(lm(y ~ x), list(x = 5)), .groups = "drop") %>%
  select(group, pred)
## # A tibble: 2 x 2
##   group  pred
##   <chr> <dbl>
## 1 g1     8.18
## 2 g2     1.73

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

linearregression

Predict