我想预测单个数据框中多个组的线性回归的值。
我发现以下博客文章几乎可以满足我需要的一切:https://www.r-bloggers.com/2016/09/running-a-model-on-separate-groups/ https://www.r-bloggers.com/2016/09/running-a-model-on-separate-groups/
但是,我无法将其与带有 newdata 的 Predict() 函数结合起来。
对于一组,我使用以下内容:
m <- lm(y ~ x, df)
new_df <- data.frame(x=c(5))
predict(m, new_df)
这给出了 x=5 时 y 的预测值。
当我的 df 中有多个组时,我该如何执行此操作?这是我尝试过的:
df %>%
nest(-group) %>%
mutate(fit = map(data, ~ lm(.$y ~ .$x)),
results = map(fit, predict)) %>%
unnest(results)
当我尝试使用 results = map(fit, Predict(new_df)) 时,我只收到错误。有没有办法将 x 的值(在本例中为 5)传递到上面的代码中?
理想情况下,我会得到一个新的 data.frame,其中包含两列、组和预测的 y 值。
这是一个示例数据框:
group x y
g1 1 2
g1 1.5 3
g1 2 4
g1 2.3 4.4
g1 3 6
g1 3.4 6.2
g1 4.11 7
g1 4.8 7.9
g1 5 8
g1 5.3 8.2
g2 2 5
g2 2.3 4
g2 4 2.2
g2 4.4 1.9
g2 7 0.3
EDIT:
使用 ggplot2 绘制样本数据,我得到以下图:
ggplot(df, aes(x,y,colour=group)) +
geom_point() +
stat_smooth(method="lm", se=FALSE)
使用以下代码,我得到了受欢迎的预测 y 值:
predict(lm(y ~ x, df[df$group =="g1", ]), new_df)
1
8.180285
predict(lm(y ~ x, df[df$group =="g2", ]), new_df)
1
1.732136
我想生成一个新的数据框,它应该看起来像这样并包含预测的 y 值x=5:
group y_predict
g1 8.180285
g2 1.732136