R 中与跨度相关的 LOESS 警告/错误

2023-11-27

我正在 R 中运行 LOESS 回归,并且在一些较小的数据集上遇到了警告。

警告消息:

1: 在 simpleLoess(y, x, w, 跨度, 度数 = 度数, 参数 = 参数化,:在 -2703.9 使用伪逆

2:在 simpleLoess(y, x, w, 跨度, 度数 = 度数, 参数 = 参数化,:邻域半径 796.09

3:在 simpleLoess(y, x, w, 跨度, 度数 = 度数, 参数 = 参数,:倒数条件数 0

4: 在 simpleLoess(y, x, w, 跨度, 度数 = 度数, 参数 = 参数化,:还有其他近奇点。 6.1623e+005

这些错误在另一篇文章中进行了讨论:理解 R 中的 loess 错误 .

这些警告似乎与 LOESS 回归的跨度设置有关。我正在尝试应用与其他数据集相同的方法,其中可接受的平滑跨度的参数在 0.3 到 0.6 之间。在某些情况下,我可以调整跨度来避免这些问题,但在其他数据集中,跨度必须增加到超出可接受的水平才能避免错误/警告。

我很好奇这些警告具体意味着什么,以及这是否是回归可用的情况,但应该注意的是,这些警告发生了,或者回归是否完全无效。

以下是存在问题的数据集的示例:

Period  Value   Total1  Total2
-2950   0.104938272 32.4    3.4  
-2715   0.054347826 46  2.5  
-2715   0.128378378 37  4.75  
-2715   0.188679245 39.75   7.5  
-3500   0.245014245 39  9.555555556  
-3500   0.163120567 105.75  17.25  
-3500   0.086956522 28.75   2.5  
-4350   0.171038825 31.76666667 5.433333333  
-3650   0.143798024 30.36666667 4.366666667  
-4350   0.235588972 26.6    6.266666667  
-3500   0.228840125 79.75   18.25  
-4933   0.154931973 70  10.8452381  
-4350   0.021428571 35  0.75  
-3500   0.0625  28  1.75  
-2715   0.160714286 28  4.5  
-2715   0.110047847 52.25   5.75  
-3500   0.176923077 32.5    5.75  
-3500   0.226277372 34.25   7.75  
-2715   0.132625995 188.5   25

这是没有换行符的数据

Period  Value   Total1  Total2
-2950   0.104938272 32.4    3.4
-2715   0.054347826 46  2.5
-2715   0.128378378 37  4.75
-2715   0.188679245 39.75   7.5
-3500   0.245014245 39  9.555555556
-3500   0.163120567 105.75  17.25
-3500   0.086956522 28.75   2.5
-4350   0.171038825 31.76666667 5.433333333
-3650   0.143798024 30.36666667 4.366666667
-4350   0.235588972 26.6    6.266666667
-3500   0.228840125 79.75   18.25
-4933   0.154931973 70  10.8452381
-4350   0.021428571 35  0.75
-3500   0.0625  28  1.75
-2715   0.160714286 28  4.5
-2715   0.110047847 52.25   5.75
-3500   0.176923077 32.5    5.75
-3500   0.226277372 34.25   7.75
-2715   0.132625995 188.5   25

这是我正在使用的代码:

Analysis <- read.csv(file.choose(), header = T)
plot(Value ~ Period, Analysis)
a <- order(Analysis$Period)
Analysis.lo <- loess(Value ~ Period, Analysis, weights = Total1)
pred <- predict(Analysis.lo, se = TRUE)
lines(Analysis$Period[a], pred$fit[a], col="red", lwd=3)
lines(Analysis$Period[a], pred$fit[a] - qt(0.975, pred$df)*pred$se[a],lty=2)
lines(Analysis$Period[a], pred$fit[a] + qt(0.975,pred$df)*pred$se[a],lty=2)

感谢您的帮助,如果需要任何其他信息,请告诉我。


发出警告是因为算法loess发现数值上的困难,因为Period有一些值重复相对较多的次数,正如您从图中可以看到的那样:

table(Analysis$Period)

在这方面,Period事实上,它的行为就像一个离散变量(一个因子),而不是一个连续变量,因为它需要适当的平滑。添加一些抖动可以消除警告:

Analysis <- read.table(header = T,text="Period  Value   Total1  Total2
-2950   0.104938272 32.4    3.4
-2715   0.054347826 46  2.5
-2715   0.128378378 37  4.75
-2715   0.188679245 39.75   7.5
-3500   0.245014245 39  9.555555556
-3500   0.163120567 105.75  17.25
-3500   0.086956522 28.75   2.5
-4350   0.171038825 31.76666667 5.433333333
-3650   0.143798024 30.36666667 4.366666667
-4350   0.235588972 26.6    6.266666667
-3500   0.228840125 79.75   18.25
-4933   0.154931973 70  10.8452381
-4350   0.021428571 35  0.75
-3500   0.0625  28  1.75
-2715   0.160714286 28  4.5
-2715   0.110047847 52.25   5.75
-3500   0.176923077 32.5    5.75
-3500   0.226277372 34.25   7.75
-2715   0.132625995 188.5   25")

table(Analysis$Period)    
Analysis$Period <- jitter(Analysis$Period, factor=0.2)

plot(Value ~ Period, Analysis)
a <- order(Analysis$Period)
Analysis.lo <- loess(Value ~ Period, Analysis, weights = Total1)
pred <- predict(Analysis.lo, se = TRUE)
lines(Analysis$Period[a], pred$fit[a], col="red", lwd=3)
lines(Analysis$Period[a], pred$fit[a] - qt(0.975, pred$df)*pred$se[a],lty=2)
lines(Analysis$Period[a], pred$fit[a] + qt(0.975,pred$df)*pred$se[a],lty=2)

增加span参数具有“挤压”的效果,沿着Periodaxis,重复值出现的地方的一堆;对于小数据集,您需要大量压缩来补偿重复数据的堆积Periods.

从实际角度来看,我通常仍然相信回归,可能是在检查图形输出之后。但我绝对不会增加span实现挤压:使用少量的效果会更好jitter为了这个目的;span应由其他考虑因素决定,例如您的总体分布Period数据等

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R 中与跨度相关的 LOESS 警告/错误 的相关文章

随机推荐