1. 如何理解线性回归中的方差齐性?
在两组和多组比较中,每组都有很多数据,可以求出每组的方差,然后比较就行了,很容易理解。但是在线性回归中,有的人就不理解方差齐性是什么意思了。因为线性回归中自变量x不是分类变量,x取值很多,通常情况下,每个x值只对应1个y值。比如,分析身高对血压值的影响,可能每个身高对应的血压值只有一个数值。很显然,对于1个数是没有办法计算方差的,那还何来方差齐性检验呢?
这是因为,尽管在一次抽样中每个x取值上可能只有1个y值,但对于总体而言,理论上每个x取值上对应的y值是有很多的。
所以,线性回归中,理论上也是有方差的。然而这种理论上的方差,除非你知道总体中每个x取值上的所有对应的y值,否则你是没有办法真正去计算方差的。但这种情况几乎是不可能发生的,因此在线性回归中的方差齐性检验,很多情况下只是一种探测而已。
既然线性回归无法做到对每一个x取值上的y值计算方差,那我们可以放宽一下,可以简单地看某一x取值范围内的y值的方差,这是可以做到的。所以实际中我们经常通过线性回归的残差图来判断方差齐性,即以因变量残差作为纵坐标,以某自变量作为横坐标,绘制散点图。如下图所示。如果残差总的来说时随机分布的,没有随着自变量的增加而有其它趋势,基本就可以认为方差齐性。
当然残差图只是观察一下,如果想用统计学方法来验证是否有趋势的话,那很自然的一个想法就是,分析具体某一自变量与残差有没有关系就可以了。这也就是**BP(Breusch-Pagan)法和White检验**进行方差齐性检验的思想。即以残差为因变量,观察自变量与残差之间是否存在线性关系(BP法)或非线性关系(White检验)。如果存在,提示可能存在方差不齐。BP检验和White检验是较为常用的两种方差齐性检验的方法。
2. 多重线性回归
2.1 自变量筛选的方法是不是逐步法最好呢?
每种方法都有它的弊端,以前认为逐步法是前进法跟后退法的结合,那自然以为它是做好的,其实不然,在逐步法中,当有P个自变量入选后,选第p+1个自变量时,对它来说前P个自变量的组合不一定是最优组合。对于每种方法我就不一一展开了,没有绝对的好方法,一般来说,逐步回归法和最优回归子集法较好,那么对于给定的资料而言,最保险的就是尝试多种变量筛选方法,从中选择最优模型。
2.2 如何判定多重线性回归模型的优劣呢?
这个问题是个比较复杂的问题,小编参考了教材。最终归纳如下,较优模型满足标准:
(1)拟合的多重线性回归方程在整体上有统计学意义;
(2) 多重回归方程中各参数估计值假设检验结果有统计学意义;
(3) 多重回归方程中各回归参数的正负号与专业上的含义相符合;
(4)根据多重回归方程计算出因变量所有预测值在专业上有意义;
(5)若有多个较好的多重回归方程时,残差平方和较小且多重回归方程中所含的自变量个数又较少者为最佳;
(6)从实际角度来看,自变量取值越容易越好。
2.3 多重共线性是什么鬼,该怎么判断?
多重共线性大家在做回归时可能听说过,但大家多数却选择跳过。
**多重共线性**是指一些自变量之间存在较强的线性关系,不满足多重线性回归中自变量相互独立的要求。会引起方程的不稳定,增加或减少某几个观察值,估计值可能发生很大的变化。也可能造成估计值的正负符合与客观实际不一致的情况。
那么如何判定共线性呢,主要通过以下方法:
a.用条件指数(K)和方差分量进行共线性诊断(此步骤可在SAS中操作)K>=0且K<10,则认为没有多重共线性,若K>=10且K<=30,存在中度多重共线性,若K>30存在严重的多重共线性。
b.利用方差膨胀因子(VIF)进行共线性诊断,但目前尚无标准的临界值,有人根据经验,当VIF>10时,就有严重的多重共线性存在。
2.4 多重共线性怎么处理?
A.精简变量法:简单粗暴的方法在自变量中剔除造成共线性的自变量,重新建立回归方程;
B.主成分回归法:利用主成分分析将存在共线性的自变量合成主成分变量,再与应变量建立回归方程,由于主成分之间互不相关,因此可以避免多重共线性问题。
此外还有一些复杂方法如岭回归、偏最小二乘法、特征根法等。
2.5 异常值如何诊断?
若个别观测点于多数观测点偏离很远,它们可能会对回归的估计以及其他推断产生很大影响,这种点称之为异常点。在SAS里有两种简单方法方便检测:
A.利用学生化残差统计量,当该统计量的绝对值大于2时,所对应的观测值可能是异常点;
B.利用残差图进行异常值诊断,在残差图中,如果各散点随机均匀散布在直线y=0的上下两侧,说明资料满足假设,若有特别趋势,则需要考虑因变量与自变量之间的关系可能是非线性、方差不齐等情况。
2.6 发现异常值该如何处理?
若发现异常值,此时需要认真核对原始数据,若属于抄写或输入人为错误,应当纠正;若非人为过失所导致,需要做敏感性分析,即将该异常点剔除前后各做一个最好的回归方程,并对最终的结果做比较分析。若不一致,进一步探究原因,最好在此点上补做试验,以便进一步确认。
3.如何使用SPSS评分向导完成线性回归模型预测?
构建好线性回归模型后,我们会比较兴奋,把新数据带进方程计算,就可以得到预测值了。有没有想过,手工计算容易出错,操作也很不方便,准确快速实现预测,有没有更好的办法呢?
SPSS【评分向导】菜单可以读取xml模型文件,并对新数据进行预测。我们只需要在建模时,将成熟模型保存出xml模型文件,将其扔给【评分向导】对新数据完成预测。
案例:收集到某商品的销售数据,包括“广告费用”和“销售额”两个连续变量,现在想考察广告投入和销售之间的关系,实现利用广告投入预测销售的目标。
3.1 构建线性回归模型
以“销售额”为因变量,以“广告费用”为自变量,构建简单一元线性回归模型。
3.2 将模型信息导出
打开【保存】按钮,【将模型信息导出到XML文件】选项卡中,指定一个存放文件的路径,给xml模型文件起个名字,比如我们就叫它“广告销售模型”吧。
3.3 软件结果
模型通过检验。写出简单一元线性回归方程如下:
Y=6.584+1.071*广告
假设,我们要预测未来4个月的销售(不要太多哦),希望提前看一下,当广告投入5、6、7、8万元时,销售额会是多少。
使用SPSS软件提供的更加便利准确的【评分向导】菜单来自动完成。
3.4 预测值计算过程
打开只含有新数据的文件:
在SPSS数据窗口顶部的【实用程序】菜单中找到【评分向导】菜单,打开对话框:
点击左下方【浏览】按钮,找到我们已经保存好的“广告销售模型.xml”文件,打开,相当于是把前面创建的模型导入到【评分向导】中。
点击【下一步】,软件会自动匹配新数据中是否有模型所需要的自变量信息。
继续点【下一步】。软件会自动计算“预测值”以及预测的“标准误差”。我们重点就看“预测值”了。
到这里,就直接点【完成】,让软件开始预测。
通过软件计算出的未来4个月的销售预测值就摆在我们的面前了。