我眼中的回归变量筛选
变量筛选是回归建模过程关键的一步,由于变量间的相关性,必然会导致不同的筛选方法得到不同的模型。
在所有变量筛选方法中,向前法、向后法以及逐步回归法的使用频率较高,因为这类方法操作简单、运算速度快,非常实用,这种方法选出的变量 在入模后模型比较接近最优。
然而经向前法、向后法与逐步回归法筛选出的变量构建的模型并不是最优模型,若想构建最优模型,可以通过构建每个X的组合去获取最优变量组合,即全子集法。但全子集法因运算速度等限制,会有使用上的局限性,一般全子集法只会用在小量样本和少变量的情况。
还有其他方法可以和回归结合达到筛选变量的目的,例如Lasso算法