多元线性回归模型的注意事项
多元线性回归模型的注意事项,天行健六西格玛顾问总结如下:

一、指标的数量化
一般要求因变量Y为连续性变量,自变量X可以为连续性变量,也可以为分类型变量。当自变量为连续性变量的时候,如果与因变量不呈线性关系,可以进行变量的变换。为分类变量时,可以设置哑变量等。
二、样本含量
如果说自变量比较多,样本含量n相对于m不是很大的时候,建立的回归方程会很不稳定。有学者认为n至少是自变量个数的5~10倍。Green(1991)提出使用经验公式n≥8(1-Re2)/Re2+(m-1)估计样本含量。其中Re2是多元回归预期的决定系数。

三、逐步回归
在自变量比较多的情况下,适合逐步法筛选变量。但是,“最优”未必是最好的,该方法所舍弃的变量也许是自己非常想研究的变量,同时被舍弃的变量也不一定没有统计学意义,有可能受多重共线性影响,掩盖了其统计学意义。因此,我们在应用时一定要结合问题本身以及专业知识来使用。
四、多重共线性
一些自变量之间存在较强的线性关系,同时在现实应用当中也是比较普遍的,如果这种关系强度很高,会导致最小二乘法失效,引起以下问题:
1.参数估计值标准误很大,t值很小。
2.回归方程不稳定,增加或减少几个观察值,参数估计值会产生很大的变化。
3.t检验结果不准确,可能会舍弃重要变量。
4.参数估计值的正负号与实际不一样。
解决方案:
1.在自变量中剔除某些造成共线性的变量
2.对自变量进行主成分分析
3.使用岭回归分析
4.使用Lasso对自变量降维
5.使用偏最小二乘回归法
6.使用逐步回归法

五、偏相关系数
在一组变量中,任意两个变量在其他变量固定不变时,他们之间相关的密切程度与方向。在做多元回归分析时,可以借助此系数,得到在控制不同自变量时因变量与任意一自变量之间的关系。
六、变量间的交互作用
回归方程中是否要考虑交互作用,研究者需根据自身的专业知识来判断。为了检验两个自变量是否有交互作用,最简单的方法就是在回归方程中加入其乘积项,如果经过假设检验之后,具有统计学意义,那么就存在交互作用。