学习11.5--高级心里统计-多元回归分析
一、 目的,描述
探讨自变量对因变量编译的解释和预测,有预先指定的明确的方向性
二、 回答的问题
四大类:验证自对因的影响;检验单个(一组)自变量的重要性;建立预测模型;分析变量间的交互作用
十方面:
考察因与多个自变量间的关系强弱。
考察自变量重要性
考察增加自变量重要性
统计上预先控制协变量的影响。(协变量先进入)
基于假设需要定义变量影响顺序。(序列回归)
比较多组自变量的重要性
寻找最佳的预测模型(统计回归)
新样本上预测因变量分数(统计回归)(交叉验证)
重新定义自变量解释非线性关系
同时处理分类自变量和连续自变量对因变量的影响(虚拟编码)
三、 假设及模型
(一)假设
1. 2个或者以上的自变量以及一个因变量
2. 因变量正态分布
3. 线性关系
4. 变量的观测彼此独立
(二)多元回归方程的建立
(三)方程参数估计
最小二乘法(残差平方和最小)
四、 类型
(一) 标准多元回归:同时进入、自变量间共同解释的部分被排除,仅计算剩余部分
自变量相关高的时候要小心
(二) 序列回归:指定顺序、共同解释的部分归为先进入的变量
1、 最具理论重要性的先进入,保证最重要的变量最大解释
2、 重要变量最后进入,控制变量先进入,控制协变量考察最感兴趣的变量贡献大小(类似协方差分析)
(三) 统计回归:以统计标准决定进入顺序、没有考虑变量的意义和理论解释部分
缺点:可能会使与因变量由高相关的自变量最后进入方程,并得到其贡献最小结论
三种方式:向前选择、向后选择、逐步回归
可以同时采用交叉验证
(四) 比较:
目的:标准和统计回归旨在探索和建立模型,序列在对模型有理论支持和验证假设时使用
进入顺序,可控性:标准一次全进,不可控;统计不可控;序列有研究者决定,最可控。
优势:标准体现单个自变量单独贡献;序列在某些自变量先进入下探索另一些自变量的贡献;统计辨别多重共线性的变量。
五、 分析自变量的重要性
(一) 多元测定系数
1. 因变量编译总平方和:回归平方和以及残差平方和。
2. 多元测定系数:回归平方和与总平方和比值。表示回归方程多大程度上解释因变量的变异。如R方=0.64表示,回归方程解释因变量64%变异。
3. 算术平方根r称复相关:表示y与x1…间线性相关程度。
(二) 调整多元测定系数
1. 当自变量个数增多,残差平方和会减小,R方持续增大。
2. 当自变量与样本量小于1:5时,用调整多元测定系数Radj方代替R方
(三) 偏相关系数
1. 定义:控制其他自变量后,y与x的相关,等于从y和x中都出去其他预测变量的影响后,y与x 的简单相关。(控制变量的个数称为阶,如简单相关没有控制变量,零阶相关;一阶偏相关系数r ab.c(下标)表示在控制变量c后,ab相关大小。
2. 偏相关平方后得到偏测定系数:表示控制其他自变量条件下,单一自变量对因变量的边际解释力。(p67图)
3. 偏测定系数通过比较两次回归间的差异,测量x2对y的边际影响
(四) 半偏相关系数
1. 也叫部分相关:从Xk中剔除其他X后,Xk与y的相关,反映Xk的独特贡献。
2. 与偏相关比较:半偏仅从X2中剔除与X1相关下部分,没有从Y中剔除X1相关部分(p68图)。
(五) 标准回归系数
1. 判断自变量中,哪些事主要因素,哪些事次要因素。将自变量因变量标准化,得到标准化的变量,在进行回归分析,得到标准回归方程,最后比较β绝对值大小
六、 统计检验
(一) 方程显著性检验
就是y与x…的线性关系是否显著。总体回归系数b…中至少一个不为0.(H0:B1=B2…=0)
对回归方程进行方差分析:回归均方除以残差均方,构造F检验
(二) 新加入变量显著性检验
序列和统计回归中,如果想检验已有自变量解释了一定的R方后,新加入的自变量是否引起了R方的显著性的改变,仍使用F检验。
(三) 回归系数显著性检验
H0:b=0
标准多元回归中:偏回归系数显著性检验采用t检验。(b-β/SE,β=0,df=n-k-1)
弱国t检验显著,则认为自变量回归系数与零存在显著差异,即控制其他变量后,自变量对因变量仍有显著预测作用。
七、 注意的问题
(一) 样本量大小的决定(p71)
(二) 异常值
单变量检测常用:z分数,盒式图;双变量:散点图;多变量:马氏距离
回归过程中检测:残差分析(标准化残差<-3,>+3时,视为异常值)
(三) 多重共线性
两个自变量间相关系数很高,或者一个自变量可以由其他自变量线性表示,即存在多重共线性。
指标:1.容忍度(TOL):越接近1越好,小于0.1,则存在多重共线性;2.方差膨胀因子(VIF),是容忍度的倒数,越大越共线性越强,大于10,则认为存在共线性;3.条件指数(CI)指数越大,共线性越强,10-30弱共线,30-100中等,100以上,强共线性。
(四) 残差分析
多元回归分析假设残差具有正态性、线性和方差同质性,同时假设误差具有独立性。
验证:画出残差的散点图,进行残差分析。横轴表示因变量预测值,纵轴表示残差,如果满足假设,残差将对称且随机分布在值为0的直线上下,整体长方形。
(五) 分类变量的虚拟编码(效应编码以及对照编码)
1.如果分类自变量有K个类别,则构造K-1个新变量,将其中一个看作参考类别(值都为零),其余K-1个类别在新变量上依次编码为1.如三个类别abc,新变量X1,X2
那么:a,x1=0,x2=0;b,x1=1,x2=0;c,x1=0,x2=1.
此时,偏回归系数意义在于:因变量在该类别上的均值与参考类别上均值的差异,即使用b、c得到的y分别比a高(低)了b1和b2个单位
2. 对照编码:优点是编码后新变量相互正交;新变量有清楚的逻辑假设。
(相互正交:如果同一变量下所有类别的编码值总和为0,且不同变量两两之间内积为0,则称正交编码)
八、 局限性
1. 回归分析不能做出因果判断,因果判断依据逻辑和实验,不能仅依赖统计结果。
2. 变量的选取应该借助理论而不能仅依靠统计。
3. 回归分析假设自变量没有残差,但几乎不存在这样理想情况。
九、 应用及spss