欢迎光临散文网 会员登陆 & 注册

学习11.5--高级心里统计-多元回归分析

2022-11-05 18:51 作者:虚假硬币  | 我要投稿

一、 目的,描述

探讨自变量对因变量编译的解释和预测,有预先指定的明确的方向性

二、 回答的问题

四大类:验证自对因的影响;检验单个(一组)自变量的重要性;建立预测模型;分析变量间的交互作用

十方面:

考察因与多个自变量间的关系强弱。

考察自变量重要性

考察增加自变量重要性

统计上预先控制协变量的影响。(协变量先进入)

基于假设需要定义变量影响顺序。(序列回归)

比较多组自变量的重要性

寻找最佳的预测模型(统计回归)

新样本上预测因变量分数(统计回归)(交叉验证)

重新定义自变量解释非线性关系

同时处理分类自变量和连续自变量对因变量的影响(虚拟编码)


三、 假设及模型

(一)假设

1. 2个或者以上的自变量以及一个因变量

2. 因变量正态分布

3. 线性关系

4. 变量的观测彼此独立

(二)多元回归方程的建立

(三)方程参数估计

最小二乘法(残差平方和最小)


四、 类型

(一) 标准多元回归:同时进入、自变量间共同解释的部分被排除,仅计算剩余部分

自变量相关高的时候要小心

(二) 序列回归:指定顺序、共同解释的部分归为先进入的变量

1、 最具理论重要性的先进入,保证最重要的变量最大解释

2、 重要变量最后进入,控制变量先进入,控制协变量考察最感兴趣的变量贡献大小(类似协方差分析)

(三) 统计回归:以统计标准决定进入顺序、没有考虑变量的意义和理论解释部分

缺点:可能会使与因变量由高相关的自变量最后进入方程,并得到其贡献最小结论

三种方式:向前选择、向后选择、逐步回归

可以同时采用交叉验证

(四) 比较:

目的:标准和统计回归旨在探索和建立模型,序列在对模型有理论支持和验证假设时使用

进入顺序,可控性:标准一次全进,不可控;统计不可控;序列有研究者决定,最可控。

优势:标准体现单个自变量单独贡献;序列在某些自变量先进入下探索另一些自变量的贡献;统计辨别多重共线性的变量。


五、 分析自变量的重要性

(一) 多元测定系数

1. 因变量编译总平方和:回归平方和以及残差平方和。

2. 多元测定系数:回归平方和与总平方和比值。表示回归方程多大程度上解释因变量的变异。如R方=0.64表示,回归方程解释因变量64%变异。

3. 算术平方根r称复相关:表示y与x1…间线性相关程度。

(二) 调整多元测定系数

1. 当自变量个数增多,残差平方和会减小,R方持续增大。

2. 当自变量与样本量小于1:5时,用调整多元测定系数Radj方代替R方

(三) 偏相关系数

1. 定义:控制其他自变量后,y与x的相关,等于从y和x中都出去其他预测变量的影响后,y与x 的简单相关。(控制变量的个数称为阶,如简单相关没有控制变量,零阶相关;一阶偏相关系数r ab.c(下标)表示在控制变量c后,ab相关大小。

2. 偏相关平方后得到偏测定系数:表示控制其他自变量条件下,单一自变量对因变量的边际解释力。(p67图)

3. 偏测定系数通过比较两次回归间的差异,测量x2对y的边际影响

(四) 半偏相关系数

1. 也叫部分相关:从Xk中剔除其他X后,Xk与y的相关,反映Xk的独特贡献。

2. 与偏相关比较:半偏仅从X2中剔除与X1相关下部分,没有从Y中剔除X1相关部分(p68图)。

(五) 标准回归系数

1. 判断自变量中,哪些事主要因素,哪些事次要因素。将自变量因变量标准化,得到标准化的变量,在进行回归分析,得到标准回归方程,最后比较β绝对值大小


六、 统计检验

(一) 方程显著性检验

就是y与x…的线性关系是否显著。总体回归系数b…中至少一个不为0.(H0:B1=B2…=0)

对回归方程进行方差分析:回归均方除以残差均方,构造F检验

(二) 新加入变量显著性检验

序列和统计回归中,如果想检验已有自变量解释了一定的R方后,新加入的自变量是否引起了R方的显著性的改变,仍使用F检验。

(三) 回归系数显著性检验

H0:b=0

标准多元回归中:偏回归系数显著性检验采用t检验。(b-β/SE,β=0,df=n-k-1)

弱国t检验显著,则认为自变量回归系数与零存在显著差异,即控制其他变量后,自变量对因变量仍有显著预测作用。


七、 注意的问题

(一) 样本量大小的决定(p71)

(二) 异常值

单变量检测常用:z分数,盒式图;双变量:散点图;多变量:马氏距离

回归过程中检测:残差分析(标准化残差<-3,>+3时,视为异常值)

(三) 多重共线性

两个自变量间相关系数很高,或者一个自变量可以由其他自变量线性表示,即存在多重共线性。

指标:1.容忍度(TOL):越接近1越好,小于0.1,则存在多重共线性;2.方差膨胀因子(VIF),是容忍度的倒数,越大越共线性越强,大于10,则认为存在共线性;3.条件指数(CI)指数越大,共线性越强,10-30弱共线,30-100中等,100以上,强共线性。

(四) 残差分析

多元回归分析假设残差具有正态性、线性和方差同质性,同时假设误差具有独立性。

验证:画出残差的散点图,进行残差分析。横轴表示因变量预测值,纵轴表示残差,如果满足假设,残差将对称且随机分布在值为0的直线上下,整体长方形。

(五) 分类变量的虚拟编码(效应编码以及对照编码)

1.如果分类自变量有K个类别,则构造K-1个新变量,将其中一个看作参考类别(值都为零),其余K-1个类别在新变量上依次编码为1.如三个类别abc,新变量X1,X2

那么:a,x1=0,x2=0;b,x1=1,x2=0;c,x1=0,x2=1.

此时,偏回归系数意义在于:因变量在该类别上的均值与参考类别上均值的差异,即使用b、c得到的y分别比a高(低)了b1和b2个单位

2. 对照编码:优点是编码后新变量相互正交;新变量有清楚的逻辑假设。

(相互正交:如果同一变量下所有类别的编码值总和为0,且不同变量两两之间内积为0,则称正交编码)

八、 局限性

1. 回归分析不能做出因果判断,因果判断依据逻辑和实验,不能仅依赖统计结果。

2. 变量的选取应该借助理论而不能仅依靠统计。

3. 回归分析假设自变量没有残差,但几乎不存在这样理想情况。

九、 应用及spss


学习11.5--高级心里统计-多元回归分析的评论 (共 条)

分享到微博请遵守国家法律