学习11.5--高级心里统计-多元回归分析

2022-11-05 18:51 作者:虚假硬币 0人读过 | 我要投稿

一、目的，描述

探讨自变量对因变量编译的解释和预测，有预先指定的明确的方向性

二、回答的问题

四大类：验证自对因的影响；检验单个（一组）自变量的重要性；建立预测模型；分析变量间的交互作用

十方面：

考察因与多个自变量间的关系强弱。

考察自变量重要性

考察增加自变量重要性

统计上预先控制协变量的影响。（协变量先进入）

基于假设需要定义变量影响顺序。（序列回归）

比较多组自变量的重要性

寻找最佳的预测模型（统计回归）

新样本上预测因变量分数（统计回归）（交叉验证）

重新定义自变量解释非线性关系

同时处理分类自变量和连续自变量对因变量的影响（虚拟编码）

三、假设及模型

（一）假设

1. 2个或者以上的自变量以及一个因变量

2. 因变量正态分布

3. 线性关系

4. 变量的观测彼此独立

（二）多元回归方程的建立

（三）方程参数估计

最小二乘法（残差平方和最小）

四、类型

（一）标准多元回归：同时进入、自变量间共同解释的部分被排除，仅计算剩余部分

自变量相关高的时候要小心

（二）序列回归：指定顺序、共同解释的部分归为先进入的变量

1、最具理论重要性的先进入，保证最重要的变量最大解释

2、重要变量最后进入，控制变量先进入，控制协变量考察最感兴趣的变量贡献大小（类似协方差分析）

（三）统计回归：以统计标准决定进入顺序、没有考虑变量的意义和理论解释部分

缺点：可能会使与因变量由高相关的自变量最后进入方程，并得到其贡献最小结论

三种方式：向前选择、向后选择、逐步回归

可以同时采用交叉验证

（四）比较：

目的：标准和统计回归旨在探索和建立模型，序列在对模型有理论支持和验证假设时使用

进入顺序，可控性：标准一次全进，不可控；统计不可控；序列有研究者决定，最可控。

优势：标准体现单个自变量单独贡献；序列在某些自变量先进入下探索另一些自变量的贡献；统计辨别多重共线性的变量。

五、分析自变量的重要性

（一）多元测定系数

1. 因变量编译总平方和：回归平方和以及残差平方和。

2. 多元测定系数：回归平方和与总平方和比值。表示回归方程多大程度上解释因变量的变异。如R方=0.64表示，回归方程解释因变量64%变异。

3. 算术平方根r称复相关：表示y与x1…间线性相关程度。

（二）调整多元测定系数

1. 当自变量个数增多，残差平方和会减小，R方持续增大。

2. 当自变量与样本量小于1：5时，用调整多元测定系数Radj方代替R方

（三）偏相关系数

1. 定义：控制其他自变量后，y与x的相关，等于从y和x中都出去其他预测变量的影响后，y与x 的简单相关。（控制变量的个数称为阶，如简单相关没有控制变量，零阶相关；一阶偏相关系数r ab.c（下标）表示在控制变量c后，ab相关大小。

2. 偏相关平方后得到偏测定系数：表示控制其他自变量条件下，单一自变量对因变量的边际解释力。（p67图）

3. 偏测定系数通过比较两次回归间的差异，测量x2对y的边际影响

（四）半偏相关系数

1. 也叫部分相关：从Xk中剔除其他X后，Xk与y的相关，反映Xk的独特贡献。

2. 与偏相关比较：半偏仅从X2中剔除与X1相关下部分，没有从Y中剔除X1相关部分（p68图）。

（五）标准回归系数

1. 判断自变量中，哪些事主要因素，哪些事次要因素。将自变量因变量标准化，得到标准化的变量，在进行回归分析，得到标准回归方程，最后比较β绝对值大小

六、统计检验

（一）方程显著性检验

就是y与x…的线性关系是否显著。总体回归系数b…中至少一个不为0.（H0:B1=B2…=0）

对回归方程进行方差分析：回归均方除以残差均方，构造F检验

（二）新加入变量显著性检验

序列和统计回归中，如果想检验已有自变量解释了一定的R方后，新加入的自变量是否引起了R方的显著性的改变，仍使用F检验。

（三）回归系数显著性检验

H0:b=0

标准多元回归中：偏回归系数显著性检验采用t检验。（b-β/SE，β=0，df=n-k-1）

弱国t检验显著，则认为自变量回归系数与零存在显著差异，即控制其他变量后，自变量对因变量仍有显著预测作用。

七、注意的问题

（一）样本量大小的决定（p71）

（二）异常值

单变量检测常用：z分数，盒式图；双变量：散点图；多变量：马氏距离

回归过程中检测：残差分析（标准化残差<-3,>+3时，视为异常值）

（三）多重共线性

两个自变量间相关系数很高，或者一个自变量可以由其他自变量线性表示，即存在多重共线性。

指标：1.容忍度（TOL）：越接近1越好，小于0.1，则存在多重共线性；2.方差膨胀因子（VIF），是容忍度的倒数，越大越共线性越强，大于10，则认为存在共线性；3.条件指数（CI）指数越大，共线性越强，10-30弱共线，30-100中等，100以上，强共线性。

（四）残差分析

多元回归分析假设残差具有正态性、线性和方差同质性，同时假设误差具有独立性。

验证：画出残差的散点图，进行残差分析。横轴表示因变量预测值，纵轴表示残差，如果满足假设，残差将对称且随机分布在值为0的直线上下，整体长方形。

（五）分类变量的虚拟编码（效应编码以及对照编码）

1.如果分类自变量有K个类别，则构造K-1个新变量，将其中一个看作参考类别（值都为零），其余K-1个类别在新变量上依次编码为1.如三个类别abc，新变量X1,X2

那么：a，x1=0,x2=0;b,x1=1,x2=0;c,x1=0,x2=1.

此时，偏回归系数意义在于：因变量在该类别上的均值与参考类别上均值的差异，即使用b、c得到的y分别比a高（低）了b1和b2个单位

2. 对照编码：优点是编码后新变量相互正交；新变量有清楚的逻辑假设。

（相互正交：如果同一变量下所有类别的编码值总和为0，且不同变量两两之间内积为0，则称正交编码）

八、局限性

1. 回归分析不能做出因果判断，因果判断依据逻辑和实验，不能仅依赖统计结果。

2. 变量的选取应该借助理论而不能仅依靠统计。

3. 回归分析假设自变量没有残差，但几乎不存在这样理想情况。

九、应用及spss

标签：

学习11.5--高级心里统计-多元回归分析

学习11.5--高级心里统计-多元回归分析的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

学习11.5--高级心里统计-多元回归分析

本文作者的其他文章

学习11.5--高级心里统计-多元回归分析的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

学习11.5--高级心里统计-多元回归分析的评论 (共条)