欢迎光临散文网 会员登陆 & 注册

线性回归分析与SPSS实例分析其一:模型/估计/检验

2023-09-07 21:13 作者:莲子下摸鱼  | 我要投稿

一元/多元回归分析模型及其参数估计、假设检验:

  一元回归分析模型

即:  

                       Y%20%3D%20%5Cbeta_0%20%2B%20%5Cbeta_1X_i%20%2B%5Cvarepsilon_i(%E8%AF%AF%E5%B7%AE%E9%A1%B9)

                       (x_i%2Cy_i)%E6%98%AF(X%2CY)%E7%9A%84%E7%AC%ACi%E4%B8%AA%E8%A7%82%E6%B5%8B%E5%80%BC

  回归参数的估计: 通常有两种估计方法1.普通最小二乘估计,2.极大似然估计(省略)

一.普通最小二乘估计(OLSE)

  我们对每个样本单位,都考虑观测值y_i与其平均值%5Cbeta_0%2B%5Cbeta_1x_i的离差。回归模型越接近所得样本数据,意为该离差越小。所以我们使各个离差进行平方处理。

  Q(%5Cbeta_0%2C%5Cbeta_1)%20%3D%20%5Csum_%7Bi%3D1%7D%5En%5By_i-E(Y_i%7Cx_i)%5D%5E2%20%3D%20%5Csum_%7Bi%3D1%7D%5En%20(y_i%20-%20%5Cbeta_0%2B%5Cbeta_1x_1)%5E2

根据微积分知识推导(过程省略):

%5Chat%7B%5Cbeta_1%7D%3D%20%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5En(x_i-%5Cbar%7Bx%7D%20)(y_i-%5Cbar%7By%7D)%20%7D%7B%5Csum_%7Bi%3D1%7D%5En(x_i-%5Cbar%7Bx%7D)%5E2%20%7D%20%20     %5Chat%7B%5Cbeta_0%7D%20%20%3D%20%5Cbar%7By%7D-%5Chat%7B%5Cbeta_1%7D%5Cbar%7Bx%7D

由此得出的最小二乘估计代入回归函数,即得回归方程 %5Chat%7By_i%7D%3D%20%5Chat%7B%5Cbeta_0%7D%2B%5Chat%7B%5Cbeta_1%7Dx_1

%5Chat%7By_i%7D是在给定的x_i的条件下的估计值,称为因变量拟合值。

所以定义因变量的观察值与拟合值之间的离差y_i-%5Chat%7By_i%7D为残差。 

  在得到回归方程后再对数据的残差进行分析,推断回归分析的基本假定是否成立。

经典的回归分析假定:

E(%5Cvarepsilon_i%7CX_i%20)%20%3D%200%20%E4%B8%94E(Y_i%7CX_i)%3D%5Cbeta_0%2B%5Cbeta_1X_i%0A;

Var(%5Cvarepsilon_i%7CX_i%20)%3DVar(Y_i%7CX_i)%3D%5Csigma%5E2;

i%5Cneq%20j%E6%97%B6%2CCov(%5Cvarepsilon_i%2C%20%5Cvarepsilon_j%20)%3DCov(Y_i%2CY_j)%3D0;

%5Cvarepsilon%20_i%20%5Csim%20N(0%2C%5Csigma%5E2)%20%2CY_i%20%5Csim%20N(%5Cbeta_0%2B%5Cbeta_1X_i%2C%5Csigma%5E2)

回归分析的假设检验与拟合优度

在获得回归系数后,还要运用统计方法对回归系数进行显著性检验,对回归方程的拟合效果进行评估。

(补充)显著性:是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平

  t检验

%E5%8E%9F%E5%81%87%E8%AE%BEH_0%20%3A%5Cbeta_1%20%3D%200%20%2C%E5%A4%87%E6%8B%A9%E5%81%87%E8%AE%BEH_1%3A%5Cbeta_1%5Cneq%200  原假设成立则代表Y与X并无线性关系。即是X对Y的显著不为0。

      t检验中我们选择统计量 t ,我们给定显著性水平为%5Calpha%20,则双侧检验的临界值为t_%7B%5Calpha%2F2%7D

每当%7Ct%7C%5Cgeq%20t_%7B%5Calpha%2F2%7D时,拒绝原假设,认为%5Cbeta_1显著不为0,一元线性回归成立。反之,不能拒绝原假设,一元线性回归不成立。

 F检验

得到回归方程后,我们使用得到的数据分别计算出SSR,SSE,SST

总平方和:SST%20%3D%20%5Csum_%7Bi%3D1%7D%5En(y_i-%5Cbar%7By%7D)%5E2 可以反映因变量y总体的波动程度,类似于方差。

回归平方和:SSR%20%3D%20%5Csum_%7Bi%3D1%7D%5En(%5Chat%7By_i%7D-%5Cbar%7By%7D)%5E2 由回归方程确定的,自变量x波动所引力的因变量波动。

残差平方和:SSE%20%3D%20%5Csum_%7Bi%3D1%7D%5En(y_i-%5Chat%7By_i%7D)%5E2 外部影响,与X无关且无法控制的因素。

对上述三个平方和整理可以发现:SST%20%3DSSR%2BSSE

由此,在正态性假设下,原假设成立时

F%20%3D%20%5Cfrac%7BSSR%2F1%7D%7BSSE%2F(n-2)%7D%20服从于分布F(1%2Cn-2),我们给定显著性水平%5Calpha,F检验临界值则为

F_%5Calpha(1%2Cn-2),当F%5Cgeq%20F_%5Calpha(1%2Cn-2)时,拒绝原假设,说明回归方程满足线性关系,反之不满足线性关系。

拟合优度:

如何去确定回归方程的效果好不好?有上述可以定义,在总平方和SST中,SSR的占比越大,而残差平方和的占比越小,意为着不可控因素越小,所得数据的拟合度就越小,所以定义拟合优度R%5E2%20%3D%20%5Cfrac%7BSSR%7D%7BSST%7D%20 由此式,我们可以看出,如果R%5E2越接近于1,说明SSR的占比越大,意为着线性回归的拟合优度越大。

多元线性回归分析(注:往后 '  代表矩阵转置)

上述同理,多元线性回归分析模型设为

Y_i%20%3D%20%5Cbeta_0%20%2B%5Cbeta_1X_1%2B...%2B%5Cbeta_kX_k%20%2B%20%5Cvarepsilon_i

矩阵形式

%5Cbegin%7Bpmatrix%7D%0A%20Y_1%5C%5C%0A%20Y_2%5C%5C%0A%20Y_3%5C%5C%0A%20...%5C%5C%0A%20Y_n%5C%5C%0A%0A%5Cend%7Bpmatrix%7D_%7Bn%20%5Ctimes%201%7D%3D%5Cbegin%7Bpmatrix%7D%0A%20%201%26%20%20X_%7B11%7D%26%20%20..%26%20%20X_%7B1k%7D%26%20%5C%5C%0A%20%201%26%20%20X_%7B21%7D%26%20%20..%26%20%20X_%7B2k%7D%26%20%5C%5C%0A%20%201%26%20%20X_%7B31%7D%26%20%20..%26%20%20X_%7B3k%7D%26%20%5C%5C%0A%20%20..%26%20..%20%26%20..%20%26%20..%20%26%20%5C%5C%0A%20%201%26%20%20X_%7Bn1%7D%26%20..%20%26%20%20X_%7Bnk%7D%0A%5Cend%7Bpmatrix%7D_%7Bn%20%5Ctimes%20(k%2B1)%7D%5Cbegin%7Bpmatrix%7D%0A%20%5Cbeta_0%5C%5C%0A%20%5Cbeta_1%5C%5C%0A%20%5Cbeta_2%5C%5C%0A%20...%5C%5C%0A%20%5Cbeta_k%5C%5C%0A%0A%5Cend%7Bpmatrix%7D_%7B(k%2B1)%5Ctimes1%7D%2B%5Cbegin%7Bpmatrix%7D%0A%20%5Cvarepsilon_1%20%5C%5C%0A%20%5Cvarepsilon_2%5C%5C%0A%20%5Cvarepsilon_3%5C%5C%0A%20...%5C%5C%0A%20%5Cvarepsilon_n%5C%5C%0A%0A%5Cend%7Bpmatrix%7D_%7Bn%20%5Ctimes1%7D

在多元回归模型中,%5Cvarepsilon%20作为随机向量,在给定X的情况下,我们去假定

E(%5Cvarepsilon%20%7CX)%20%3D%200%20%E5%90%8C%E6%97%B6Var(%5Cvarepsilon%20%7CX)%3D%5Csigma%5E2I 也就是随机向量服从与多元正态分布%5Cvarepsilon%20%5Csim%20N(O%2C%5Csigma%5E2I)

因为Y与%5Cvarepsilon%20有关Y%20%3D%20X%5Cbeta%2B%5Cvarepsilon%20,我们可以推导出Y的均值以及协方差矩阵:

E(Y%7CX)%3DE(X%5Cbeta%2B%5Cvarepsilon%20)%3DX%5Cbeta%2BE(%5Cvarepsilon%7CX)%3DX%5Cbeta

Var(Y%7CX)%3DE((Y-%5Cmu_Y)(Y-%5Cmu_Y)')  

(Y-%5Cmu_Y)(Y-%5Cmu_Y)'

%3D%5Cbegin%7Bpmatrix%7D%0A%20(Y_1-%5Cmu_Y)%5E2%20%26%20(Y_1-%5Cmu_Y)(Y_2-%5Cmu_Y)%20%26%20%5Cdots%20%20%26%20%5Cdots%20%26%20(Y_1-%5Cmu_Y)(Y_n-%5Cmu_Y)%26%5C%5C%0A%20%20(Y_1-%5Cmu_Y)(Y_2-%5Cmu_Y)%26%20(Y_2-%5Cmu_Y)%5E2%20%26%20%20%5Cdots%26%20%20%5Cdots%26%20%5Cvdots%20%26%5C%5C%0A%20%20%5Cvdots%26%20%5Cvdots%20%20%26%20%20%20(Y_3-%5Cmu_Y)%5E2%26%20%26%5Cvdots%26%5C%5C%0A%20%20%5Cvdots%26%20%5Cvdots%20%26%20%20%20%26%20%5Cddots%26%20%5Cvdots%26%5C%5C%0A%20%20(Y_1-%5Cmu_Y)(Y_n-%5Cmu_Y)%26%20%20(Y_2-%5Cmu_Y)(Y_n-%5Cmu_Y)%26%20%20%5Cdots%26%20%20%5Cdots%26%20(Y_n-%5Cmu_Y)%5E2%20%26%0A%5Cend%7Bpmatrix%7D

%5Cbecause%20E((Y_i-%5Cmu_Y)(Y_j-%5Cmu_Y))%3D0%20(i%5Cneq%20j%20%2Ci%2Cj%3D1%2C2%2C..%2Cn)

E(%5Cvarepsilon_i%7CX)%3D0%EF%BC%8CVar(%5Cvarepsilon_i%7CX)%3D%5Csigma%5E2

E(Y_i-%5Cmu_Y)%5E2%20%3D%20E(%5Cvarepsilon_i%5E2%7CX%20)%20%3D%20(E(%5Cvarepsilon%20_i%7CX))%5E2%2BVar(%5Cvarepsilon%20_i%7CX)%3D%5Csigma%5E2

我们可以得出

Var(Y%7CX)%20%3D%20%5Csigma%5E2%20I,可以发现Y依然服从与一个多元正态分布N(X%5Cbeta%2C%5Csigma%5E2I)

与一元回归的操作类似,我们依然使用最小二乘法来估计%5Cbeta,求解Q(%5Cbeta)%20%3D%20(Y-X%5Cbeta)(Y-X%5Cbeta)' 达到最小值时的%5Cbeta

由矩阵最小二乘法公式计算可得(过程省略)

%5Cbeta的最小二乘估计b

b%20%3D%20(b_0%2Cb_1%2C...%2Cb_k)'%3D(%5Chat%5Cbeta_0%2C%5Chat%5Cbeta_1%2C...%2C%5Chat%5Cbeta_k)'

%20%3D%20(X'X)%5E%7B-1%7DX'Y

记残差e%20%3D%20Y-%20%5Chat%20Y%20%3D%20Y-Xb  ,由此得残差平方和SSE%3Dee'%20%3D%20(Y-Xb)'(Y-Xb)

由此基础之上就可以得到关于%5Csigma%5E2的估计%5Chat%7B%5Csigma%5E2%7D%20%3D%20%5Cfrac%7BSSE%7D%7Bn-k-1%7D%20

假设检验:

在我们设立了模型,并且对参数进行估计之后,便要对所得回归方程进行显著性检验。

H_0%3A%5Cbeta%3DO_%7B(k%2B1)%5Ctimes1%20%7D%E5%A4%87%E6%8B%A9%E5%81%87%E8%AE%BEH_1%3A%5Cbeta_i%E4%B9%8B%E4%B8%AD%E8%87%B3%E5%B0%91%E6%9C%89%E4%B8%80%E4%B8%AA%E4%B8%8D%E4%B8%BA0

分别对回归、残差、总计平方和,即SSR、SSE、SST整理我们可以知道

SSR%20%3D%20b'x'y%20(%E8%87%AA%E7%94%B1%E5%BA%A6k)  SSE%20%3D%20e'e(%E8%87%AA%E7%94%B1%E5%BA%A6n-k-1)  SST%20%3D%20y'y(%E8%87%AA%E7%94%B1%E5%BA%A6n-1)

我们给定显著性水平%5Calpha

F = MSR/MSE  若得F%20%3E%20F_%7B%5Calpha%7D(k%2Cn-k-1)则拒绝原假设,证明方程回归系数不全为0,方程整体具有显著性。

多元线性回归分析中对单个回归系数的显著性检验

H_0%20%3A%20%5Cbeta_i%20%3D%200   H_1%3A%20%5Cbeta_i%20%5Cneq%200 (i=0,1,2,...,k)。

对这一类问题的假设检验,若%5Cbeta_4%20接受了原假设,则表面该回归系数可以看作0,我们可以考虑直接在回归方程中将项%5Cbeta_4X_4去掉,认为该项对Y没有影响。

作用:对单个回归系数的显著性检验有注意简化我们的整个回归模型。

对多元归回分析的拟合效果评估:调整后的样本决定系数

在一元回归分析中样本决定系数R%5E2%20在0到1之间,但是在多元回归分析中由于自变量的增加,R%5E2也会不可避免的增加,所以自变量越多(即便引入的变量其实与Y无关),意味着R%5E2也越大。应此,我们要对样本决定系数进行修正.


其计算公式: Adj.R%5E2%20%3D%201-%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5En(y_i-%5Chat%20y_i)%5E2%20%2F(n-k-1)%7D%7B%5Csum_%7Bi%3D1%7D%5En(y_i-%5Cbar%20%20y_i)%5E2%2F(n-1)%7D%20

相关英语单词:

最小二乘估计: ordinary least square estimation, OLSE

因变量/响应变量:dependent variable / response variable

自变量/解释变量:independent variable / explanatory variable

变量/双变量: variable / bivariable (n.变量 adj,多变的,可变的)

线性回归模型: linear regression model

regression n.回归,倒退,退化

analyze v.分析/研究 ,解析,分解

参数/回归系数: regression parameters / regression coeffi-cient

残差:residual


其二:基于SPSS的应用实例与分析















线性回归分析与SPSS实例分析其一:模型/估计/检验的评论 (共 条)

分享到微博请遵守国家法律