线性回归分析与SPSS实例分析其一:模型/估计/检验
一元/多元回归分析模型及其参数估计、假设检验:
一元回归分析模型
即:
回归参数的估计: 通常有两种估计方法1.普通最小二乘估计,2.极大似然估计(省略)
一.普通最小二乘估计(OLSE)
我们对每个样本单位,都考虑观测值与其平均值
的离差。回归模型越接近所得样本数据,意为该离差越小。所以我们使各个离差进行平方处理。
根据微积分知识推导(过程省略):
由此得出的最小二乘估计代入回归函数,即得回归方程
而是在给定的
的条件下的估计值,称为因变量拟合值。
所以定义因变量的观察值与拟合值之间的离差为残差。
在得到回归方程后再对数据的残差进行分析,推断回归分析的基本假定是否成立。
经典的回归分析假定:
;
;
;
回归分析的假设检验与拟合优度
在获得回归系数后,还要运用统计方法对回归系数进行显著性检验,对回归方程的拟合效果进行评估。
(补充)显著性:是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平
t检验
原假设成立则代表Y与X并无线性关系。即是X对Y的显著不为0。
t检验中我们选择统计量 t ,我们给定显著性水平为,则双侧检验的临界值为
。
每当时,拒绝原假设,认为
显著不为0,一元线性回归成立。反之,不能拒绝原假设,一元线性回归不成立。
F检验
得到回归方程后,我们使用得到的数据分别计算出SSR,SSE,SST
总平方和: 可以反映因变量y总体的波动程度,类似于方差。
回归平方和: 由回归方程确定的,自变量x波动所引力的因变量波动。
残差平方和: 外部影响,与X无关且无法控制的因素。
对上述三个平方和整理可以发现:
由此,在正态性假设下,原假设成立时
服从于分布
,我们给定显著性水平
,F检验临界值则为
,当
时,拒绝原假设,说明回归方程满足线性关系,反之不满足线性关系。
拟合优度:
如何去确定回归方程的效果好不好?有上述可以定义,在总平方和SST中,SSR的占比越大,而残差平方和的占比越小,意为着不可控因素越小,所得数据的拟合度就越小,所以定义拟合优度 由此式,我们可以看出,如果
越接近于1,说明SSR的占比越大,意为着线性回归的拟合优度越大。
多元线性回归分析(注:往后 ' 代表矩阵转置)
上述同理,多元线性回归分析模型设为
矩阵形式
在多元回归模型中,作为随机向量,在给定X的情况下,我们去假定
也就是随机向量服从与多元正态分布
因为Y与有关
,我们可以推导出Y的均值以及协方差矩阵:
我们可以得出
,可以发现Y依然服从与一个多元正态分布
与一元回归的操作类似,我们依然使用最小二乘法来估计,求解
达到最小值时的
由矩阵最小二乘法公式计算可得(过程省略)
的最小二乘估计b
记残差 ,由此得残差平方和
由此基础之上就可以得到关于的估计
假设检验:
在我们设立了模型,并且对参数进行估计之后,便要对所得回归方程进行显著性检验。
,
分别对回归、残差、总计平方和,即SSR、SSE、SST整理我们可以知道
我们给定显著性水平
F = MSR/MSE 若得则拒绝原假设,证明方程回归系数不全为0,方程整体具有显著性。
多元线性回归分析中对单个回归系数的显著性检验
(i=0,1,2,...,k)。
对这一类问题的假设检验,若接受了原假设,则表面该回归系数可以看作0,我们可以考虑直接在回归方程中将项
去掉,认为该项对Y没有影响。
作用:对单个回归系数的显著性检验有注意简化我们的整个回归模型。
对多元归回分析的拟合效果评估:调整后的样本决定系数
在一元回归分析中样本决定系数在0到1之间,但是在多元回归分析中由于自变量的增加,
也会不可避免的增加,所以自变量越多(即便引入的变量其实与Y无关),意味着
也越大。应此,我们要对样本决定系数进行修正.
其计算公式:
相关英语单词:
最小二乘估计: ordinary least square estimation, OLSE
因变量/响应变量:dependent variable / response variable
自变量/解释变量:independent variable / explanatory variable
变量/双变量: variable / bivariable (n.变量 adj,多变的,可变的)
线性回归模型: linear regression model
regression n.回归,倒退,退化
analyze v.分析/研究 ,解析,分解
参数/回归系数: regression parameters / regression coeffi-cient
残差:residual
其二:基于SPSS的应用实例与分析