线性回归分析与SPSS实例分析其二:基于SPSS的应用实例与分析
多元回归的应用实例:
我们所要研究的问题:
试研究C、Si、Mn、P、S、Al、Ni、Cr、Cu、Mo、As11中元素对钢铁抗拉性能的影响。
一下为实例部分的数据图片以及数据的结构:


简易的傻瓜式操作步骤:
1.首先我们点击分析->回归->线性:

2.确定回归模型中的因变量,与其对应的自变量,并选用逐步法。同时我们前往绘制、选项处观察并修改或开启相关参数和功能。

3.在“绘制”处的功能及参数,我们填入图示参数,选择标准化残差图的直方图和正态概率图。

观察选项中的F概率。

简单分析:
首先我看看因变量与各个自变量的相关性大小。
由图显示,我们可以去掉除C,Si,Cr以外的其他变量,可以看做其他自变量与因变量不存在相关性。

由模型汇总和ANOVA图(方差分析),可以观察到R方值(调整R方:拟合优度0.474)最接近1,且对其标准估计得误差最小(29.819)的是模型三故选择第三种模型作为回归模型。
其因变量:抗拉 自变量:C,Si,Cr

对方差分析图我门可以看到回归、残差与总计的平方和。
F统计量 = 47.518 Sig.(显著性)为0.00,所以可以拒绝原假设: ,可以认为自变量与因变量之间有显著的线性关系。
方差分析图(ANOVA):df(自由度) ,sig.表示显著性水平(significance), F(F统计量),均方即均方误差

到这一步,确定了模型,我们看看每个相关自变量的回归系数:
由此图我们可以确定回归方程: Y代表抗拉性能水平,而X1,X2,X3分别代表C、Si和Cr元素
(这是非标准化系数的回归方程)
在非标准化系数回归方程反映的一般是绝对作用量,但不能直接得出谁对因变量的影响最大,因为不同的自变量之间可能存在单位、量纲不同等差异,是不够直接比较的,而系数标准化后则可以直接进行比较。
如果对系数进行标准化操作,对于标准化回归系数,是对自变量和因变量同时进行标准化处理后所得到的回归系数,这样操作之后可以消除不同量纲,不同数量级等影响,使得两个不同变量之间的相互比较变得更有可比性
观察系数图的标准系数那列数据可以得到回归系数标准化后的回归方程:
(系数标准化后的回归方程更能看出意义)
由上述方程我们可以直观地看出,C元素对钢铁抗拉性能水平的影响最大。各元素对抗拉性能影响水平可以排列为 C > Si > Cr 。

以下是残差相关图表:
关于预测值/估计值,与残差的相关统计量。

残差标准化后,由直方图可以发现其分布与标准正态分布十分接近

该图为P-P图,可以直观发现其图像与直线相近,可以说明标准化残差与标准正态分布契合度较高。
(P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。
如果在绘制中P-P图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。)

该散点图表明,不同抗拉水平所对应的标准化残差大部分落入[-2,2]区间内,只有各别异常值(大约4~5个)不落入该区间,可以说明,标准化残差在[-2,2]区间内随机波动

以上是基于SPSS的多元线性回归以及简单分析。