随机扰动项和残差区别?总体回归函数和样本回归函数区别?以一元回归为例。

一、问题开始前,我们首先要了解一下何为“回归”。
“回归”一次最早由 F·高尔顿(Francis Galton) 提出,在一篇研究父母与子女身高关系的论文中,他发现虽然有这样一个趋势:个子高的父母子女也会高、个子矮的父母子女也会矮。但是从大数上来看,给定任一父母的身高,孩子真实身高却不一定会满足“父母高孩子高、父母矮孩子矮”的规律,而是趋向于人口总体的平均身高,这种现象叫做“高尔顿普遍回归定律”,这也就是“回归”一词的原本含义。
现在“回归”一词已经演变为一种新的概念,作为动词表示“回归分析”:研究被解释变量对解释变量的依赖关系,目的就是从已经知道的解释变量的值,去推断被解释变量的总体均值。所谓“推断”也即“回归”有很多种方法,常见的就是LS最小二乘法、MLE极大似然估计法等。

二、总体回归函数PRF与随机扰动项
从上面的概念我们已经知道,“回归”相当于给你解释变量(以下用代替),去预测被解释变量(以
代替)的均值或者期望值。那么,我们可以这样表示:
......①
这里的指的就是总体的均值或者期望值,如果
表示已知的总体的各个解释变量,那么我们就称式①为“总体回归函数”(Population Regression Function)。注意,这里需要给大家解释清楚:同一个
值,可能有很多个
体,比如身高为170cm的孩子有很多很多,身高为180cm的孩子也有很多很多,两组不同的身高组,就会形成两个组各自父母身高的均值。

在解释变量给定值的情况下被解释变量(条件)均值或期望值的轨迹,就叫做总体回归线!知道了总体回归函数和总体回归线,那么接下来就可以引入“随机扰动项”的概念了。随机扰动项(以下用来表示)指的是“除了
以外影响
的不可观测的可正可负的随机变量”,又叫做“离差”。继续以上面父母与子女身高关系的例子为例,既然我们预测到了不同身高孩子的父母身高各自均值,那么给定一个孩子,其父母真实身高与预测的、本组本应该有的父母的身高均值之间的差距,就用“随机扰动项”来描述。加上随机扰动项后,就得到了总体回归函数的随机形式:
......②
这里的指的是实际的观测值即真实值,等于回归后的均值或者期望值加上随机扰动项
。现实中有很多原因导致个体的真实值和均值不一样,比如数据问题、模型设置问题、个体随机特点等等,并且从节省原则来思考,我们也希望变量越少越好。所以“随机扰动项”是计量经济学中最重要、也是最有特色的一点,是和数理经济学等学科最本质的区别。所谓“惊喜和恶魔都在随机扰动项里”,处理随机扰动项,是计量经济学最头疼、也最让人乐此不疲的事情。

三、样本回归函数SRF与残差
我们都知道,获得总体所有的观测值困难重重,所以现实中就寄希望于抽取样本,通过样本做回归,用来估计总体的回归函数。和总体回归函数一样,通过抽取的样本观测值来预测所抽取的该组样本内每一个
对应的
的期望值和均值,就得到了样本回归函数(Sample Regression Function),表示为:
......③
这里的指的是抽取的这一个样本中每一组不同数值的
对应的
的均值,一定要注意,我们可能会抽取很多个样本,每一个样本都能得到一个不一样的样本回归函数!这是理解的关键所在。

然后定义样本回归函数的随机形式:
......④
这里的指的是抽取的这一个样本中每一组不同数值的
对应的
的观测值(真实值),也是等于回归后的均值加上一个样本中的类似总体的“随机扰动项”“
”,只不过这里的"
"写作“
”,我们叫做“残差”。对于不同的样本,会有不同的“残差”!

四、区分和总结
前面说到,我们希望用样本回归函数来代替总体回归函数,但是可能会有很多次抽样,从而得到不同的样本,每一次抽样都得到一个新的样本回归函数,那么一哪一次为准呢?能不能完全替代总体回归函数(样本回归线和总体回归线完全一致)呢?答案是“只有上帝才知道”,我们几乎不可能完全替代总体回归函数,因为谁也不知道总体回归线的具体真实样子,所以每一次回归都认为是一次正确的替代。样本容量越大,即抽样数量和总体数量之间差距越小,我们的替代就越可能接近真实总体回归函数的样子。
参照式子②和式子④,如果进行“替代”(即认为④中的已经包括了所有总体值,总体和样本没有容量差距),我们就会发现:此时
实际就是【样本回归函数的“随机扰动项”+样本和总体之间容量不一致导致的抽样误差】。
