随机扰动项和残差区别？总体回归函数和样本回归函数区别？以一元回归为例。

2023-02-20 14:53 作者:blZel 0人读过 | 我要投稿

一、问题开始前，我们首先要了解一下何为“回归”。

“回归”一次最早由 F·高尔顿（Francis Galton） 提出，在一篇研究父母与子女身高关系的论文中，他发现虽然有这样一个趋势：个子高的父母子女也会高、个子矮的父母子女也会矮。但是从大数上来看，给定任一父母的身高，孩子真实身高却不一定会满足“父母高孩子高、父母矮孩子矮”的规律，而是趋向于人口总体的平均身高，这种现象叫做“高尔顿普遍回归定律”，这也就是“回归”一词的原本含义。

现在“回归”一词已经演变为一种新的概念，作为动词表示“回归分析”：研究被解释变量对解释变量的依赖关系，目的就是从已经知道的解释变量的值，去推断被解释变量的总体均值。所谓“推断”也即“回归”有很多种方法，常见的就是LS最小二乘法、MLE极大似然估计法等。

二、总体回归函数PRF与随机扰动项 $u_%7Bi%7D%20$

从上面的概念我们已经知道，“回归”相当于给你解释变量（以下用 $x_%7Bi%7D$ 代替），去预测被解释变量（以 $Y_%7Bi%7D$ 代替）的均值或者期望值。那么，我们可以这样表示：

$E(Y%7CX_%7Bi%7D)%3D%5Cbeta_%7B1%7D%2B%5Cbeta_%7B2%7DX_%7Bi%7D$ ......①

这里的 $Y$ 指的就是总体的均值或者期望值，如果 $X_%7Bi%7D$ 表示已知的总体的各个解释变量，那么我们就称式①为“总体回归函数”（Population Regression Function）。注意，这里需要给大家解释清楚：同一个 $X$ 值，可能有很多个 $i$ 体，比如身高为170cm的孩子有很多很多，身高为180cm的孩子也有很多很多，两组不同的身高组，就会形成两个组各自父母身高的均值。

在解释变量给定值的情况下被解释变量（条件）均值或期望值的轨迹，就叫做总体回归线！知道了总体回归函数和总体回归线，那么接下来就可以引入“随机扰动项”的概念了。随机扰动项（以下用 $u_%7Bi%7D$ 来表示）指的是“除了 $X_%7Bi%7D$ 以外影响 $Y_%7Bi%7D$ 的不可观测的可正可负的随机变量”，又叫做“离差”。继续以上面父母与子女身高关系的例子为例，既然我们预测到了不同身高孩子的父母身高各自均值，那么给定一个孩子，其父母真实身高与预测的、本组本应该有的父母的身高均值之间的差距，就用“随机扰动项”来描述。加上随机扰动项后，就得到了总体回归函数的随机形式：

$Y_%7Bi%7D%3DE(Y%7CX_%7Bi%7D)%2Bu_%7Bi%7D%3D%5Cbeta_%7B1%7D%2B%5Cbeta_%7B2%7DX_%7Bi%7D%2Bu_%7Bi%7D$ ......②

这里的 $Y_%7Bi%7D$ 指的是实际的观测值即真实值，等于回归后的均值或者期望值加上随机扰动项 $u_%7Bi%7D%20$ 。现实中有很多原因导致个体的真实值和均值不一样，比如数据问题、模型设置问题、个体随机特点等等，并且从节省原则来思考，我们也希望变量越少越好。所以“随机扰动项”是计量经济学中最重要、也是最有特色的一点，是和数理经济学等学科最本质的区别。所谓“惊喜和恶魔都在随机扰动项里”，处理随机扰动项，是计量经济学最头疼、也最让人乐此不疲的事情。

三、样本回归函数SRF与残差 $e_%7Bi%7D$

我们都知道，获得总体所有的观测值困难重重，所以现实中就寄希望于抽取样本，通过样本做回归，用来估计总体的回归函数。和总体回归函数一样，通过抽取的样本观测值 $X_%7Bi%7D$ 来预测所抽取的该组样本内每一个 $X_%7Bi%7D$ 对应的 $Y_%7Bi%7D$ 的期望值和均值，就得到了样本回归函数（Sample Regression Function），表示为：

$%5Chat%7BY_%7Bi%7D%7D%3D%5Chat%7B%5Cbeta_%7B1%7D%7D%2B%5Chat%7B%5Cbeta_%7B2%7D%7DX_%7Bi%7D$ ......③

这里的 $%5Chat%7BY_%7Bi%7D%7D$ 指的是抽取的这一个样本中每一组不同数值的 $X_%7Bi%7D$ 对应的 $Y_%7Bi%7D$ 的均值，一定要注意，我们可能会抽取很多个样本，每一个样本都能得到一个不一样的样本回归函数！这是理解的关键所在。

然后定义样本回归函数的随机形式：

$Y_%7Bi%7D%3D%5Chat%7B%5Cbeta_%7B1%7D%7D%2B%5Chat%7B%5Cbeta_%7B2%7D%7DX_%7Bi%7D%2Be_%7Bi%7D%3D%5Chat%7BY_%7Bi%7D%7D%2Be_%7Bi%7D$ ......④

这里的 $Y_%7Bi%7D$ 指的是抽取的这一个样本中每一组不同数值的 $X_%7Bi%7D$ 对应的 $Y_%7Bi%7D$ 的观测值（真实值），也是等于回归后的均值加上一个样本中的类似总体的“随机扰动项”“ $u_%7Bi%7D$ ”,只不过这里的" $u_%7Bi%7D%20$ "写作“ $e_%7Bi%7D$ ”，我们叫做“残差”。对于不同的样本，会有不同的“残差”！

四、区分和总结

前面说到，我们希望用样本回归函数来代替总体回归函数，但是可能会有很多次抽样，从而得到不同的样本，每一次抽样都得到一个新的样本回归函数，那么一哪一次为准呢？能不能完全替代总体回归函数（样本回归线和总体回归线完全一致）呢？答案是“只有上帝才知道”，我们几乎不可能完全替代总体回归函数，因为谁也不知道总体回归线的具体真实样子，所以每一次回归都认为是一次正确的替代。样本容量越大，即抽样数量和总体数量之间差距越小，我们的替代就越可能接近真实总体回归函数的样子。

参照式子②和式子④，如果进行“替代”（即认为④中的 $Y_%7Bi%7D$ 已经包括了所有总体值，总体和样本没有容量差距），我们就会发现：此时 $e_%7Bi%7D$ 实际就是【样本回归函数的“随机扰动项”+样本和总体之间容量不一致导致的抽样误差】。

标签：计量经济学随机扰动项和残差区别总体回归和样本回归

随机扰动项和残差区别？总体回归函数和样本回归函数区别？以一元回归为例。

一、问题开始前，我们首先要了解一下何为“回归”。

二、总体回归函数PRF与随机扰动项 $u_%7Bi%7D%20$

三、样本回归函数SRF与残差 $e_%7Bi%7D$

四、区分和总结