欢迎光临散文网 会员登陆 & 注册

随机扰动项和残差区别?总体回归函数和样本回归函数区别?以一元回归为例。

2023-02-20 14:53 作者:blZel  | 我要投稿

一、问题开始前,我们首先要了解一下何为“回归”。

    “回归”一次最早由 F·高尔顿(Francis Galton) 提出,在一篇研究父母与子女身高关系的论文中,他发现虽然有这样一个趋势:个子高的父母子女也会高、个子矮的父母子女也会矮。但是从大数上来看,给定任一父母的身高,孩子真实身高不一定会满足“父母高孩子高、父母矮孩子矮”的规律,而是趋向于人口总体的平均身高这种现象叫做“高尔顿普遍回归定律”,这也就是“回归”一词的原本含义。

    现在“回归”一词已经演变为一种新的概念,作为动词表示“回归分析”:研究被解释变量对解释变量的依赖关系,目的就是从已经知道的解释变量的值,去推断被解释变量的总体均值。所谓“推断”也即“回归”有很多种方法,常见的就是LS最小二乘法、MLE极大似然估计法等。

二、总体回归函数PRF与随机扰动项u_%7Bi%7D%20

    从上面的概念我们已经知道,“回归”相当于给你解释变量(以下用x_%7Bi%7D代替),去预测被解释变量(以Y_%7Bi%7D代替)的均值或者期望值。那么,我们可以这样表示:

E(Y%7CX_%7Bi%7D)%3D%5Cbeta_%7B1%7D%2B%5Cbeta_%7B2%7DX_%7Bi%7D......①

    这里的Y指的就是总体的均值或者期望值,如果X_%7Bi%7D表示已知的总体的各个解释变量,那么我们就称式“总体回归函数”(Population Regression Function)注意,这里需要给大家解释清楚:同一个X值,可能有很多个i体,比如身高为170cm的孩子有很多很多,身高为180cm的孩子也有很多很多,两组不同的身高组,就会形成两个组各自父母身高的均值。

总体回归线

    在解释变量给定值的情况下被解释变量(条件)均值或期望值的轨迹,就叫做总体回归线!知道了总体回归函数和总体回归线,那么接下来就可以引入“随机扰动项”的概念了。随机扰动项(以下用u_%7Bi%7D来表示)指的是“除了X_%7Bi%7D以外影响Y_%7Bi%7D不可观测可正可负随机变量”,又叫做“离差”。继续以上面父母与子女身高关系的例子为例,既然我们预测到了不同身高孩子的父母身高各自均值,那么给定一个孩子,其父母真实身高与预测的、本组本应该有的父母的身高均值之间的差距,就用“随机扰动项”来描述。加上随机扰动项后,就得到了总体回归函数的随机形式

Y_%7Bi%7D%3DE(Y%7CX_%7Bi%7D)%2Bu_%7Bi%7D%3D%5Cbeta_%7B1%7D%2B%5Cbeta_%7B2%7DX_%7Bi%7D%2Bu_%7Bi%7D......②

    这里的Y_%7Bi%7D指的是实际的观测值即真实值,等于回归后的均值或者期望值加上随机扰动项u_%7Bi%7D%20。现实中有很多原因导致个体的真实值和均值不一样,比如数据问题模型设置问题个体随机特点等等,并且从节省原则来思考,我们也希望变量越少越好。所以“随机扰动项”是计量经济学中最重要、也是最有特色的一点,是和数理经济学等学科最本质的区别。所谓“惊喜和恶魔都在随机扰动项里”,处理随机扰动项,是计量经济学最头疼、也最让人乐此不疲的事情。

三、样本回归函数SRF与残差e_%7Bi%7D

    我们都知道,获得总体所有的观测值困难重重,所以现实中就寄希望于抽取样本,通过样本做回归,用来估计总体的回归函数。和总体回归函数一样,通过抽取的样本观测值X_%7Bi%7D来预测所抽取的该组样本内每一个X_%7Bi%7D对应的Y_%7Bi%7D的期望值和均值,就得到了样本回归函数(Sample Regression Function),表示为:

%5Chat%7BY_%7Bi%7D%7D%3D%5Chat%7B%5Cbeta_%7B1%7D%7D%2B%5Chat%7B%5Cbeta_%7B2%7D%7DX_%7Bi%7D......③

    这里的%5Chat%7BY_%7Bi%7D%7D指的是抽取的这一个样本中每一组不同数值的X_%7Bi%7D对应的Y_%7Bi%7D的均值,一定要注意,我们可能会抽取很多个样本,每一个样本都能得到一个不一样的样本回归函数!这是理解的关键所在。

样本回归线

    然后定义样本回归函数的随机形式

Y_%7Bi%7D%3D%5Chat%7B%5Cbeta_%7B1%7D%7D%2B%5Chat%7B%5Cbeta_%7B2%7D%7DX_%7Bi%7D%2Be_%7Bi%7D%3D%5Chat%7BY_%7Bi%7D%7D%2Be_%7Bi%7D......④

    这里的Y_%7Bi%7D指的是抽取的这一个样本中每一组不同数值的X_%7Bi%7D对应的Y_%7Bi%7D观测值(真实值),也是等于回归后的均值加上一个样本中的类似总体的“随机扰动项”u_%7Bi%7D”,只不过这里的"u_%7Bi%7D%20"写作“e_%7Bi%7D”,我们叫做“残差”对于不同的样本,会有不同的“残差”!

四、区分和总结

    前面说到,我们希望用样本回归函数来代替总体回归函数,但是可能会有很多次抽样,从而得到不同的样本,每一次抽样都得到一个新的样本回归函数,那么一哪一次为准呢?能不能完全替代总体回归函数(样本回归线和总体回归线完全一致)呢?答案是“只有上帝才知道”,我们几乎不可能完全替代总体回归函数,因为谁也不知道总体回归线的具体真实样子,所以每一次回归都认为是一次正确的替代样本容量越大,即抽样数量和总体数量之间差距越小,我们的替代就越可能接近真实总体回归函数的样子。

    参照式子和式子,如果进行“替代”(即认为中的Y_%7Bi%7D已经包括了所有总体值,总体和样本没有容量差距),我们就会发现:此时e_%7Bi%7D实际就是【样本回归函数的“随机扰动项”+样本和总体之间容量不一致导致的抽样误差】


随机扰动项和残差区别?总体回归函数和样本回归函数区别?以一元回归为例。的评论 (共 条)

分享到微博请遵守国家法律