欢迎光临散文网 会员登陆 & 注册

线性回归的Robustness

2019-12-26 17:36 作者:露保协  | 我要投稿

ANOVA和线性回归的简要总结:

本文主要想考虑一下线性回归的robustness,即outlier和high leverage point对回归结果的影响。

考虑以下问题:x_i都固定,改变某一个y_j,对于预测值\hat{y_j}有何影响?(self-sensitivity or self-influence

从training的y_i到预测的y_i的关系,根据projection matrix给出:

所以

可见这个影响是线性的,并且强度取决于i th leverage h_{ii}。

  • 如果leverage比较小,即时y_i的偏差很大(outlier),对于回归的直线影响不大。

  • 如果leverage很大,就要小心y_i的偏差了。如果偏差不大,无所谓。如果偏差很大,也就是说:既是outlier,也是high leverage point,则影响很大,非常危险。

下面仔细研究一下leverage h_{ii}有什么性质。

性质1: leverage的average。根据(小心Tr中三个矩阵的交换)

所以平均leverage是p/n。

  1. 数据点n越多,越不敏感,因为单个偏差可以由别的正常数据点制约着。

  2. 如果超过2p/n,可以认为是一个high-leverage point,要小心。

性质2:leverage的bound。对于幂等矩阵必然有0\leqslant leverage\leqslant 1。

  1. self-influence一定是正向的。y_i变大,\hat{y}_i不会变小。

  2. self-influence一定是削弱的。y_i变大1,\hat{y}_i顶多变大1,因为有其他不动的数据点制约着。

性质3:leverage的直观含义是距离x_i集中位置的偏差。对于一维回归,可以计算出

几何含义显著。这个结果可以推广到高维,结果中包含了Mahalanobis距离:(要注意这里面的x向量是不包含1的)

当\Sigma矩阵是单位矩阵时,它就是一般的欧式距离(数据点到重心的距离)。现在\Sigma代表estimated covariance matrix,这相当于在PCA的坐标轴下测量的距离:

把它变换到新的坐标就变成

在一维情况下,主轴就是坐标轴,所以形式很简单。二维的时候,主轴和坐标轴偏离了,所以表达形式就比较复杂了。不妨算一下,形式并没有明显的直观含义。但是从PCA的直观来看,我们还是很容易分析出哪些点的leverage比较大。比如下图中红点和绿点,虽然离重心的欧式距离差不多,但从PCA的坐标来看,显然红点的leverage更大。

这个公式很好记。(n-1)来自于estimated covariance[的逆]中的Bessel修正,1/n和一维一样。

下面是数值模拟。生成的数据是:

x=1:10;

x=[x,20];

y=x+randn(1,11);

plot(x,y)

plot(x,y,'o')

这11个点的leverage分别为:0.214617940199336 0.175747508305648 0.144186046511628 0.119933554817276 0.102990033222591 0.0933554817275748 0.0910299003322259 0.0960132890365449 0.108305647840532 0.127906976744186 0.725913621262459,其平均值为0.1818,前10个点都接近于这个平均值,而最后一个点超过0.3636(已经是四倍均值了),归于显著的high leverage point。

黄色线为原数据的回归结果,绿色线为把x=20的y上移5之后回归得到的结果。回归的直线有了很大的偏差。一开始在20点处的预测值为20.1496,后来预测值为23.7792,上升值3.6296的确恰好等于leverage 0.7259*5。和理论相符。线性回归的结果在20这个点上是不robust的。

线性回归的Robustness的评论 (共 条)

分享到微博请遵守国家法律