线性模型 - Linear Model

一、简单线性模型

根据intercept和income第一列的值写出公式
F检测越大、P越小,模型越合适。
二、标准化系数和多重共线性
(一)为什么要标准化系数
消除量纲和数量级之间的差异以便于比较不同变量。
x标准化
(二)多重共线性与交互项
多重共线性:不同变量之间的相关性。
交互项:x1对y的作用还受到x2对y的影响。
(三)多重共线性的诊断
1.方差扩大因子VIF>10,存在多重共线性。
2.相关矩阵,相关系数越高,越可能存在。
(四)补救
1.删除x2。
2.把x1和x2合并为一个变量。
3.PCA
4.LASSO Ridge regression
三、四个假设
1.Linearity
2.Homosexuality同方差性与异方差性
3.independence残差之间独立
4.normality
check
1.看图
pattern(抛物线)+funnel shape
Q-Q point 45度线
2.formal tests
异方差:Hartley test BF test
independence:Durbin-Watson test
outliers:Shapiro-Wilk test
四、多项式回归
x的变化(平方项、立方项)
平方项:抛物线、倒U
立方项:两个驼峰
交互项:两个x
五、数据变换

(一)为什么要转换
Y:同方差+Y左偏或右偏
X:不是全部的x与y都有线性关系+处理leverage values or outliers
(二)如何转换

- Box Cox transformation



六、加权最小二乘
(一)是什么

(二)为什么使用
异方差存在,方差大的项给小权重,方差小的给大权重破。
(三)BLUE
七、异常值和离群值
(一)是什么
异常值:残差大
离群值:影响回归

(二)影响
(三)诊断方法

标准化残差:估计每个点的误差。
学生化残差:去掉异常值。
(四)The LTS estimator
(五)Outlier direction
- 用LTS画图
- 假设检验
- Outlier map

注意:不要删掉点