第九章 模型设定与数据问题
9.1、9.2是练习题,9.3~9.5是Stata编程题。本章有一些问题不确定,在题号前用*标注出来了,如果有疑问请在评论区提出,感谢。
9.1* …在使用样本数据估计回归方程y=α+βx+ε时,如果怀疑x对y的作用还依赖于另一变量z,应该如何检验此依赖性?
原方程回归方程:y=α+βx+ε;
参考RESET检验的思想,构造辅助回归:y=α+βx+θx*z + ε,并检验H0:θ=0;
若结果不显著,认为x对y的作用不依赖于z;
若结果显著,认为x对y的作用依赖于z。
9.2 …在lnQ的样本均值处,应该如何检验成本的产出弹性(elasticity ofcost with respect to output)为1的原假设?
原方程
其中C=C(Q),双侧对Q求导:
由弹性定义可知:
对求导后的方程左右同时乘以Q得:
对于任意给定的样本Q,lnQ的均值为一常数(记作k),从而仅需验证:
构造似然比检验的F统计量:
其中线性约束个数m=1,变量个数K=3(、、常数项),样本数n,SSR为
的残差平方和,SSR*为
的残差平方和。通过比较F统计量和其临界值,判断是否成立。
9.3 使用数据集nerlove.dta ,估计以下模型…
(1)回归结果如下。

(2)方差膨胀因子VIF选小于10,认为不存在多重共线性。

(3)利用拟合值(default)和解释变量(rhs)进行RESET检验,结果均显著,均认为遗漏了高阶非线性项。

(4)回归结果如下。

(5*)再次利用拟合值和解释变量(rhs)进行RESET检验。拟合值的检验结果不再显著;但解释变量的检验结果依然显著。
(使用拟合值和解释变量进行RESET检验的两种方法有何差别?应当如何解释?)

(6)存在显著的多重共线性。

(7*)个人认为两个结果都不是很合理。前者存在遗漏非线性项的问题,而后者存在多重共线性。考虑解决后者的多重共线性问题。首先对lnq进行标准化得标准化变量lnqd,进一步得到其平方项lnqd2,重新进行回归。

此时可以看出lnqd和lnqd2的回顾系数都非常显著,原回归方程中只有lnqd显著。再次求VIF,发现多重共线性问题得以解决。

因此可以认为这个模型同时解决了多重共线性和遗漏非线性项问题,优于前面两个模型。
9.4 使用数据集Growth.dta考察贸易与增长的关系。该数据集的被解释变量65个国家1960-1995年的平均增长率(growth),而主要解释变量为1960-1995年的平均贸易开放度(tradeshare)。
(1)从散点图上看具有一定的线性关系,但不是非常明显。

(2)先按照growth降序排列,Malta的坐标为(1.99,6.65),在上面的散点图中已经标注出来。直观上看,Malta虽然距离回归方程不远,但它的贸易开放度很高,偏离tradeshare均值过多,考虑是极端数据。

或者直接使用list命令筛选

(3)回归结果如下,斜率和截距项的估计值分别为2.31和0.64。

(4)分别计算lev后,可得lev均值为0.03。将lev降序排序,并输出前10位,可以发现第2~10个国家超过lev均值并不多,而第一位的Malta的lev值超过均值13倍,可以确定属于极端值。


(5)使用drop命令剔除Malta,提示一个观测值已删除,再次进行回归。


虽然剔除极端数据后,方程在5%显著性水平下不显著了,但是考虑到一方面,还存在其他解释变量,仅使用一个解释变量回归不显著说明不了问题;另一方面,重新绘制的散点图和线性拟合图变的更合理了。

(6)查找资料:
马耳他,是位于南欧、地中海中心的迷你岛国,近邻意大利和突尼斯,国土面积316km²。由位于地中海中心的群岛组成,总人口约48万,有着”骑士之国“的美誉。作为地中海心脏,马耳他是理想的物流枢纽,天然良港便于货物进出口,基础设施完善,便于高端制造业和投资行业聚集。除此之外,马耳他四位一体的身份也让其吸引了一大批投资者。
马耳他是欧盟成员国、申根成员国、欧元区国家和英联邦成员国,四重身份加持,让工作、生活、求学、经商变得无往不利。而且马耳他是非全球征税国家,对本国非税务居民,马耳他政府仅就该居民在马耳他产生的收入征收个税。大多数情况下,投资人仍将被视为非税务居民。马耳他无不动产税、无净财富税、无遗产税与赠予税。在马耳他运营的公司还可以享受马耳他税收福利以及欧盟关税补贴等。
综上,马耳他人口和国土规模小,地理位置和政策特殊,不具有代表性,应该剔除。
(7)回归结果如下。

①回归方程整体在1%的显著性水平下显著,但R2不到30%,模型的解释能力比较差;
②以***、**、*分别表示在1%、5%、10%的水平上显著,则:
tradeshare,assassinations,rev_coups*,rgdp60***,yearsschool***;
③经济意义不解释了,没有单位。
(8*)个人认为,rgdp60和yearsschool是控制变量,仅需关注基期时的差异,而不需要关注二者在时期内的变化;而tradeshare,assassinations和rev_coups*是解释变量,所以需要考察时期内的变化(取平均值)。
9.5 美国的汽油需求函数是否稳定?使用数据集gasoline.dta,估计美国1953—2004年的汽油需求函数…
(1)使用以下两种等价命令绘制将lgasp和lgasq的时间趋势图画在一起。这样看lgasq基本没有结构变化。


但是注意到两个数据正负相反,画在一起会压缩Y轴导致变动不明显。下面单独考察lgasq的时间趋势图,发现在1975年左右,前后的斜率出现了比较明显的变化,因此石油需求函数是可能存在结构变动的,需要进一步检验。


(2)回归结果如下所示。

(3)分别使用拟合值和拟合变量进行BP检验均不显著,认为不存在异方差。

但是在5%的显著性水平下未通过怀特检验,结合两种检验的结果,认为可能是扰动项条件方差与解释变量存在非线性相关,因此存在异方差。

(4)一阶二阶的BG检验、Davidson-MacKinnon改进的BG检验结果均不显著,认为不存在自相关。


两种Q检验方法同样均不显著。综上认为不存在自相关,这和习题8.3的结论是相同的。


(5*)通过(3)、(4)两问可以认为该模型存在异方差,不存在自相关,因此传统的邹检验不成立,需使用虚拟变量法检验是否存在结构变动,根据原理构造辅助回归
并检验
其中虚拟变量
下面使用Stata实现
首先构造虚拟变量和各互动项,并进行回归。注意到存在异方差,应当使用稳健标准误:


然后联合检验d和各互动项回归系数是否显著,即H0是否成立:

F统计量P值接近于0,强烈拒绝原假设,认为存在1974年以后存在结构变动。至此本题已经完成了。
个人的两个问题:
①验证存在结构变动后,是否应该分1974年前后两个子样本回归得lgasq的分段函数?
②如果在子样本的回归方程中,各自均有解释变量不显著,且剔除后对方程线性关系影响不大,是否可以剔除?这种操作会使两方程的回归系数和解释变量的构成均发生变化,是否还属于“结构变动”的范畴?
具体来说,两个子样本回归:


以后者为例,剔除不显著的解释变量lpuc和lpnc后,R2仍然在96%以上,说明解释能力没有下降,F统计量值反而上升了,其他回归系数依然显著,看起来没什么问题。但lpnc在前者中是显著的,所以不能剔除,这样两个方程中解释变量的构成就产生了差异。

仅供参考,有错误请在评论区反馈。