【学习笔记】关于计量实证研究中现实情况存在reverse causality的可能的解决方案
趁着大半夜没什么人,偷偷在公开平台发一些奇奇怪怪的东西,希望说不定可以找到懂哥私下教我。不过鉴于课题都需要保密,所以以下会写的非常笼统。只是记录一下在和一个老师讨论的过程中,他给我提供的思路。
其实第一个问题我始终没有得到解答。主要是因为我学术英语确实是不够好,没有能够问清楚这个问题,因此得到了我已经知道的回答。
第一个问题是,关于控制变量在回归模型里的体现。控制变量是为了让面板数据中,可以选择相似的地区进行比较。但是放在整个固定效应回归模型中,我其实是不太理解这个比较是怎么体现出来了。或者说按我的理解,当整个面板在跑的过程中,其实根本就不存在一个比较的过程。
那么单从一个跑回归模型的角度来说,在模型里增加足够多的控制变量,它最大的意义可能就只是在于,从原来的残差项中抽取尽可能多的因变量出来吗?但在这个过程中,选择能够衡量各个地区经济水平的变量,又很有可能带来新的多重共线性的问题,让最后得到的结果无比诡异。按老师的话说,存在multicollinearity得到的结果是不可靠也不能被使用的。即使我听说它的结果在某些情况下还是符合现实情况的?但我不是很确定。但我觉得这是一个必须要回避的问题。
当在宏观层面上,研究产出Y和投入资本K以及投入人力L之间增长的关系的时候,应该有很多课题都存在,由于Y的增加而促进了来年K的增加的情况。reverse causality的问题,严格来说是没有办法仅靠控制变量来解决的。虽然我在一些参考文献里看到有些人只是做到了控制变量这一步。
一个好的工具变量,理论上来说,可以解决这个问题。但是对于如何找到合适的K的工具变量,老师很直白地让我forget it。简而言之,尤其是对于宏观的经济研究,类似投入资本K这类的变量,几乎就是不可能找到合适的工具变量的。
我其实有猜想到这样的答案。因为在过去一两个月里,确实是很难找到合适的变量符合需求。基本上能找到的变量,统计年鉴里都看过去了。而我甚至想象不到K可以有什么样的工具变量。
至于说为什么,我个人猜过去,大概是因为它太宽泛了。没有什么其他东西,和资本的投入具备类似的规模、相近的时间,同时不与残差项有关。即使世界上真的存在这样的变量,大概也是没有人能够将它统计出来的吧。
基本走到这一步,我个人就已经不是很指望一个或者两个大的回归可以解决问题了。但还有三个讨论中提及的细节我觉得我也需要补充一下。
一个是关于模型选择上的。实际上hausman检验的结果告诉我,我的面板应该要跑随机效应的。实际上,本身做hausman就是为了判断到底是fe还是re的选择的,但老师也是很直白地说,不要管这个结果。“No one use random effect”,即使跑出来更适合随机效应,也应该无脑选择fixed effect。
但是具体是选择什么样的固定效应,老师的意见是说,我其实不应该选用two-way fixed effect。因为他的意大利口音确实是有点重,感觉还带点大舌头,我粗略听懂的意思是,时间上存在固定效应是合理的。但是空间之间,地区之间的差异,这个在绝大多数情况下是随机的。比如说意大利北部米兰都灵等等地方和南部之间的差异,基本上是不可能有fixed effect的。
第二个是我的模型可能需要考虑spillover问题。大概是指相邻地区,相对贫穷的地区会受到接壤的富裕地区增加的K的影响。但为了证实这样的影响,需要进一步收集各个相邻地区的临近的县市的经济数据,在一定的时间长度上去研究了。这个现象几乎是必然存在的,而且坦白来说,我个人感觉在我的研究课题中影响还不小,但是要在很长的时间跨度上做到这样的研究,基本是不可能的。根本没有那么多详尽的数据可以被使用。
第三个问题也很难办,在于说投入的K与产出的Y之间的滞后。在某些情况下,今年增加的投入并不能直接带来今年产出的提高。而这一滞后可能会在两三年甚至四五年后。这一方面究竟有多少人做过研究,我还没有看过。其实这个也并不是不好算出来。但目前我能整理到的有效数据只在15年左右,假设这其间的滞后在五六年,甚至十年,那基本上是不要跑了。而这个滞后的量,也是必然存在地区性差异的。
至于说进一步的解决方案,就是difference in differences了。通过研究目前整理的各个地区的数据,对他们进行分组,而后再进行比对。这一点我比较犹豫的就是,因为试点制度的存在,一些地区所采用的好的政策,会在未来一两年内在所有地区推行。实际上能否找到合适的样本来进行这样的研究,尤其是还要考虑到控制样本之间尽可能相似或者说接近,那么这个办法很可能也是走不通的。
倒也还是有更进阶的解决方案,但变态的是,受限于我目前的知识水平,再接下来的一种方法,我甚至没有听懂叫什么名字。我大概理解出来的意思是,我需要自己想象一些虚拟的地区出来,基于现实数据去尽可能准确地计算出它的情况。那么我就可以利用这个自己设计的,但是是基于现实情况设计的地区,和现实中的地区去比较。看现实中这样的地区变化了资本投入之后,和不变化的虚拟的地区之间形成的差距。
不过绕来绕去,即使是最后的方法,也并不能够解决互为因果的问题。这个问题本身就不好解决。产出和资本投入有太多的影响因素了,但缩小了范围又很容易找不到需要的数据。这确实是一个非常两难的问题。而经济也是错综复杂的。如果模型真的很容易在现实社会里摸出一条脉络来,生活也没那么有意思了。
至于说对于最终研究结果的预测,我个人现在非常怀疑,有可能增加投入对于产出是没有任何影响的。或者这个影响微乎其微,几乎没有办法被观测到。即使最后算出来是一个积极的结果,但也很有可能我们已经知道这个结果了。为什么这么说呢?因为本身很多东西背后是有定目标的。比如每年希望某些指标有所增长,并且制定了一个一定要增长到的目标。大家经过努力,终于是差不多达成了这个目标,这一年也就过去了。最后每一年的增长和当初设定的目标不相上下。如果最后跑出来的结果是像这样的,那也真就没啥意思了。
这个专栏单纯是碎碎念,记录一个老师在课后与我聊天给我研究上的启发。如果你不是相关专业的还能看到这里,那我真的不得不说,你是真的牛逼。