互助问答第140期：关于多重共线性的问题

2020-05-13 21:59 作者:学术苑 0人读过 | 我要投稿

尊敬的老师：

您好！

面板数据，模型中原有自变量x1和x2，引入交互项x1x2后（模型为y = a1x1+ a2x2+ a3x1x2，其中a1、a2、a3为自变量的系数）：

（1）面板数据，在进行随机效应的计量后，首先进行多重共线性检验，若x2和x1x2的vif值大于10而x1的vif值小于10，则只对x2和交互项x1x2进行第（2）步去中心化的处理？x1不去中心化，保留原值即可？

（2）x2和x1x2的vif值大于10时，解决办法是令x2*=x2 –( x2的均值)，然后将模型改为y = a1x1+ a2x2* + a3x1x2*，是这样构造模型以解决多重共线性的问题，对么？

（3）如果（2）的思路是正确的，当遇到自变量是lnx1、lnx2和lnx1lnx2时，若需要对自变量进行上述（2）的操作，是令x2*=lnx2 –(lnx2的均值)，然后将模型改为y = a1lnx1 + a2x2* + a3(lnx1)x2*吗？即重点是令x*=lnx –(lnx的均值)，而不是令x*=ln(x-(x的均值))，我的理解是正确的吧？

（4）我看到有的说去中心化是令新变量x*=(x – x的均值)/x的标准差，有的则只是令新变量x*=x – x的均值，请问哪种去中心化是正确的？以及对应的去中心化后生成新变量的stata命令是什么？

还有一个问题是：

（5）比如我的模型是y = a1x1+ a2x2+ a3x3 + a4x1x2+a5x1x3，其中a为自变量的系数。我发现如果只构造模型y = a1x1+ a2x2+ a3x3时，a1不显著，a2、a3显著，那么加入交互项时，能将模型写成这样的形式么：y = a2x2+ a3x3 + a4x1x2+a5x1x3，即构成交互项的元素必须都作为解释变量出现在模型中么？还是像我举得这个例子一样，可以去掉x1这个低次项?

感谢老师的解答，谢谢您！

五个问题本质上涉及三个问题：1、多重共线性；2、变量的标准化；3、对于系数不显著的变量的处理。下面依次说明。

首先，多重共线性只是一个现象，而不是问题。多重共线性并不能说明模型存在任何错误，所以不必然进行处理。如果依据理论，你应当控制一些变量且相应度量是准确的，即便存在多重共线性，也应当控制这些变量——毕竟遗漏重要变量的后果比多重共线性严重得多。其次，所谓去中心化或标准化更多是为了系数解释的需要。例如，自变量减去自己均值后，其系数就可解释为该自变量围绕均值变动时对因变量的影响；自变量减去均值后除以标准差（也即标准化），其系数含义就变为自变量围绕均值变动一个标准差时，对因变量的影响。如果想把变量之间关系刻画为标准差的变化，则可以在 reg 命令后加入 beta 选项。最后，一个模型应当包括哪些变量、不应当包括哪些变量，取决于理论，而不能依据事后其系数是否显著。

往期回顾：

互助问答第139期：对数型变量作为交互项的适用性

互助问答第138期：系统GMM命令代码中如何识别年份国家及异方差检验问题

互助问答第137期：差分后再回归(FD)的截距问题

互助问答第136期：关于工具变量的问题

如果您在计量学习和实证研究中遇到问题，请及时发到邮箱szlw58@126.com，专业委员会有30多名编辑都会看，您的问题会得到及时关注！请您将问题描述清楚，任何有助于把问题描述清楚的细节都能使我们更方便地回答您的问题，提问细则参见：实证研究互助平台最新通知（点击文末阅读原文查看详情）

如果您想成为问题解答者，在帮助他人过程中巩固自己的知识，请发邮件至szlw58@126.com（优先）或给本公众号留言或加微信793481976给群主留言，我们诚挚欢迎热心的学者和学生。具体招募信息请参见：实证研究互助平台志愿者团队招募公告

鲜活的事例更有助于提高您的研究水平，呆板的教科书让人生厌。如果您喜欢，请提出您的问题，也请转发推广！

（欢迎转发，欢迎分享；转载请注明出处，引用和合作请留言。本文作者拥有所有版权，原创文章最早发表于“学术苑”。任何侵权行为将面临追责！）

学术指导：张晓峒老师

本期解答人：中关村大街

统筹：易仰楠

编辑：孙婷婷

技术：林毅

标签：

互助问答第140期：关于多重共线性的问题

互助问答第140期：关于多重共线性的问题的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

互助问答第140期：关于多重共线性的问题

本文作者的其他文章

互助问答第140期：关于多重共线性的问题的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

互助问答第140期：关于多重共线性的问题的评论 (共条)