第十一章 二值选择模型
11.3 泰坦尼克号在施救时奉行的政策是“妇女儿童优先”(women and children first)。此政策是否得到彻底执行?具体来说,三等舱的妇女或儿童的存活概率是否高于一等舱的男子?
根据数据集中的定义,妇女(female)包括女童(female & child)和成年女性(female & !child),儿童(child)包括女童和男童(!female & child),男子(!female)包括男童和成年男子(!female & !child),所以要分别进行预测和比较。

三等舱中男童、女童和成年女性的生存概率的预测值分别如下。

一等舱中的男童和成年男性的生存概率的预测值分别如下。

因此生存概率:三等舱女童>一等舱男童>三等舱成年女性>一等舱成年男性>三等舱男童。如果要将“三等舱的妇女或儿童”和“一等舱的男子”分别作为整体看待,可以按人数对生存概率加权平均后再进行比较。总体来说可以认为在援救中做到了“妇女儿童优先”。
11.4 使用数据集 loanapp.dta 考察美国的按揭贷款(mortgage loan)是否存在种族歧视。如果申请人的按揭贷款获批,则被解释变量 approve 取值为 1;反之approve 取值为0。主要解释变量为white(是否白人)。数据集中的其他种族为 black(是否黑人)与 hispan(是否拉丁裔)。本题统一使用稳健标准误。
(1)线性方程和变量均显著,边际效应即为white的回归系数0.2。

(2)首先,最大的区别是Probit模型不是线性的,而LPM是线性的;
其次,Probit的回归结果没有具体的方程,而LPM可以给出具体方程;
最后,Probit的回归系数没有经济含义,而LPM的回归系数有经济含义。

(3)通过LPM可以认为,在其他条件不变的情况下,白人获得按揭贷款的概率显著高于其他人种约20%;在非线性模型中,估计量βhat一般并非边际效应,需要计算平均边际效应。

在Probit模型中,解释变量white同样显著,效应与LPM中国相差不大。综上可以认为美国发放按揭贷款中存在种族歧视现象。
(4)加入控制变量后,可以发现解释变量white依然非常显著。

计算平均边际效应后发现人种是否为白人对发放按揭贷款的效应有所下降,但白人与非白人取得按揭贷款的概率仍存在显著的差异,因此可以认为存在种族歧视现象。

(5)先进行Logit回归。

由于变量较多,这里使用上一章提到的esttab命令比较显著性。可以发现,解释变量white仍以1%的显著性水平显著,解释变量unem的显著性从5%提高到1%,其他变量的显著性均没有变化。

(6)通过观察几率比(Odds Ratio)可以发现,在其他变量不变的情况下,白人申请贷款的几率比是非白人的2.55倍。

11.5 Chen(2015)研究中原王朝被游牧民族征服的概率,以每十年为观测单位建立公元前221年至1911年的时间序列。数据集nomadic_conquest.dta 的被解释变量为conquered(中原朝是否被征服)。主要解释变量包括:diff(中原王朝早于游牧政权建立的年数),age(中原王朝的绝对年龄),wall(中原是否在长城的有效保护之下),以及 drought1(中国北方在十年中发生旱灾的年数比例的一阶滞后)。另外,时间变量为 decade(十年)。
(1)使用OLS得到的LPM回归模型如下。在10%的显著性水平下,方程整体不显著(p=10.28%,或者说勉强显著)。

(2)方程整体非常显著;解释变量diff,age,drought1以1%的显著性水平显著,wall以10%的显著性水平显著;从经济意义上看,基本可以确定的是,干旱的年份越少,中原王朝被征服的概率就应该越低,同时具有长城保护会进一步降低被征服的可能,因此drought1和wall的符号都是合理的;但解释变量diff和age的经济意义在缺乏具体理论的情况下难以判断:以age为例,一方面,在一个朝代建立的前期和中期,其国家实力随着时间不断增强,因此其被征服的可能是与存在时间负相关的;另一方面,朝代进入晚期国家状况不断恶化,被征服的可能和存在时间转为正相关,故难以判断其符号是否合理。

非线性回归的回归系数反映的不是边际效应,其含义需要通过几率比来解释。离散变量和连续变量的odd ratios解释略有不同。
连续变量diff:在其他条件不变的情况下,中原王朝每早比游牧王朝建立一年,其被征服的几率比p/(1-p)就平均提高3.94%。
离散变量wall:在其他条件不变的情况下,有长城的中原王朝被征服的几率比平均是没长城的中原王朝的8.3%,或者说,有长城的中原王朝被征服的几率比相较没长城的中原王朝平均低91.7%

(3)平均边际效应如下,除age外整体与LPM中的回归系数差异不大。

(4)diff的效应在(2)中已经进行了解释,drought1同理。
(5)表中D表示“conquered!=0”,即被解释变量真实值是“被征服”,~D表示“未被征服”;+表示某样本的预测值是“被征服”,-表示“未被征服”,以概率值0.5划分。因此Classified表中+D和-~D是代表预测正确,+~D和-D代表预测错误。
直观上看,最下方预测正确的百分比为96.23%,非常准确。但这个212的样本中只有7个是被征服的,才占样本的3.3,剩下205个全是未被征服的,并且7个被征服的样本全预测错了,错误率100%,所以个人认为这个模型不太合理。

(6)使用如下命令观察时间序列折线图。xsize()和ysize()用于指定坐标轴宽度,避免图形过于紧凑;yline(0.5)是绘制一条yhat=0.5的直线,用于区分预测值;xlabel()指定了坐标轴的最大最小值以及刻度间隔。通过该图同样可以发现(5)小问提到的问题,红色曲线的高点代表D=1,即被征服,但所有对应预测值均小于0.5,预测为未被征服。


(6)Probit

下面的Note可以忽略,如果想研究可以参考:
Stata | FAQ: Explanation of completely determined message
https://www.stata.com/support/faqs/statistics/completely-determined-in-logistic-regression/
(8)数值和显著性与Logit差别都不大。

(9)所有预测值都是conquered=0,没有太多改进。

补充:标准正态分布、logit、t(3)的概率密度(PDF)和分布函数(CDF)形状的比较



仅供参考,如有问题请在评论区反馈。