logistic回归分析11.6(读书笔记、个人)
一、 目的和描述
1、目的:1)预测变量是否会影响到结果变量;2)基于logistic模型建立结果变量的分类系统。
2、描述:(处理因变量为二分变量的问题)
不直接对而二分变量进行分析,而将其转换到logit尺度,引入发生比的概念,在对发生比取自然对数(ln),并将其作为因变量
3、优势
1)预测变量可以是连续变量、分类变量等
2)适用于自变量对因变量的影响收益递减或者非线性的情况。(如,500元折扣是否会影响顾客对5000元商品购买决策。结果发现对收入极低或极高的顾客,不会产生太大影响,而对于中等收入的影响较大)
3、可扩展为多元logistic回归,针对因变量为多分类情况
二、 回答的问题
1、能否更具一系列预测变量来预测个案在结果变量上的类别
2、各预测变量的预测效果如何
3、预测变量之间是否存在交互左右
4、个案的分类结果是否准确
5、预测变量的效应值多大(即预测变量能在多大程度上解释结果变量的差异)
三、 前提假设和模型
(一)模型假设
1、假定连续预测变量与经过Logit转换后的结果变量之间存在线性关系
2、结果变量是二分变量(可以更具研究需要把连续变量划为二分,如成绩合格不合格)
预测变量可以是连续变量或者离散变量(没有特定的要求),对于二分、分类变量常采用虚拟编码来表示类别。
3、要求数据资料满足每次观测相互独立、残差均值为o,模型的残差应当服从二项分布。
(二)回归模型
1、logit转换:事件发生比odds=p/1-p,(反映事件发生相对于不发生的相对优势),然后对这个发生比取自然对数 log odds,即p的logit值。可以发现,当发生吧小于1,对应的logit值为负,大于1,logit为正。
2、模型表达方式(p88)
Logistic回归方程的系数是自变量对连续变量logit(p)的作用,而不是对离散结果变量的作用。
3、曲线
二分结果变量中,事件发生概率在0-1间,用s形曲线表示预测、结果变量关系。
Logistic曲线:横坐标表示预测变量水平;纵坐标为发生概率(0-1),但结果变量只取0或者1.(以0.5为截点,大于的赋值为1即发生,小于的0,即未发生。
4、回归系数的解释
1)、回归系数显著性:
对回归系数进行统计检验,判断是否显著不等于零。
回归系数不显著,表示预测变量不会影响到事件的发生比(或者发生的概率)。
用wald统计量检验(多元线性回归用t检验)检验回归系数。
W=(B/SE)平方(B为回归系数,w服从卡方分布,w越大,预测变量作用越显著)
2)、预测变量为连续变量,回归系数解释
Exp(B):回归系数的幂值。(也叫优势比:新的发生比与原来发生比的比值)
回归系数符号表示预测变量影响方向:为正,预测变量值越高,预测的概率越高;为负,预测变量越高,发生概率降低。
对于exp:等于1,表示回归系数为0,不影响。
大于1,表示回归系数为正
小于1,表示回归系数为负
回归系数的大小表示预测变量影响结果变量的程度。
B=1.5,表示预测变量提高一个单位,结果变量的对数提高1.5各单位(意义含糊)
若exp(B)=1.5,表示预测变量每提高一个单位,对应发生比是原来的1.5倍(提高了0.5倍)
3)、预测变量为虚拟变量,回归系数的解释
最好用exp来解释虚拟变量的影响,它表示与参考组相比,另一组别对发生比的倍数影响。
如exp(B)=1.5,表示男生组是女生组(定为参考组)发生比的1.5倍(高0.5倍)
5、模型评价
极大似然估计,指标似然值,反映假设拟合模型为实际情景时,观测到特定样本的概率(0-1间)。实际采用-2LL,值越大,似然值越小,拟合越差;…
截距模型(不含预测变量,即初始状态)与logistic模型(含预测变量)的-2LL进行比较,如果前者显著高与后者,则可以说预测变量显著改善了模型的拟合情况。
伪测定系数:建立在似然值之上。根据纳入预测变量的模型与不纳预测变量的模型的似然值比较,(表现结果变量的变异倍预测变量所解释的比例大小),值越大,预测变量解释力越强,效应值越大。
四、 需要注意的问题
样本量大小
个案数与变量数比例(如果个案数太少可以删去不重要预测变量,或增大样本量)
多重共线性(参照多元线性回归方法)
分类结果中的异常值(残差检验发现异常个案)
五、 案例及spss