纵向数据分析—组轨迹模型(GBTM): (一)模型介绍
公众号正式营业3天,得到很多小伙伴的关注、转发,笔者在这里非常感谢大家捧场,后续将继续为大家输出干货,提供统计帮助,助力大家发得高分文章。
后台私信均会一一回复,为方便大家交流,分享统计知识,笔者以互助为原则建立“统计分析咨询互助群”,帮助大家解决统计上的困扰,需要的童鞋赶紧进群啦!
进入今天主题:
纵向数据分析—组轨迹模型(GBTM):(一)模型介绍


一、传统纵向数据分析方法介绍
—Why GBTM?
纵向数据(Longitudinal Data, LD)
纵向数据是指对同一组受试个体或者受试单元在不同时间点上的重复观测若干次,得到由截面和时间序列融合在一起的数据。(纵向数据发得高分文章的概率会更大哦)
由于纵向数据具有自相关性、生态单位聚集性、测量次数与测量时间间隔的非均衡性等特点,传统的统计分析方法往往只能望而却步。
目前,可以较好的处理纵向数据的统计分析方法包括:
(1)MANOVA和RM-ANOVA
广义估计方程(GEE)
(2)线性混合效应模型(LMRM)
(3)广义线性混合效应模型(GLMEM)
(4)非线性混合效应模型(NLMRM)
(5)潜变量增长曲线模型(LGCM)
(6)多水平模型
(7)……
可解决问题:上述模型可以对所研究特征的总体发展趋势进行分析,或者探讨个体的特征随时间变化的特点以及个体间发展变化趋势是否存在差异。
共同的局限性:模型均假设研究对象具有相同的发展趋势,然而这一假设往往并非总能满足,特别是以人为研究中心,其重点研究随时间推移个人行为、生物标志物或其他一些感兴趣现象的变化轨迹,总体往往具有较大的异质性(Heterogeneity)。
为解决这一问题(☆☆☆):有学者开发了将变量分析和以人为中心分析相结合的方法,统称为潜在类模型(Latent class model, LCM),其可以在更大的异质性的群体中识别同质性的群体,根据群体中存在的异质性的轨迹将总体划分为不同的潜在类别,为进一步研究群体内部的发展规律提供新的思路。(详见参考文献2)


(上述方法会在后续教程一一更新)
二、组轨迹模型介绍
组轨迹模型(Group-based trajectory modelling, GBTM)
又叫潜类别增长模型(LCGM)。Nagin于1999年对该方法进行了介绍,并随后将其定义为:有限混合模型的应用,使用轨迹组作为统计工具,用于近似人口成员的未知轨迹。轨迹组被定义为:随着时间的推移,在结果上遵循相似轨迹的个体组成的群。(模型详细介绍见参考文献3)

模型用途:用于识别群体中具有相似发展轨迹的研究对象,将其分到特定的群/类。(笔者认为可以理解为一个纵向聚类的过程)。
模型适用性:①资料类型:删失正态分布(Censored normal)、二项分布(Binomial)、泊松(Poisson)、零膨胀泊松(Zero-inflated Poisson)分布。②测量时点要求:为了满足模型拟合,一般要求3个测量时点及以上,不要求测量时点间隔严格一致性。
建模过程(☆☆☆):为了得到研究对象的发展轨迹,需要确定轨迹组的数量和轨迹形态。秉持模型简约性和可解释性这一目标,一般会构建2~6组轨迹模型,每个模型分别拟合线性、平方和立方,通过比较不同模型的拟合指标和轨迹组形态的专业可解释性,选择最适的模型。为了进一步验证轨迹模型选择的可靠性,通常将选择的轨迹组代入原始数据,查看原始数据的分离程度。

三、组轨迹模型拟合评价指标(☆☆☆)
(1)BIC:贝叶斯信息准则(Bayesian information criterion),BIC越接近于0,模型拟合越好。
(2)△BIC:两个不同模型的BIC的差值,越高越好。
(3)AvePP:平均后验概率( Average posterior probability)。每个个体被分到相应轨迹的组成员后验概率(Posterior Probabilities of Group Membership)计算得到,反映了根据轨迹分组后的类内成员与该轨迹的符合程度,通常>0.7为可接受标准。
(4)每个轨迹组的比例(Proportions per class%):一般不低于5%,需要根据总样本含量结合该组轨迹形态判定。
(5)相对熵值(Relative entropy):熵值越接近1表示分类的确定性越高。
(6)OCC:正确分类的优势(Odds of Correct Classification),衡量正确分类到每一组的概率之比,一般认为OCC>5,表明该模型具有较高的分类精度。
(7)分布密切程度:基于组成员概率得到的群体分布比例(πj)与组成员后验概率得到的群体分布比例(Pj)的密切程度,一般认为πj与Pj越接近越说明模型对数据的拟合质量较好。
会有小伙伴疑惑:一个模型会有这么多评价指标,笔者认为,GBTM是一种事后分组的方法,得到的轨迹组是统计虚构的组,是基于数据驱动得到的组,它更加倾向呈现出数据特征,所以会衍生出一些列的模型评价指标。所以,在选择最优模型时,不仅要依据模型的评价指标,更要注重模型的稳定性,模型在现实世界中的可解释性、有用性。

四、组轨迹模型的实现
下一章节将介绍模型的实现!!!
如需《组轨迹模型、纵向数据分析模型》学习资料完整PDF版,请私信小编!!!
参考文献
[1] Eisenlohr-Moul TA, Kaiser G, Weise C, Schmalenberger KM, Kiesner J, Ditzen B, Kleinstäuber M. Are there temporal subtypes of premenstrual dysphoric disorder?: using group-based trajectory modeling to identify individual differences in symptom change. Psychol Med. 2020 Apr;50(6):964-972. doi: 10.1017/S0033291719000849. Epub 2019 Apr 23. PMID: 31010447; PMCID: PMC8168625.
[2]Muthén B, Muthén L K. Integrating person‐centered and variable‐centered analyses: Growth mixture modeling with latent trajectory classes[J]. Alcoholism: Clinical and experimental research, 2000, 24(6): 882-891.
[3] Nagin D. Group-based modeling of development[M]. Harvard University Press, 2005.
关注微信公众号,获取更多相关内容!

程序编写:想不出吸睛好名字、天涯二毛君
文字编辑:想不出吸睛好名字
审阅:老陈
注:以上内容均为个人学习心得,如有理解错误、不到位的地方,请批评指教!

