Nat子刊: 如何提高基于生物样本库的抑郁症遗传研究的准确性?
近日,Andrew Dahl和Na Cai等人探讨了如何改进生物信息库中与重度抑郁症(MDD)相关的遗传研究。他们提出,结合不同类型的表型—既有大样本但低特异性的浅层表型,也有小样本但高特异性的深层表型—能显著提升研究的效果。
通过整合多种MDD相关表型,作者能更准确地进行全基因组关联研究(GWAS)和多基因风险评分(PRS)。此外,他们提出了一种新型的基于PRS的多效性指标,证实了这种估算方法在保持遗传结构特殊性的同时,增强了GWAS的力量和PRS的预测准确性。
他们的成果发表在最新一期的Nature Genetics杂志上,名为 “Phenotype integration improves power and preserves specificity in biobank-based genetic studies of major depressive disorder”
虽然MDD是全球最普遍的精神难题,其成因大多仍是谜团。最新研究通过GWAS开始揭示风险因素,发现增加样本量和深入分析表型是关键。这不仅提高了对遗传影响的准确估计,还增强了研究的力度和准确性。尽管研究者面临预算限制,必须在样本量和表型深度间权衡,但如何选择仍存争议。
本研究提出一种新策略(图1),整合UKB中与MDD相关的表型数据,以增强研究的综合性。作者通过表型估算显著提升了对MDD表型的分析力度和精确度。此外,他们还开发了新技术,对非特异性信号进行校正,并通过多特征分析来研究表型的综合效应。
图1.研究概述
1. 表型估算增加了有效的样本量
在UKB里,作者深入探讨了MDD的细致标准。通过结合在线心理健康问卷(MHQ)的数据,识别了16297例MDD病例和50867例对照组。此外,他们还研究了MDD的基本特征,包括217种与抑郁症相关的表现。利用SoftImpute技术数据和深度学习算法AutoComplete,提高了对抑郁症现象的估算数据和其准确度。
2. 表型估算提高了GWAS力量
在这项研究中,作者通过GWAS分析了实际观察到的及估算的LifetimeMDD(一生中至少一次抑郁症)案例。结果显示,估算数据揭示了更多遗传位点(图2)。分析表明,估算方法能捕捉到与实际观察到的LifetimeMDD相似的遗传信号。此外,作者还发现这些遗传位点在不同抑郁症队列中具有一致的效果。他们还探讨了LifetimeMDD的多基因结构,显示估算值虽然遗传性略低,但与观察值在遗传相关性上非常接近。
图2.观察到和估算的LifetimeMDD的遗传结构
3. 全表型因素指数抑郁症风险的基因多效性
在SoftImpute中,作者分析了关键因素,以识别影响表型相关性的主导因素。通过两个统计指标,他们突出了最重要的因素(图3)。作者探究了这些因素的遗传基础,发现它们在遗传层面的影响差异显著。例如,某些因素与年龄紧密相关,而另一些因素则与社会经济地位和教育程度相关。最后,他们分析了这些因素与抑郁症表型的遗传相关性,发现遗传相关性与因素负荷紧密相关。
图3. 描述驱动 SoftImpute 的主要潜在因素
4. MTAG提高了GWAS力量,但对输入很敏感
在寻找更佳的遗传性疾病预测方法中,作者尝试:利用METAG技术对多个GWAS的数据进行整合分析。通过对六组不同的GWAS数据使用METAG,他们发现这种方法能有效增加我们对终身抑郁症遗传标记的识别(图4)。尤其是当我们将抑郁症家族史和环境因素纳入分析时,GWAS的命中率显著提高。此外,随着输入表型的增多,GWAS命中数也相应增加,这可能是由于METAG在提高力量的同时也增加了假阳性的风险。
图4.不同输入表型选择的METAG结果
5. 表型估算和MTAG提高了PRS的准确性
作者深入探索了PRS在预测MDD方面的准确性。通过对UKB的数据进行分析,作者使用十倍交叉验证的方法来测试这些PRS的效果。他们的比较涵盖了从不同数据来源构建的PRS,包括UKB、GPpsy数据库以及PGC和iPSYCH。
他们发现,使用特定的方法(如SoftImpute和AutoComplete)构建的PRS在预测MDD方面的效果比其他方法更佳,甚至比基于更大样本量的23andMe数据更准确(图5)。此外,还发现MTAG技术在PRS的构建中显示出独特的优势,尤其是在处理多个不同的输入数据时。
图5.使用观察、估算和/或元分析的MDD的PRS性能
6. PRS特异性的新指标
在探索UKB数据时,作者发现结合不同的表型可以提高MDD的PRS准确性,但这可能降低MDD的特异性。为了评估这种效果,他们比较了MDD与其他表型的PRS预测准确性,并引入“PRS多效性”指标来衡量其通用性。分析显示,与MDD紧密相关但稍有差异的表型,如普通心理问题(GPpsy),通常具有较高的PRS多效性。此外,他们发现不同的PRS整合策略,如MTAG方法,其特异性和灵敏度表现各异。
图6.表型范围的 PRS 多效性量化了非特异性
总结
作者探讨了如何通过结合多种MDD表型,提高GWAS和PRS的效力和准确性。他们发现,混合表型提升了GWAS的功效,同时保持了MDD的遗传结构。此外,他们讨论了表型整合在基于生物库的遗传研究中的广泛适用性,以及其对遗传研究公平性的复杂影响。