欢迎光临散文网 会员登陆 & 注册

DIYABC v2.0--利用SNP数据、DNA序列和微卫星数据对种群历史动态进行近似贝叶估计

2022-02-21 14:34 作者:越努力越高级  | 我要投稿

文章标题:DIYABC v2.0: a software to make Approximate Bayesian computation inferences about population history using single nucleotide polymorphism, DNA sequence and microsatellite data

DOI:10.1093/bioinformatics/btt763

DIYABC是一个用于对DNA多态性数据使用近似贝叶斯计算进行人口历史推断分析的软件。

它允许(i)除微卫星和DNA序列数据外,对大量位点的单核苷酸多态性数据进行分析;

           (ii)利用汇总统计上的线性判别分析进行高效贝叶斯模型选择;

           (iii)多个后处理分析的串行启动。

DIYABC v2.0还包括一个具有各种新选项的用户友好图形界面。

可以在三种操作系统上运行:GNU/Linux、Microsoft Windows和Apple Os X。

当前生物学的一个前景是,分子数据将帮助我们揭示影响自然种群的复杂人口统计过程。各种分子标记的广泛应用和计算机能力的提高促进了推理方法的发展。在这些新方法中,近似贝叶斯计算方法(Approximate Bayesian computation, ABC)被越来越多地用于从大数据集对复杂模型进行推理,这些研究领域包括种群和进化生物学。

ABC是在贝叶斯背景下进行基于模型推理的一种最近的方法,在这种背景下,模型可能性很难计算,必须通过大规模的模拟来估计。在ABC中,不同模型的后验概率和/或人口统计参数在给定模型下的后验分布是通过测量观测数据集(即目标)与大量模拟数据集之间的相似性来确定的;所有的原始数据集(即多位点基因型或个体序列)都被统计总结,如等位基因的平均数量或Fst。

Cornuet等人开发了(基于coalescent的)软件DIYABC,该软件有一个用户友好的界面,可以帮助非专业用户使用ABC执行历史推断。DIYABC允许考虑复杂的种群历史,包括种群分化事件、混合事件和过去种群规模变化的任何组合(可能在不同时间收集的种群样本)。DIYABC可以用来比较竞争的进化情景,量化它们的相对支持度,并估计一个或多个情景的参数。最后,给出了一种可用于评估各种估计的置信度的方法,并实现了模型检验计算。

DIYABC v2.0是DIYABC软件的一个完全重写的版本。2.0版本实现了许多新的特性和分析方法,允许对大型分子数据集进行广泛的分析,包括单核苷酸多态性(SNP)数据。

一些新特性

1.分析SNP数据

DIYABC v2.0允许分析统计上独立的SNP标记,除了微卫星和DNA序列数据。与其他类型的标记相比,SNP位点的突变率较低,因此该位点的多态性是在整个群体基因树中发生的一次突变造成的,基因型是双等位的。为了在给定的SNP位点生成模拟多态数据集,我们继续遵循由Hudson(2002)提出的算法(cf-s 1选项在程序ms与Hudson相关,2002)。简单地说,在一个给定的系谱,根据聚和理论,对研究数据集的所有群体中所有基因的位点进行模拟,直到最近的共同祖先。然后将单个突变事件随机放置在系谱学的一个分支上(该分支被选择的概率与它相对于总基因树长度的长度成正比)。该算法提供了ABC环境下所需的模拟效率和速度,其中需要生成大量的模拟数据集,包括大量的SNP位点。

2.情景概率计算

Estoup et al.(2012)最近提出了一种新的方法通过高效的ABC概率计算来处理大量复杂情景之间的区分。它是基于logistic回归分析之前对汇总统计数据进行的线性判别分析。一个主要的实际优势是,它大大降低了解释变量的维度,使得情景概率(100次)的计算速度更快。DIYABC v2.0中实现了这种方法创新,用于分析真实数据集和模拟的伪观测数据集,这些数据集用于评估可用于区分给定场景集的置信度。

3.新的图形界面和随机数生成器

DIYABC v2.0有一个新的用户友好的图形界面,它分为两个主要部分:

(i)一部分包括场景的定义,先验分布,汇总统计和模拟数据集的产生,将参数值绘制到先验和(ii)其他部分包括典型的ABC分析的所有类型的后处理计算。

在提出的新选项中,第(i)部分允许定义以不同突变模型和汇总统计为特征的不同标记组,第(ii)部分允许进行连续的多重后处理分析。随机数生成器(RNG)是一个重要的问题,特别是当多个处理器同时用于并行计算时。在DIYABC v2.0中,使用了Mersenne Twister类型的RNG。在代码的多线程部分中,需要随机抽取,每个线程使用自己的随机生成器。用Matsumoto和Nishimura(2000)提出的算法来初始化不同的RNG来产生独立的随机流。

小结

DIYABC v2.0的主要创新之一是,它可以分析SNP数据,使用一种高效的模拟算法,因此允许处理具有大量位点的多种群数据集(例如,在几个小时到几天内,数千到数万个位点)。假设分析的SNP数据对应于独立的选择性中性位点,不存在任何确定偏差(AB,即从选择的群体中使用少数个体作为发现面板的SNP发现过程中与预期理论结果的偏差)。AB可能会扭曲多样性的度量,并可能以意想不到的方式改变这些度量得出的结论。当使用基于芯片的高通量基因分型获得的SNP数据时,AB主要是一个担忧。从最近的下一代测序技术中获得的SNP数据,如shot-gun测序或限制位点相关的DNA测序技术,包括在非模型物种的种群遗传学研究中,越来越受欢迎,受影响的程度要低得多。DIYABC v2.0的另一个优点是,它提供了人口统计参数的后验分布,与原始参数的后验分布是平行的,可以按突变率或有效种群大小缩放。缩放参数有时(如果不是经常的话)是在许多进化场景下可以稳健推断的唯一类型的参数。由于c++的编译优化和程序额外计算部分的多线程化,DIYABC v2.0也比以前版本的程序运行速度更快。最后,新的界面包括一个自动过程来产生不同的文件,以方便在计算机集群上启动模拟,从而获得更大的计算资源。


DIYABC v2.0--利用SNP数据、DNA序列和微卫星数据对种群历史动态进行近似贝叶估计的评论 (共 条)

分享到微博请遵守国家法律