欢迎光临散文网 会员登陆 & 注册

关于“主成分分析”与“蛋白质-小分子的结合构象采样”之间的问题

2023-08-21 11:12 作者:Co-酱  | 我要投稿

主成分分析(PCA)是一种常用的降维技术,可以用来分析多维数据的变化趋势和模式。在PCA中,主成分是新变量,是原始变量的线性组合,它们可以解释数据的最大方差(信息)。

主成分分析可用来分析多维数据的变化趋势和模式。在蛋白质-小分子的结合构象采样中,PCA可以评估蛋白质能量最低的构象,具体步骤如下:

  • 首先,对蛋白质-小分子复合物进行分子动力学(MD)模拟,得到一系列的构象快照(snapshot)。

  • 然后,对每个构象快照计算蛋白质的势能(potential energy),并将其作为一个特征值(feature value)。

  • 接着,对所有的特征值进行PCA,得到主成分(principal component)和主成分得分(principal component score)。主成分是一组正交的基向量,可以表示特征值的变化方向;主成分得分是每个构象快照在主成分上的投影值,可以表示构象快照在特征空间中的位置。

  • 最后,根据主成分得分,找出能量最低的构象快照。一般来说,能量最低的构象快照会在第一主成分上有较小的投影值,因为第一主成分可以解释最大的特征值方差。也就是说,能量最低的构象快照会离原点较近。

以上就是使用主成分分析法去评估蛋白质能量最低的构象的方法。如果您想了解更多关于这方面的知识,您可以参考以下:

  • Discovery Studio教程技巧篇:蛋白-配体结合自由能的计算:介绍了如何使用Discovery Studio软件计算蛋白-配体结合自由能,并给出了详细的操作步骤和参数设置。

  • 【薛定谔】Schrodinger软件对配体小分子构象、能量优化方法:介绍如何使用Schrodinger软件对配体小分子进行处理和优化,并给出LigPrep工具的使用方法和示例。

  • 分子对接的一些常见问题解答:如何选择活性位点、如何生成原型分子、如何评估对接结果等。


PCA怎么构建主成分?

由于数据中存在与变量一样多的主成分,因此主成分以第一主成分占数据集中最大可能方差的方式构造。例如,假设我们的数据集的散点图如下所示,我们可以猜出第一个主成分吗?它大致是与紫色标记匹配的线,因为它穿过原点,并且它是点(红点)的投影最分散的线。或者从数学上讲,它是最大化方差的线(从投影点(红点)到原点的平方距离的平均值)。

第二主成分以相同的方式计算,条件是它与第一主成分不相关(即垂直),并且它占下一个最高方差。这一直持续到计算出总共p个主成分,等于原始变量数。 现在我们理解了主成分的含义,让我们回到特征向量和特征值。你首先需要知道的是它们总是成对出现,因此每个特征向量都有一个特征值。它们的数量等于数据的维数。

例如,对于三维数据集,存在3个变量,因此存在3个具有3个对应特征值的特征向量。 协方差矩阵的特征向量实际上是方差最多的轴的方向(大多数信息),我们称之为主成分。并且特征值只是附加到特征向量的系数,它们给出了每个主成分中携带的方差量。 通过按特征值的顺序对特征向量进行排序,从最高到最低,按重要性顺序得到主要成分。


关于“主成分分析”与“蛋白质-小分子的结合构象采样”之间的问题的评论 (共 条)

分享到微博请遵守国家法律