诺华公司小分子筛选平台设计的演变【02】
生物和化学结构空间覆盖

1.1 生物靶点分类
个别生物靶点的生物活性数据是从一个名为 "hithub "的内部系统获得的。该系统包括来自不同来源的生物活性数据,如ChEMBL、Clarivate Integrity和GOSTAR。对于每个靶点,定义了两个化合物类别。第一类包括所有与靶点相互作用的化合物,无论其化学结构如何,其活性要求为AC50在靶点上≤10μM。第二类是基于考虑效力和选择性标准的综合得分。这一类的目的是通过结合多种来源的数据来确定对其他靶点具有高选择性的强效化合物。第一类通常包含来自更严格的第二类的化合物。使用慷慨和严格的分类方法可以在第二类是空的或更严格的一类包含不太有利的特性时识别化合物。如果需要,这种方法可以从更宽松的类别中选择可溶和可渗透的化合物。
1.2 生物化合物空间分类
为了补充按单个靶点对化合物进行分组的做法,可以利用跨越多个靶点或检测的生物特征数据。当有实验数据时,可使用HTS Fingerprints或高含量筛选FPs等实验资料,而当缺乏实验数据时,可采用预测模型推断的生物资料。在这种情况下,使用从轮廓QSAR(pQSAR)推断的活性概况和从多分类天真贝叶斯模型推断的二元活性预测。为了从这些活性概况中获得离散的类别,使用马尔科夫聚类算法(MCL),一种图聚类算法进行聚类。构建相似性图,如果两个化合物的轮廓呈现出高于所选截止值的皮尔逊相关性,则在它们之间创建一条边。每个活动特征数据集都被单独聚类。每种类型的聚类数量是平衡的,以确保平等的权重,目标是每一种类型的聚类大约30-50k。控制粒度的MCL聚类的 "膨胀 "参数也相应地被选择。
1.3 化学空间分类
为了确保生物活性空间的覆盖,并适应需要不同化学类型的新靶点,NIBR开发了一个基于规则的骨架分类系统,称为骨架树和骨架网络。这种分类法以化学结构为基础,根据特定(子)骨架的存在将化合物分配到各个类别。产生众多小类的较大的骨架被排除在外,而单子骨架则被忽略。为了解决缺乏环状核心的结构,纳入了两个基于直径为4的扩展连接指纹(ECFP_4)的分类。使用MCL算法计算了相似性图并进行了聚类。从文本挖掘技术中借来的化学主题模型,也被用来将化合物组织成特定的 "主题 "或化学系列。为了捕捉三维形状信息,利用了形状分类模型。在早期版本中,使用了基于低能量构象的惯性原理的形状分类。形状三角形中的网格单元作为形状分类。在后来的版本中,FastROCS软件与高度并行的计算相结合,使ROCS三维组合得分相似性图的计算成为可能。这种形状表示法同时考虑了构象灵活性和药理特征。总的来说,这些分类系统提供了一个全面的框架来组织基于骨架、化学主题和三维形状的化合物,加强了对化学空间的理解,促进了对生物活性空间的多样化覆盖。
1.4 人工策划的分类
除了计算上的分类,化学家的背景知识也通过额外的分类被纳入。这些分类来自于三个来源:
项目代码:在注册期间,化合物被分配了基于控制词汇的项目代码。虽然这些代码可能不代表同质的化学系列,但它们确实反映了预期的生物活性,即使不一定被观察到。
化合物系列和收藏夹(CS&F)数据库:这个内部数据库允许药物化学家定义化学系列,并将标志性的化合物和支架子结构查询分配给它们。对候选药物的优化进展进行注释,并提供化合物或支架之间的关系定义。化学家对一个化学系列的起点进行标记,通常是对筛选结果进行标记。为每个CS&F系列创建一个成员列表,将单独分配的化合物和与该系列的子结构查询相匹配的化合物结合起来。
库代码:通过组合或平行方法合成的化合物被分配到特定的库代码。每个库代码对应于一个包含所有用它注释的化合物的类别。
这些由化学家提供的额外分类增强了计算分类,有助于选择不同的化合物类别,利用他们在药物化学方面的背景知识和专业知识。

迭代的化合物选择过程
该算法的目标是将定义的类作为覆盖目标进行迭代,从每个类中选择排名最好的复合样本,并多次重复这一循环。该算法对分类的来源是不可知的,把每个类当作一组样本。适当地处理冗余是很重要的,以避免从不同的分类方案中选择高度重叠的化合物。
当一个化合物根据其在一个类别中的化合物资格被选择时,该化合物所属的所有其他类别也被认为被覆盖,导致潜在的 "连带覆盖"。为了弥补这一点,在随后的几轮中会停止从受影响的类中进行选择,直到类的数量恢复到目标。考虑到类的大小也是至关重要的。由于化学聚类大小的分布,聚类往往会产生大量的单个化合物和小聚类。为了防止在最初的迭代中挑选出不切实际的化合物数量,可以将抽样限制在某个最小规模以上的聚类。这种选择是合理的,因为较大集群的代表为后续筛选和迭代过程提供了更多机会。一旦化合物被按属性排序并被分配到覆盖等级,并且定义了每个迭代的最小集群大小,选择算法就会被执行以产生多样性网格。然而,不是以细粒度的方式将化合物分配到平板上,而是通常的做法是将多个采选轮次组合在一起,形成规模逐步增大的平板子集(例如,50k、125k、250k、500k和满甲板)。这种方法可以实现目标板块的大小,是项目组筛选时的首选。

结果
第一个筛选平台创建于2015年,2019年根据四年来筛选实践的经验,开发了一个修改版。
在2015年的版本中,采用了细粒度的属性排序方法,通过帕累托排序将多个目标结合起来。在排名中明确使用了分子量(MW)和clogP,目标是在MW 150至350和clogP 1至3的范围内,这在当时被认为是理想的热门分子。不理想的亚结构、低溶解度和低渗透性被作为负面标志。频繁先导化合物的标志也被纳入排名中。2015年的排名显示出对低分子量(<350 Da)和顶级类别(A和B)中1-3的clogP范围的强烈偏爱,使这些化合物片段化。然而,与C类相比,人们担心这些类别的命中率降低,表明化合物的多样性不平衡。在2019年版本中,根据观察到的2015年deck的局限性,改变了排名标准。高溶解度和高渗透性被引入作为A列的积极选择标准。分子量和clogP不再直接考虑排名,但较低的MW和clogP对于实现良好的渗透性和溶解度仍然是有利的。这一变化对2019年deck的前两列和前三行的化学起点的丰富性产生了积极影响。在2019年中加入了计算的生物特征,对天然产物集合的处理,以及对外部合作的筛选子集的应用。总的来说,2019年版本中的修改旨在解决2015年牌中观察到的局限性,提高命中率,并提高药物化学优化项目的化学起点的多样性和质量。


结论
2019年的筛选平台网格是NIBR基于平板多样性驱动的子集筛选的主要来源。它被用于整个NIBR基地的各种生化和细胞检测,每年有50-100个子集筛选,筛选的化合物超过50,000个。该网格的设计涵盖了不同的目标并拥有适当的化合物特性。定期复制该牌子可以进行机构学习。从2015年平台的学习导致了对溶解性和渗透性的关注,作为化合物吸引力的决定因素。基于推断的生物活性的机器学习模型和聚类被纳入2019年的方法中,加强了多样性的选择。筛选者和项目组的沟通和教育被认为是关键。发现C列有最高的几率为困难的目标类确定起点。2019年的筛选平台被认为是很平衡的,能够实现多样性驱动的子集和迭代筛选。
参考资料:
Schuffenhauer, Ansgar et al. "Evolution Of Novartis' Small Molecule Screening Deck Design", <i>Journal of medicinal chemistry</i> 63.23 (2020): 14425-14447.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn