论化学结构整理在化学信息学和QSAR建模研究中的重要性
引言
最近高通量技术的发展使得大量的数据集和数据库可用于计算药物发现。然而,这些数据库中的输入数据的准确性对于可靠的化学信息学和分子建模研究至关重要。研究表明,实验科学家产生的数据和各种数据库中的数据都存在误差,误差率从0.1%到8%不等。
尽管这些错误率看起来相对较低,但最近的调查强调了准确的结构表示对化学信息学模型性能的重大影响。研究发现,模型中使用的化学描述符的类型对预测性能的影响比采用的优化技术更大。因此,用错误的描述符表示错误的结构会对模型的性能产生不利的影响。这篇文章将强调化学数据整理在QSAR(定量结构-活性关系)建模方面的重要性。作者评估了已知数据库中的随机和系统错误对QSAR模型预测能力的影响。他们证明,即使是一个数据集中的小的结构性错误也会导致预测能力的重大损失。此外,他们还表明,结构数据的人工整理大大改善了模型的预测能力。
1.1 化学数据的错误
公开的生物活性分子数据库中存在的错误是一个影响化学信息学研究的可靠性和性能的重要问题。对流行的公共数据库,如NCI AIDS Antiviral Screen和NCI Human Tumor Cell Line的分析,发现了结构表示中的错误。这些错误包括混合物和盐类被错误地归类为单独的化合物,以及存在重复的和具有不同报告活性的立体异构体。在发表的文献中研究的较小的数据集也有类似的观察结果。例如,一个用于对四膜虫水生毒性进行QSAR建模的数据集,由于盐中存在不同的金属阳离子而包含重复的化合物。此外,在一个用于评估竞争模型的外部数据集中,发现化合物具有相同的结构,但毒性值不同。结构表示和生物注释中存在的这种错误可能导致QSAR模型的失败。然而,数据质量问题及其对化学信息学模型的影响在已发表的文献中很少得到关注。在化学信息学家和分子建模者中,有一种倾向是依赖已发表的数据而不彻底检查其准确性。化学记录的整理,类似于蛋白质X射线晶体学的结构数据整理,应该被看作是化学信息学研究的一个重要组成部分。虽然像ChemSpider这样的项目已经为解决数据整理做出了努力,但责任最终还是落在了使用数据库或出版物中的数据的科学家身上,他们要自己整理这些数据。

1.2 化学数据整理
本文强调了化学数据整理的意义,并建议在OECD原则中加入第六条规则,以强调在模型开发之前需要仔细整理数据。作者旨在通过追求几个目标来解决这个问题:
提高化学信息学和分子模型界对数据库中存在错误的化学和生物活性数据的认识,这可能会影响到衍生模型的质量。
制定一套数据整理程序,并将其纳入系统的工作流程,以处理输入数据并尽可能纠正结构错误。
与科学界分享有组织的数据整理协议,提供案例研究和现有数据整理软件的参考。
展示严格开发的QSAR模型,使用精心收集的主要数据,不仅可以用于预测新的结构,还可以用于识别和纠正数据库中报告的生物数据错误。
现代化学生物学的复杂性要求信任数据分析的原始数据源。然而,在开发模型之前验证原始数据的准确性是至关重要的。作者引用了著名的谚语 "信任,但要验证",强调了验证和管理数据的必要性,以确保建模工作的可靠性和质量。
化学数据保存的主要步骤
在本节中,本文讨论了整理化学数据集所需的重要步骤,特别是化学结构的整理程序。其目的是提供一个化学结构整理的良好实践库,而不是一个软件教程。本文对每个整理程序强调了两个主要方面:应该进行该操作的主要原因和如何有效地进行该操作的实用技术建议。
重点是二维分子结构表示,因为假定拓扑模型或分子图包含了大部分的基本结构信息。因此,文中所述的整理程序旨在清理和加强化合物的二维表示。将二维分子图转换为三维结构的方法将在其他资料中单独讨论。需要注意的是,本文并不认可任何特定的软件包,而是向学术研究者推荐免费的软件。技术细节和软件的使用可以在开发者的网站和用户手册上找到。
2.1 无机和混合物的去除

由于分子描述符的限制,传统的化学信息学和QSAR软件通常不能处理无机分子,这些描述符大多适用于有机化合物。然而,有必要为无机分子开发适当的描述符并将其纳入描述符计算软件。在某些情况下,使用自动文本挖掘方法生成的数据集可能包含大量具有生物效应(如毒性)的无机化合物。有必要在描述符计算前识别并去除这些无机化合物。一种方法是计算化合物的经验公式并识别那些没有碳原子的化合物。可以使用Perl或Python脚本或高级文本编辑器来实现这一过程的自动化。建议对SMILES列表进行人工检查以确保准确性。同样,传统的软件可能会拒绝包含在现有描述符中没有的元素的化合物,如钠(Na)、镁(Mg)或钌(Ru)。对于化学信息学家来说,重要的是评估他们的建模工具是否能够处理这样的化合物,并决定是否将它们删除或保留在数据集中。识别无机物和含有稀有元素的化合物可以用检测无机物的相同脚本来实现。整理的另一个重要方面是识别和删除化合物的混合物。一个SMILES字符串可以代表多个分子,使其无法直接计算描述符。通常的做法是保留混合物中分子量最大或原子数最多的成分。然而,最好的选择是在计算描述符之前删除混合物的记录,除非有具体的理由相信活动完全是由最大的分子引起的。混合物会出现各种情况,适用不同的规则,包括删除整个记录,保留分子量最大的化合物,或对复杂情况进行人工干预。初学者和非编程人员可以使用ChemAxon Standardizer这样的软件,用图形工具处理简单的混合物情况。有经验的用户可以采用更高级的工具来精确地确定他们的数据集中存在的混合物类型。总的来说,在化学数据整理中,解决无机分子处理和化合物混合物识别和清除的挑战,以确保准确可靠的建模和分析是非常重要的。
2.2 结构转换和清理
数据集整理的第二步是将SMILES字符串转换为二维分子图。一些程序,如ChemAxon、MOE、Sybyl和OpenBabel,可以进行这种转换。然而,考虑转换过程的可靠性是很重要的。Young等人的一项研究强调了将SMILES字符串转换为二维结构的潜在错误。他们发现,很少有化合物被ChemAxon Marvin转换错误,大多数错误是由于数据库中的初始SMILES字符串不正确。这突出了直接从SMILES字符串中计算描述符的风险,因为SMILES不允许用户在二维水平上对化学结构进行可视化、清理和验证。数据集中的一些记录可能对应于盐类,这是许多药物的常见形式。虽然在QSAR分析之前排除盐类是最好的,但去除金属反离子和中和剩余的carbocations或carbanions是可以接受的。盐类通常不被描述符生成软件处理,它们的存在会导致描述符计算的错误。带电的有机分子的中和更值得商榷,因为实验条件和理化环境可能会影响化合物的电荷。如果溶液的pH值和组成是已知的,可以用pKa值和现有的预测器来预测化合物的电荷。当无法进行可靠的估计或观察到描述符的电荷不敏感时,建议对化合物进行中和,特别是在有少量盐类的大数据集中。像MOE、ChemAxon Standardizer和OpenBabel这样的软件可以帮助识别盐类,去除反离子,并中和有机化合物。然而,金属和分子之间的共价键带来了挑战,需要高级脚本和人工整理。结构中存在显性或隐性氢原子是另一个考虑因素。使用显性的氢原子来计算二维描述符通常会导致QSAR模型中更高的预测性能。然而,在某些情况下,使用显性氢可能会引入噪音,导致不太可靠的模型,特别是在使用基于片段的描述符时。不同的软件包声称有可靠的程序来添加或删除氢,但需要谨慎。例如,去除附着在环或二级胺上的氢可能不一定能很好地实现,导致描述符计算的错误和描述符值的不正确。总之,将SMILES字符串转换为二维分子图,处理盐类和带电的有机化合物,以及处理显性或隐性的氢需要仔细考虑,可能需要使用高级脚本、手工整理和评估软件的能力。
2.3 特定化学类型的规范化

数据集整理的下一步涉及到以一致的方式处理官能团的表示。不同的结构模式可能被用来表示同一个功能团,导致分子描述符的不一致问题。手动转换所有的官能团可能很费时,而且容易出错。ChemAxon的Standardizer工具通过创建一个转换规则库,提供了一个方便的方法来规范化学类型。用户可以画出各种官能团的转换模式,并把它们储存在可重复使用的XML规则文件中。这使得初学者可以使用经验丰富的建模人员开发的库来正确处理他们的数据集。官能团的规范化,如环芳烃、羧基、硝基和磺基,相对来说是比较简单的。然而,更复杂的情况,如阴离子杂环、多聚物、同位素等,需要更深入的分析和多个标准化步骤。像ChemAxon Standardizer这样的工具可以有效地进行这些规范化处理。然而,应该注意的是,某些描述符计算软件可能会拒绝特定的符号,即使这些符号正确地代表了正式的化学类型。同分异构体形式是数据整理的另一个考虑因素。化合物可能以多种同分异构体形式存在,选择一种形式而不是另一种形式可以大大影响QSAR模型的预测。在选择同分异构体形式时,应考虑化合物的作用机制和实验条件(特别是pH值)等因素。基于对化合物与目标受体的相互作用或其他因素的了解,放弃一种同分异构体形式可能是合理的。Yvonne Martin博士在最近的一篇评论中谈到了关于同系物的考虑。
2.4 删除重复项


从化学数据集中去除重复的数据对于严格的统计分析和建模研究至关重要。结构上的重复会导致预测性的人为倾斜,并影响数据分析的各个方面,如化学类型的观察频率和基于结构相似性的化合物分布。识别重复物需要检测相同的分子结构并比较它们的相关属性值。使用 SMILES 字符串来识别重复的化合物是常见的做法,但需要注意的是应该使用规范的 SMILES 来准确识别。一个化合物可以由多个SMILES字符串表示,如果没有标准化的标准形式,仅从SMILES字符串就无法识别重复的化合物。从SMILES中计算经验公式可以作为一个额外的过滤器来检索出重复的化合物。一旦重复的东西被识别出来,就需要对它们的特性进行分析。如果重复结构的实验性质是相同的,可以删除一个化合物。然而,如果特性在数字上不同,则需要进一步调查。差异可能来自于数据库建设过程中的人为错误或不同实验室的实验条件的变化。在这种情况下,可以创建特殊的外部测试集,以比较实验记录与验证的QSAR模型的共识预测。重复的数据也可以在以前的整理工作中产生,如去除盐中的反离子。如果重复记录的实验属性高度相似,可以通过将结构与属性的算术平均数联系起来,保留记录。如果属性有明显的不同,那么这两条记录就应该被消除。为了有效地消除重复记录,推荐使用ISIDA/Duplicates和HiT QSAR程序。ISIDA/Duplicates使用输入的描述符矩阵计算化合物之间的欧几里得距离,并将距离低于用户定义的阈值的对确定为重复。它考虑了描述符,这些描述符表征了分子分支和原子连接的特性。HiT QSAR实现了CANON算法,将分子表现为反映经验公式和连接顺序的字符串,并将具有类似字符串的化合物报告为重复。结合使用这两个程序可以提高真正结构重复的检索率。
2.5 人工检查
整理过程的最后一步是对每个分子结构进行人工检查,尽管对于大型数据集来说,这可能是耗时费力的。为了减少工作量,具有复杂结构或大量原子的化合物可以被优先检查。另一种方法是生成一个有代表性的数据集样本并检查其潜在的错误,如果发现重大错误,可能需要重新检查整个数据集。手工整理过程中遇到的常见错误包括
结构不正确:检查IUPAC化合物名称(如果有的话)和相应的结构,看是否有骨架和取代物位置的可能错误是至关重要的。这一步可能具有挑战性,特别是对于大型数据集。一个推荐的方案是使用化合物名称或CAS号来挖掘免费的化学数据库。分析每个化合物的多个条目,并将它们与建模中使用的实际结构进行比较,有助于识别差异。然而,目前还没有专门为这项任务设计的专用工具。
不完整的键的规范化:尽管有规范化程序,但有些情况可能仍然需要手工纠正,特别是对特定官能团的表示。
重复部分的持续存在:尽管使用了自动软件来删除重复的东西,但一些重复的东西可能仍然存在,如同义词。由私人公司或学术实验室开发的高级工具可能存在,用于精细过滤,但它们并不公开。
其他可能性:错误也可能来自于不正确的电荷、缺氢结构中存在明确的氢、不正确的键以及其他因素。
总之,人工检查是必要的,以识别和纠正自动化软件可能错过的错误。检查化合物名称,比较从化学数据库中检索到的结构,以及解决具体的规范化问题,对于确保策划的数据集的准确性和可靠性至关重要。
参考文献:Fourches D, Muratov E, Tropsha A. Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research. J Chem Inf Model. 2010 Jul 26;50(7):1189-204. doi: 10.1021/ci100176x. PMID: 20572635; PMCID: PMC2989419.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn