量化大牛Donald G. Truhlar全新力作!
秋去冬来,北风凛冽,科研人宅在实验室捣鼓实验;
寒来暑往,四季更替,计算人猫在电脑前拨弄数据!
Nature Machine Intelligence:大规模的化学语言表征捕捉分子的结构和性质

基于机器学习的模型,可以实现准确快速的分子性质预测,这在药物发现和材料设计中很有意义。各种监督机器学习模型,已经证明了有前景的性能,但广阔的化学空间和属性标签的有限可用性,使监督学习具有挑战性。最近,在大型无标签语料库上预训练的基于无监督转换器的语言模型,在许多下游自然语言处理任务中产生了最先进的结果。在此,为了解决这一挑战,来自美国IBM研究中心的Jerret Ross & Payel Das等研究者受到这一发展的启发,提出了通过训练一个高效的 transformer编码器模型MOLFORMER获得的分子嵌入,该模型使用旋转位置嵌入。该模型在PubChem和ZINC数据集中的11亿未标记分子的SMILES序列上采用了线性注意机制,再加上高度分布的训练。研究表明,在来自十个基准数据集的几个下游任务上,学习的分子表示优于现有的基线,包括监督和自监督图神经网络和语言模型。该模型在另外两个项目上表现得很有竞争力。进一步分析得知,特别是通过注意力的镜头,证明在化学SMILES训练的MOLFORMER确实学习了分子内原子之间的空间关系。这些结果提供了令人鼓舞的证据,大规模分子语言模型可以捕获足够的化学和结构信息来预测各种不同的分子性质,包括量子化学性质。

参考文献:
Ross, J., Belgodere, B., Chenthamarakshan, V. et al. Large-scale chemical language representations capture molecular structure and properties. Nat Mach Intell 4, 1256–1264 (2022). https://doi.org/10.1038/s42256-022-00580-7
原文链接:
https://www.nature.com/articles/s42256-022-00580-7
2.Nature Computational Science:具有阻尼色散的化学泛函的监督学习
Kohn-Sham密度泛函理论,在化学中被广泛应用,但没有一种泛函能准确地预测化学性质的全部范围,尽管最近一些双杂化泛函的进展接近于此。在此,来自美国明尼苏达大学的Donald G. Truhlar & 华南师范大学的Ying Wang & 华东理工大学的Xiao He
等研究者优化了一个称为CF22D的单杂化泛函,它比大多数现有的非双杂化泛函具有更高的化学精度,通过使用灵活的泛函形式,将依赖于密度和已占轨道的全局杂化元不可分离梯度近似与依赖于几何形状的阻尼色散项结合起来。研究者通过使用一个大型数据库和性能触发的迭代监督训练优化了这个能量函数。同时,结合了几个数据库,创建了一个非常大的组合数据库,该数据库的使用证明了CF22D在势垒高度、异构化能、热化学、非共价相互作用、自由基和非自由基化学、小型和大型系统、简单和复杂系统以及过渡金属化学方面的良好性能。
参考文献:
Liu, Y., Zhang, C., Liu, Z. et al. Supervised learning of a chemistry functional with damped dispersion. Nat Comput Sci (2022). https://doi.org/10.1038/s43588-022-00371-5
原文链接:
https://www.nature.com/articles/s43588-022-00371-5
3.Nature Computational Science:基于深度学习的长读变量调用的串联和全对齐

基于深度学习的变体调用器正在成为标准,并使用长读取实现了优越的单核苷酸多态性调用性能。在此,来自香港大学的Ruibang Luo等研究者介绍了Clair3,它利用了两种主要的方法类别:堆积调用快速处理大多数变体候选,全对齐处理复杂的候选,以实现最大化精度和召回率。Clair3运行速度比任何其他最先进的变体调用程序都快,并展示了改进的性能,特别是在较低的覆盖率下。

参考文献:Zheng, Z., Li, S., Su, J. et al. Symphonizing pileup and full-alignment for deep learning-based long-read variant calling. Nat Comput Sci 2, 797–803 (2022). https://doi.org/10.1038/s43588-022-00387-x
原文链接:
https://www.nature.com/articles/s43588-022-00387-x
4.Nature Computational Science:通过神经算子的主动学习发现和预测极端事件

社会和自然中的极端事件,如流行病激增、异常波动或结构故障,可能产生灾难性后果。描述极端是困难的,因为它们很少发生,产生于看似良性的条件,并且属于复杂且通常未知的无限维系统。这些挑战,使得描述它们的尝试毫无意义。在此,来自美国麻省理工学院的Ethan Pickering & Themistoklis P. Sapsis等研究者通过将贝叶斯实验设计(BED)中的输出加权训练方案与深度神经算子集合相结合来解决这些困难。该模型不确定框架将主动选择数据用于量化极端事件的BED方案与近似无限维非线性算子的深度神经算子集成相匹配。研究者表明,这个框架不仅优于高斯过程,而且(1)只有两个成员的浅集合表现最好;(2)无论初始数据的状态如何(即有或没有极端),都能发现极端;(3)该方法消除了“双下降”现象;(4)与逐步全局最优相比,分批次最优采集样本的使用不影响BED性能;(5)蒙特卡罗采集在高维上优于标准优化器。总之,这些结论形成了一个可扩展的人工智能(AI)辅助实验基础设施,可以有效地推断和查明从物理到社会系统等许多领域的关键情况。

参考文献:
Pickering, E., Guth, S., Karniadakis, G.E. et al. Discovering and forecasting extreme events via active learning in neural operators. Nat Comput Sci 2, 823–833 (2022). https://doi.org/10.1038/s43588-022-00376-0
原文链接:
https://www.nature.com/articles/s43588-022-00376-0
5.npj Computational Materials:机器学习引导发现三元化合物包括La和不混溶的Co和Pb元素

具有不混溶元素对的三元化合物是相对未被探索的,但有希望发现新的量子材料。探索某一第三种元素和它的比例,将其加入到一个不混溶的元素对中,使其获得稳定的三元化合物,仍然是一个巨大的挑战。在此,来自美国爱荷华州立大学的Cai-Zhuang Wang等研究者将机器学习(ML)方法与从头算计算相结合,有效地寻找含有不混溶元素Co和Pb的三元La-Co-Pb化合物。该方法正确地捕获了三种先前报道的结构。此外,研究者预测了一个基态La3CoPb化合物和57个低能La-Co-Pb三元化合物。通过多种技术合成La3CoPb的尝试会产生混合或多相样品,最多只能产生预测的最低能量La3CoPb和第二低能量La18Co28Pb3相的模糊信号。吉布斯自由能的计算结果与实验结果一致,为进一步的实验合成提供了有益的指导。

参考文献:
Wang, R., Xia, W., Slade, T.J. et al. Machine learning guided discovery of ternary compounds involving La and immiscible Co and Pb elements. npj Comput Mater 8, 258 (2022). https://doi.org/10.1038/s41524-022-00950-0
原文链接:
https://www.nature.com/articles/s41524-022-00950-0