【成果展示】基于自监督学习的材料性能少样本预测方法探索
导读

材料研究中,为获得足够的数据以明确材料的性能,最耗时的是重复材料准备、试样制备和开展试验的过程。因此,研究人员集成了机器学习模型,以期高效率低成本地表征材料性能。但目前大多数以监督学习为主的算法严重依赖人工标记数据以训练好模型,而获得足够的标记数据同样意味着需要开展大批量的实验或者仿真计算等工作,依然面临标记成本大、时间长、数据有限的问题。本期为大家介绍课题组解兵林等同学于近期发表在Computational Materials Science上题为High-efficient low-cost characterization of composite material properties using domain-knowledge-guided self-supervised learning的文章https://doi.org/10.1016/j.commatsci.2022.111834,论文介绍了一种基于自监督学习的材料表征方法,通过知识增强的思路设计预训练模型,增强有限标记数据的效率。
01
监督学习(Supervised Learning, SL)需要足够数量的输入(Inputs)与标签数据对(Labels),与此不同的是,自监督学习(Self-supervised Learning, SSL)作为一种从未标记数据本身学习表示的方法,能够在无标签的数据集上训练深度模型,从而避免昂贵的人工标记工作。对于标记数据缺乏的情况,可设计SSL作为预训练模型(Pre-training task / Pretext model),通过迁移学习,使少量标记数据可以微调训练下游任务模型(Fine-tune task / Downstream model)。因此,我们建立了SSL的材料表征模型框架,如图1所示,SL模型需要425组标记数据中85%的样本进行训练,以保证模型在测试集上的误差较低(0.015);当只有5%的标记数据用以训练,其测试误差增大4.5倍(0.068);然而在SSL的帮助下,5%的标记数据可以使模型的测试误差比85%的标记数据更低(0.012),实现以少胜多的数据驱动效率。这好比,学生A (SL) 需要做85道练习题或者学习85小时,才能在考试中取得好成绩;而资质相似的学生B (Downstream model)只需要做5道练习题或者学习5小时,就能在考试中取得好成绩;这是因为学生B在家教(SSL)的帮助下,学习了解题秘诀,提高了学习效率!

02
如何对无标记的数据进行自监督学习?根据预训练任务的设计,SSL模型可以分为两类:采用数据对(Data-data pairs)进行训练的对比类模型(Contrastive models)和采用数据-标签对(Data-label pairs)进行训练的预测类模型(Predictive models)。对比模型通常是对正样本对(Positive pairs)和负样本对(Negative pairs)以自监督的方式学习数据表示或应对下游任务进行预训练;而预测类模型是以一种有监督的方式进行训练,但其中的标签是根据输入的某些特征,以一种半自动的方式生成得到。因此,我们设计了预训练模型的数据增强途径,(1)分别采用“缩小Scaling down”、“放大Scaling up”、“遮蔽Masking”、“加噪Adding noise”和“变换Switching”数据等方法增广输入样本对,进行预训练;(2) 通过数据特征工程,使数据以外、而与实际问题相关的物理信息引入到模型中增强自监督学习过程;(3) 集成领域先验知识,作为对原始数据生成“假标签”的半自动机制,如图2所示。

03
混凝土是一类使用量大面广的重要土木工程复合材料,无论在工程中还是科研界,都需要经常重复进行大批量试验以确定其抗压强度等力学性能,这将造成大量试验成本的浪费和人工支出,且还要考虑养护28天的等待时间才能测得其完全的抗压强度。因此,我们以425组原始试验数据集(混凝土材料配合比与28天龄期强度)为算例,首先以原始数据作为输入,测试SSL模型采用不同数据增广方法分别在5%、15%和25%的有标签数据集上的表现,此时Downstream model依然需要25%的有标签数据才能达到一个可接受的误差水平(以SL模型在85%的有标记数据上的误差0.015为对比),如图3-a所示;再对输入变量进行敏感性分析,分别改变混凝土材料中“水(Water)”与“水泥(Cement)”两个组份,得到的误差最小,而相关性分析结果也显示水和水泥分别与混凝土材料强度成最大的负相关和最大的正相关,验证了他们是最显著的影响变量,如图3-b所示;进一步考虑原始数据以外、而与实际问题相关的物理信息增强模型输入组成,使SSL模型直接学习数据间的关系,此时的模型更趋为健壮和稳定,无论是25%还是5%的有标记数据已都能达到较低的误差水平,并且学习到“水胶比W/B”是混凝土材料中最为显著的影响变量,如图3-c-d所示。

04
此外,我们注意到,混凝土材料的先验知识包含了很多理论成果和经验模型,这些领域知识可以为模型自监督学习过程提供“更深刻的见解”。因此,我们对采用Abrams公式的美国标准(ACI)和采用Bolomy公式的中国标准(JGJ)编码为SSL模型半自动生成假标签的一种机制,为原始数据进行“免费”的标记,从数据“假标签”到试验的真实标签之间的微调训练使模型更容易达到稳健的表现,如图4所示,我们进一步验证了方法的有效性。

总结
总之,我们提出了一种基于知识增强自监督学习的材料表征模型框架,并验证了其在少样本上的适用性和鲁棒性。对于不易制备、难以表征的材料,无论是进行试验还是采用传统机器学习方法研究都需要昂贵的成本和长期的等待。而我们建立的模型框架,针对未标记数据的输入组成和假标签,考虑不同的数据增广方法,利用混凝土知识增强自监督学习,使用最少的数据样本,通过预训练过程和微调训练,发挥了SSL模型强大的学习能力,增强了数据的效率,节约了数据标记的人工成本,实现了少样本的混凝土抗压强度预测,验证了模型的鲁棒性、方法的有效性。值得一提的是,SSL模型已经在图像识别和自然语言处理等领域取得成功,但预测材料属性似乎是一项更复杂的任务。我们设想,基于这个广义的材料属性表征模型,开展不同领域的材料知识研究,结合更加有效的深度学习模型实现更好的性能,为给定的材料寻找合适的表征方法。如此,SSL模型有望作为一种新颖而强大的材料属性表征工具,以减少材料实验的需求。
详情请参阅原文:https://authors.elsevier.com/a/1ft7K3In-uvRRG
END
来源于多样化结构实验室VSL
排版 | 李嘉晨
审核 | 胡 楠
