欢迎光临散文网 会员登陆 & 注册

Nano Energy:通过机器学习加速发现能源系统中的稳定尖晶石

2021-12-22 14:49 作者:迈高科技  | 我要投稿


研究背景

尖晶石是一种重要的功能材料,是指化学式为AB2X4的化合物,其中A位代表配位数(CN)为4的金属阳离子,如Zn、Cu、Mg等;B位代表CN = 6的金属阳离子,如Al、Mo、Cr等;X位代表阴离子,X = O、S、Se和Te,具有直接带隙的半导体尖晶石具有更好的光电性能,这些结构提供了多样的性质,但只有几百个在室温下成功合成或在理论上被研究,特别是那些有直接带隙的结构;准确、快速地发现具有优良半导体性能的尖晶石对开发多功能材料具有重要意义。

最近,来自上海交通大学的Jinjin Li教授团队在Nano Energy发表的名为“Accelerated discovery of stable spinels in energy systems via machine learning”一文,利用机器学习(ML)来加速从元素周期表中未知尖晶石的从头预测,在该策略下,从3880个未开发尖晶石中成功筛选出8个(CaAl2O4、CaGa2O4、SnGa2O4、CaAl2S4、CaGa2S4、CaAl2Se4、CaGa2Se4、CaAl2Te4)具有直接带隙和室温热稳定性的尖晶石。

研究方法

1、总体思路

1)提出了一种目标驱动的ML方法来加速密度泛函理论(DFT)的计算,以筛选性能优良的尖晶石新材料:

①总共从元素周期表中筛选出3880个尖晶石,根据公差因子筛选出1356个候选尖晶石,提出了一个基于XGBoost算法的ML模型,将1356个尖晶石划分为金属和半导体,其中14个特征,如电负性、容忍因子、第一电离能和离子半径,被认为是潜在半导体性能的有力指标,XGBoost方法打破了机器学习在一些预测材料特性的模型中经常被视为黑匣子的障碍;

②利用包含204种已知尖晶石材料(取自以往的实验和理论工作)的数据集作为ML方法的训练集,预测选定半导体的电导率;

③最终从1356个尖晶石中识别出400个半导体,建立了较强的结构-性质关系,预测精度高达91.2%,考虑到其合成容易、排除有毒元素和广泛的商业应用潜力,8种具有直接带隙的新型稳定尖晶石最终筛选出具有室温热稳定性的光电材料,有望成为有前途的能量光电材料;④与传统的预测法相比将尖晶石从周期表中筛选研究周期缩短约3.4年;

2)所提出的逐步目标驱动方法如图所示:

图1. 提出的目标驱动方法流程图:a)尖晶石位点元素的选择;b)产生数据;c)容差系数过滤;d)机器学习算法;e)DFT计算过程

2、数据集构建

ML的训练数据集包含204个化学式为AB2X4的尖晶石结构,属于立方晶体和空间群Fd3m;其中,101个尖晶石来自实验确定的常温和常压下的晶体结构,103个尖晶石来自DFT计算:

1)a位占据了四面体空腔的1/8,b位点占据了八面体空穴的一半,而阴离子X (X=O, S,Se, Te)位占据四面体和八面体的顶点,如图所示:

图2. 具有目标结构的立方尖晶石单元

2)如图为204个尖晶石结构带隙分布,覆盖范围广泛的0-6 eV,图中宽的带隙覆盖保证了可以在未知的预测数据集中找到所需的合适的带隙:

图3. 204个已知尖晶石的带隙分布(Eg)

3)如图显示了204个已知尖晶石的带隙与其容差因子之间的关系,容差因子范围为0.59 ~ 1.22,56.9%的数据范围0.8-0.9:

图4.容忍因子和相应的Eg数据可视化

4)尖晶石结构中有大量的a位和b位选择,从已知的204个尖晶石中收集元素,并产生4160种不同的可能尖晶石化合物,包含26个a位阳离子,40个b位阳离子和4个x位阴离子,考虑到a位点和b位点应该是不同的元素(即Fe3O4、Co3O4等),共获得3880个可能的候选数据集作为预测数据集;在使用ML方法之前,通过公差因子对尖晶石材料进行过滤筛选,留下1356个稳定结构供进一步预测。

3、特征工程

1)本研究根据实践经验和前人的研究,选取并构建了A-、B-和x-位元素的离子半径、第一电离能和电负性尺度等特征,在本工作中,由于特征维数较低,没有采用特征选择方法;

2)在极限梯度增强集成算法(XGBoost)中考虑了特征的信息增益处理,它可以对每次presentation中的重要特征信息进行排序,从而清楚地知道在训练过程中XGBoost中特征的选择性,使用F-score对特征重要性进行排序,同时为了确定这14个特征的相关性,进一步计算皮尔逊相关系数矩阵如图所示:

图5. 特征重要性排序和包括正相关和负相关14个特征的Pearson相关系数热图

4、模型与算法

本文采用了一种新的分类算法XGBoost来完成分类过程,隐式地完成了特征选择步骤,采用五折交叉验证(CV)方法评价XGBoost模型的准确性,该模型将数据进行5次拆分,并在拆分过程中对模型的性能进行平均,在每次拆分过程中,数据被平均地分成五个不重叠的折叠,其中四个折叠用作训练集,剩下的一个用作验证。

结果与讨论

1、ROC曲线及相应曲线AUCs (ROC曲线下的面积)通过5折交叉验证得到结果表明了模型的准确性,如图:

图6. 通过五折交叉验证得到的ROC曲线和相应的AUCs

五次交叉验证的AUC分别为0.95,0.83,0.95,0.87和0.95,这表明在金属和半导体之间具有极好的分辨能力;

2、将经过训练的XGBoost模型应用于1356个尖晶石,以预测它们中的每一个是属于金属还是半导体,预测结果如图所示:

图7. XGBoost预测的金属和半导体分类

经过XGBoost的分类,1356个候选金属被分为956个金属和400个半导体,由于尖晶石具有优异的半导体性能,作者专注于预测的400种半导体,根据不同的x位元素,400个半导体包含128种氧化物、83种硫化物、89种硒化物和100种碲化物;

3、由于这项工作的目的是筛选和发现具有直接带隙的稳定尖晶石材料用于实际应用,其他因素也需要考虑,包括环境问题,元素丰富度,实验成本和商业应用,最后,经过小规模计算过程,成功筛选出8个具有直接带隙的立方尖晶石(CaAl2O4,GaGa2O4, SnGa2O4, CaAl2S4, CaGa2S4, CaAl2Se4, CaGa2Se4, CaAl2Te4),并通过从头计算进一步评价热力学稳定性和电子结构,从而验证了机器学习预测结果,部分计算结果如图所示:

图8. 筛选得到的尖晶石电子结构和热力学稳定性计算结果

4、在一台24 核cpu的超级计算机上计算尖晶石结构的平均花费为80223 s,而1356尖晶石的总计算时间约为1259天(3.4年)。训练一个可靠的XGBoost模型大约需要一天的时间,当模型训练良好时,机器学习可以忽略每个结构的电导率和稳定性的计算时间。因此,提出的机器学习方法可以大大加快DFT方法的预测时间,大大缩短探索新尖晶石的研究过程。

原文链接:https://www.sciencedirect.com/science/article/pii/S2211285520312386

Nano Energy:通过机器学习加速发现能源系统中的稳定尖晶石的评论 (共 条)

分享到微博请遵守国家法律