文献阅读之地球化学大数据处理(三)
本次阅读的文献为EPSL在2020年刊发的研究论文“Chemical evolution of the continental crust from a data-driven inversion of terrigenous sediment compositions”。文章主要内容为从陆源沉积物成分数据驱动反演大陆地壳的化学演化。

一 方法简述
方法基于三端元混合模型。假设大部分大陆地壳来源于镁铁质、长英质和超镁铁质岩石的混合物(超镁铁质岩石在2.5 Ga之前主要以komatiite的形式存在)。
首先,使用火成岩数据库来计算这三个端元的组成(时间序列)。
然后,使用测量的沉积物中的元素比率,使用马尔可夫链蒙特卡罗(MCMC)反演方法,计算出这三种端元以何种比例混合最能解释地质观测结果。图一为重建过程的概述。

输入是两个数据库:沉积数据库(A)和OrIgn火成数据库(B) 。火成岩数据库中的岩石首先根据其主要元素化学成分分类为长英质、镁铁质和科马替岩。计算了这些“端部成员”随时间的平均组成(D;蓝色=长英质,黄色=镁铁质;绿色=铁镁铁质)。使用局部异常值因子过滤(LOF)沉积数据中的异常值(C),然后使用bootstrap技术外推到连续时间序列(E)。在每个时间步长,MCMC技术用于寻找哪种火成端元混合物(D)最能解释所观察到的沉积成分(C)(图F)。这导致了随时间变化的最佳端元混合物的最终时间序列(G)。为了找到最适合重建端部混合物的地球化学比率组合,采用了详尽的网格搜索技术。

二 端元元素组成时间序列
2.1 火成岩数据来源和异常值处理(得到三个端元)
使用Keller和Schoene(2012)的火成岩数据库,删除了所有主要元素浓度总和小于98%或大于102%的记录。对于几种元素,更正单位。
在计算现代镁铁质端元时,从数据库中排除了所有年龄小于200 Myr的岩石(排除MORB)。为了避免丢失样本,添加来自PetDB数据库查询生成的单独数据集的数据。该查询包括来自大型火成岩省份、火山弧、造山带、火山田和火山省份的样本,所有样本的年代均小于200百万年。
2.2 三个端元时间序列
由于数据库komatiitite数量有限,认为komatiitic端元组成随时间变化是恒定的。
针对长英质和镁铁质的时间序列,使用了一个具有高斯核的移动平均模型。使每个端元中每个元素的浓度表示为时间的平滑函数。
首先,我们通过标准的k倍交叉验证方法优化带宽值(高斯函数中的σ),滑动步宽为10Ma,得到元素的时间序列。
然后,使用类似的高斯移动平均模型来计算涉及的比值的拟合,我们使用bootstrap算法来估计置信区间。
最终,得到三个端元元素和元素比值的时间序列。
三 沉积物元素比例时间序列
3.1 沉积岩数据来源
根据已发表的文献数据汇编的陆源沉积物数据库,其中包含页岩、黄土和杂岩样品的测量结果。
3.2 沉积岩比值选择
不是所有的比率都非常适合重建大陆地壳的化学演化。
合适的元素应
(i)具有较低的水溶性,以使其受风化影响最小
(ii)不集中在特别耐腐蚀或致密的矿物中,以使它们在运输过程中不会分馏
(iii)在所考虑的火成岩端部中的浓度范围很广

在现代地球上,具有低表观溶解度(从低到高)的元素是Fe3+、Th、Al、Sc、REEs、Co、Mn3+、4+、Pb、Be、Sn、Zr、Nb、Y、Ti、Ga、Hf、In、Ta、Zn、Cu、Cr3+和Ge。
在太古代海洋中,Fe和Mn主要以可溶性Fe2+和Mn2+氧化态存在,因此是不可靠的替代物。
最相容的元素是最能判断科马提岩和镁铁质岩石的贡献,即Sc、Cr、Co、Ni和铂族元素(Ru、Rh、Pd、Os、Ir、Pt–“PGE”)。PGE集中在微量矿物中,并可分离为重矿物,且很大部分PGE通过地外来源输送到沉积物中——因此不适合。
最不相容的元素是最能判断长英质岩石的贡献,大离子亲石元素(K、Rb、Cs、Sr、Ba、Pb和Eu2+)高度不相容,但通常也相当可溶——因此不适合。
不相容且在海水中溶解度低的元素是高场强元素(Zr、Hf、Nb、Ta、Ti)、稀土元素、Y和Th。
在稀土元素中,我们使用不溶性轻稀土元素La和Ce。在太古代,Ce以Ce3+的形式存在,其溶解度可能与不溶性La3+相似。在现代条件下,Ce可以被氧化为4+,而4+的可溶性甚至更低。
考虑到所有的标准,最可靠和鉴别的不溶性元素应该是Sc、Cr、Co、Ni(相容),Pb、Zr、Hf、Nb、Ta、Ti、Al、La、Ce、Yb、Y和Th(不相容)。
另一个问题是搬运过程中的矿物分馏问题。上面确定的一些元素集中在蚀变矿物中(例如粘土中的Al),一些元素则集中在大型碎屑矿物中(如锆石中的Zr和Hf)。前人发现矿物分馏的影响相对较小。因此可用。

将所选的16个元素组合两两组成比值有许多可能。
为了客观地排列哪些元素比值的组合最有用,将反演算法应用于三种合成沉积成分(比例分别为15/27/58%和15/70/15%的科马替岩/镁铁质/长英质,28%的镁铁质和72%的现代端部长英质混合物)。
然后,对合成数据进行MCMC反演,并否定那些不能恢复原始输入的比率组合。接下来,从三种情况中获得最大预测不确定性,并使用它对比值组合进行排名,将不确定性最低的组合列为最佳组合。
最终确定最佳的8个比值(Al2O3/La、Ce/Y、Co/Ni、Cr/Yb、Hf/TiO2、Nb/Pb、Sc/Zr和Ta/Th)。
3.3 异常值处理
矿物可以被蚀变为新的蚀变阶段,流体流动元素可以被浸出,大的和/或高密度的矿物可以被隔离到粗粒沉积物中。成岩作用可以进一步改变沉积物中流体流动元素的浓度。所有这些过程都会改变元素比例,使沉积物的最终成分不再代表其初始来源。
为了减少这些影响,对沉积物数据库进行过滤,以算法识别其成分明显被二次过程改造的样本。
因此,设计了一种基于局部异常因子(LOF)算法(本质上是聚类分析)的超维密度滤波器,以消除明显受二次改造影响的样本。将9.5%的样品标记为异常值
3.4 沉积岩元素和比率的时间序列
使用400 Myr的内核带宽。对沉积物应用与对端部成员浓度相同的自举程序,我们将代理比率的最佳拟合和95%置信区间计算为时间的光滑函数。图二。

四 马尔可夫链蒙特卡罗反演
使用上面估计的数量,我们计算了在每个年龄,长英质、镁铁质和科马提质端部的混合物最能再现沉积物代理比值数据。
这是通过最小化计算的沉积成分和观测到的沉积成分之间的不匹配来实现的。
对于每个地质时间,执行Metropolis Hastings算法的150万次迭代。我们在每次迭代时记录马尔可夫链状态,并跟踪具有最低 (最佳拟合)的状态。马尔可夫链状态的前五分之一(300000次迭代)被丢弃(以允许老化),其余的用于计算端成员的置信区间。
从沉积数据可用的最早时间(通常在3.5 Ga左右,但这取决于所使用的比率)开始,以10 Myr的时间步长运行该程序。
最终得到大陆地壳的化学演化反演结果。图三。

五 讨论
重建结果表明,沉积数据与上层大陆地壳一致,上层大陆地壳含有大于50%的3.5 Ga长英质物质。
文章证明,曾经作为主要镁铁质地壳证据的测量结果与太古代的长英质上大陆地壳一致。如果早太古代地球上已经形成了俯冲和可能的板块构造,那么对上地壳的如此大的长英质贡献就可以得到最好的解释。
本研究得出的结论依赖于几种统计工具的使用,这些工具
(1)检测因化学和物理风化过程而严重受损的沉积样品,应用最近邻滤波算法
(2)通过使用非参数移动平均模型描绘沉积物中的代理比率随时间的演变,并使用bootstrap方法评估不确定性
(3)使用MCMC方法评估三种端部岩石类型(镁铁质、长英质和超镁铁质)的贡献,以量化最佳拟合参数的不确定性
(4)客观地确定哪种元素比例最适合重建三个末端成员在时间上的比例。
因此,这项工作强调了数据驱动的先进定量和统计方法在元素地球化学领域的价值
参考内容:
原文链接:
https://www.sciencedirect.com/science/article/pii/S0012821X20300339#fg0020
马尔可夫链蒙特卡罗算法:
https://www.cnblogs.com/pinard/p/6625739.html
https://zhuanlan.zhihu.com/p/564865749