网站地图联系我们所长信箱办公信息系统English中国科学院
 
 
首页概况简介机构设置研究队伍科研成果实验观测合作交流研究生教育学会学报图书馆党群工作创新文化科学传播信息公开
  新闻动态
  您现在的位置:首页 > 新闻动态 > 研究亮点
吕鹏飞等-EPSL:机器学习破解锆石地球化学“质量—数量两难困境”
2026-04-03 | 作者: | 【 】【打印】【关闭

锆石地球化学是认识地壳演化、岩浆过程和早期地球历史的重要工具,为了提高用锆石地球化学数据开展相关研究的可靠性,研究者通常需要先进行数据筛选,但长期以来,研究者在数据筛选时始终面临“质量”与“数量”难以兼顾的困境:严格阈值会舍弃大量样本,虽然能够保证数据可靠性,但数据量本身不足,会使统计结果不够稳健,并增加地球化学解释的不确定性;而宽松阈值,则会把受包裹体污染、测量不完整或轻稀土异常升高的“不完美锆石”保留下来,同样会影响结论的可靠性。因此,如何同时确保数据质量和完整性成为锆石大数据研究的关键难点问题。

针对这一问题,中国科学院地质与地球物理研究所的研究团队提出了一个机器学习驱动的锆石地球化学数据集修复框架(图1)。该框架可自动识别异常值、缺失型锆石和污染型锆石,并恢复稀土元素(Rare Earth Element,REE)组成,建立新的AI修复锆石地球化学基准数据集。该框架以GEOROC数据库中25,085条高质量“clean-full”锆石数据为训练基础,针对缺失REE和污染REE两类问题建立恢复模型,并通过自动分类与顺序修复流程,将原本难以利用的“不完美锆石”恢复为可用于地质解释的合格数据。恢复结果表明,机器学习模型能够准确重建Sm、Nd及其派生参数Eu/Eu*和Ce/Ce*,其中位偏差控制在±1.5%以内,缺失REE的恢复偏差中位数控制在±0.5%以内,Y的恢复中位偏差仅为±0.2%,标准差为3.7%,这些关键指标优于已有传统恢复方法。更重要的是,该流程将GEOROC数据库中可利用锆石分析数据的比例由传统“clean zircon”标准下的33.5%提升至83.0%,使可用数据集扩大到原来的2.48倍。

图1 机器学习修复“不完美锆石”的流程图

研究进一步将AI修订基准数据集应用于全球碎屑锆石Eu/Eu*记录再评估(图2)。结果表明,原始数据和AI修订数据虽然在总体趋势上相似,但在太古宙阶段差异明显放大:约2/3的Eu/Eu*结果对应5–10 km的地壳厚度差异,约1/4的差异超过15 km。这些不一致主要与两类问题有关:一是许多太古宙时间窗样本量不足,80%的数据点对应锆石粒数少于50;二是原始数据中clean zircon比例偏低,许多不一致或争议结果出现在clean zircon比例低于30%的情况下。该研究说明,传统阈值筛选下的全球锆石数据库在关键时段可能低估了不确定性,而AI修订框架能够同时提升数据质量和样本数量,为更稳健的地壳厚度重建提供基础。

图2 从质量与数量视角重新评估锆石Eu/Eu*地壳厚度指标。(A)使用原始基准数据集和AI修订基准数据集,对地球历史(0.1-4.2 Ga)中的锆石Eu/Eu*记录进行比较;(B)锆石Eu/Eu*数值及地壳厚度的差异;(C)图D中原始数据集的clean zircon比例;(D)以1亿年为时间分箱的地球历史中锆石分布

这项研究为锆石学领域长期存在的“质量”与“数量”难以兼顾的问题提供了全新的系统性解决方案,不仅提高了地质样品的利用效率,也为地球早期演化、地壳厚度重建等研究提供了更稳健的数据基础。该方法还具有推广潜力,可为其他地质样品中类似的数据筛选难题提供借鉴,并为机器学习在地球科学中的应用开辟新的场景。

研究成果发表于国际学术期刊EPSL(吕鹏飞, 邹心宇*, 蒋济莲, 赵勇, 陈卫营, 高燊, 薛国强, 秦克章, Ross N. Mitchell, 杨蔚. Quality/quantity quandary: machine learning framework for assessing tradeoffs in zircon geochemistry[J]. Earth and Planetary Science Letters, 2026, 683, 119983. DOI: 10.1016/j.epsl.2026.119983.)。研究得到国家自然科学基金(92262303)、科学技术发展基金(0099/2025/ITP2)、中国科学院青年创新促进会(2023070)和国家科技重大专项(2024ZD1002307)联合资助。

吕鹏飞(博士后)

 
地址:北京市朝阳区北土城西路19号 邮 编:100029 电话:010-82998001 传真:010-62010846
版权所有© 2009- 中国科学院地质与地球物理研究所 京ICP备05029136号 京公网安备110402500032号