新闻活动 新闻动态

解析相似性——等变图神经网络实现催化描述符的精准预测 | 人工光合作用与太阳能燃料中心王涛实验室发表最新成果

10月1日,西湖大学理学院、人工光合作用与太阳能燃料中心王涛课题组在机器学习驱动的催化剂设计方面取得新进展。研究团队通过开发一种具备解析不同复杂催化体系中化学图像相似性能力的等变图神经网络(equivGNN)模型,实现了多类关键催化描述符的精准预测。将该模型融入现有的催化剂筛选框架,有望大大降低对第一性原理计算的依赖,实现催化剂活性、选择性和稳定性的高效预测,进而加速新催化剂的设计与研发。

该研究成果以“Resolving chemical-motif similarity with enhanced atomic structure representations for accurately predicting descriptors at metallic interfaces”为题发表在Nature Communications上。西湖大学助理研究员蔡博士为文章第一作者。西湖大学理学院、人工光合作用与太阳能燃料中心PI王涛为通讯作者。

相催化在可再生能源的开发利用、高附加值化学品的生产及环境治理与保护等领域中发挥着关键作用,其中高性能催化剂的设计与研发是实验与理论科学家共同关注的研究课题。目前,简单且有效的催化描述符被认为是加速催化剂设计的关键要素之一,尤其是在理论催化领域。基于描述符的高通量计算筛选框架被成功应用于多类催化反应的高性能催化剂设计中。然而,基于第一性原理的描述符计算往往具有高昂的计算成本,因此难以实现整个化学空间的全局搜索。随着人工智能和机器学习方法的发展,通过开发高效的机器学习模型,可实现关键催化描述符的低计算成本和高精度预测,从而大大加速催化剂的筛选。

理论上,预测性机器学习模型能够识别并利用高维数据中的非平凡的趋势(nontrivial trends),以实现与第一性原理计算相当的精度,同时将计算成本降低数个数量级。在实践中,机器学习方法的性能高度依赖用于描述目标系统的数值输入—针对催化体系即原子结构的表示(atomic structure representations)。对于多相催化,想要准确表达各类催化体系中的复杂吸附结构(如图1所示),往往会遇到不同程度的结构相似性问题。

图1. 有序金属表面(a)单齿和(b)双齿吸附结构示意图;(c)无序金属表面结构示意图,从稀合金到高熵合金;(d)金属团簇、纳米颗粒与基底的催化体系示意图,以及四体非手性反例的8原子团簇

对于有序金属表面吸附单个原子的最简单的多相催化体系为例(如图2所示),研究团队首先利用原子间的连接性作为边(图论中的edge)信息,构建了一种简单的图注意力网络(GAT-w/oCN)模型。利用未优化结构作为输入,基于5-fold交叉验证,在包含5096个数据点的Cads(C物种在表面的结合能)数据集上,该模型训练后得到平绝对误差(MAE)为0.162 eV的预测精度(图2b)。随后,通过在原有GAT-w/oCN模型上添加吸附位点的配位数(coordination number,CN)信息,构建了GAT-wCN模型,并在Cads数据集上得到MAE为0.128eV的预测精度(图2c),相较于GAT-w/oCN模型预测精度显著提升。

图2.(a)有序金属表面三配位的hcp/fcc-hollow吸附位点,及其图结构;(b)GAT-w/oCN和(c)GAT-wCN模型基于5折交叉验证的DFT计算值与机器学习预测值之间的M‒C形成能的性能

对于引入CN带来的如此显著的预测精度升,研究团队怀始的GAT-w/oCN模型是否在描述以及区分Cads数据集中的某类相似结构的时候存在缺陷,即对于相似却不同的结构给出了相同的表达,最终给机器学习模型引入了不可消除的系统性预测误差。为此,研究团队在原Cads数据集中筛选1631hcp/fcc-hollow吸附结构,共计3262数据点,构建了仅包含三配位吸附结构的3-fold-only Cads数据集。在此数据集上,将所有数据点作为训练数据,训练GAT-w/oCN模型得到MAE0.11 eV的训练精度,并且R298%3a。放大弱吸附区间,可以发现GAT-w/oCN模型对于任意一对hcp/fcc-hollow吸附结构的预测值是相同的3b,然而实际上它们具有不同的真实值。这使得GAT-w/oCN模型在Cads数据集上出现了假阳性的预测结果。由于hcp/fcc-hollow吸附位点的CN不同,因此引入CN能够有效区分hcp/fcc-hollow吸附结构,从而提升GAT-wCN模型对于该类催化体系的预测性能3c,其训练集的MAE可以低至0.06 eV

图3. aGAT-w/oCN模型在3-fold-only Cads数据集的预测图,以及(b)弱吸附区间的放大图;(cGAT-wCN模型在3-fold-only Cads数据集的预测图

对于单个原子以单齿吸附形式吸附于有序金属表面的简单催化体系,通过引入类似配位数这类手动构建的相似性特征(similarity feature),能够区分hcp/fcc-hollow吸附结构,解决该催化体系下的相似性问题,从而提高预测性能。然而,当催化体系的复杂度提升至双齿吸附时,配位数便丧失了解析能力。由于无法区分如图4a所示的吸附结构对,在该体系下GAT-wCN模型也将遭遇相似性难以区分的问题。在复杂吸附物的Complex数据集的测试结果显示,GAT-wCN模型的预测性能一般,得到MAE0.22 eV的预测精度。

图4.(a)有序金属表面吸附于hcp-hollow和fcc-hollow的双齿吸附结构;(b)GAT-wCN模型在复杂吸附物的Complex数据集上的预测图

若想要进一步探究更为复杂的催化体系,如无序金属表面(包括:稀合金、高熵合金等),以及存在四体相关非手性反例的金属团簇体系等,我们亟需一种普适且高效的方法来增强原子结构表达,从而解决复杂催化体系中的相似性问题。基于此,研究团队通过引入等变消息传递(equivariant message-passing)机制,来增强原子结构表达。首先,针对无序金属表面(如图5所示),以稀合金为例,通过枚举法构建512个A9-nBn结构。利用Polya计数定理(Polya enumeration theorem),可以计算出其中仅有104个结构是完全不同的。基于等变消息传递的图神经网络能够准确区分出512个A9-nBn稀合金结构中相同和不同的结构。以A7B2为例,在枚举得到的36个结构中,通过等变消息传递能够识别得到8种不同结构(图5b),该结果与Polya计数定理得到的结果相吻合。

图5.(a)高度无有序金属表面结构示意图,从稀合金到高熵合金(b)等变消息传递网络区分稀合金中的同一组分下的相似结构

紧接着,针对四体相关非手性反例的团簇体系,研究团队构建了包含70对简并的8原子团簇结构,作为测试数据。测试结果显示通过等变消息传递实现了原子结构表达的增强,区分了高度复杂的四体相关非手性反例中的简并结构(如图6所示),充分展现了等变消息传递对相似性问题的高解析能力。

图6. 等变消息传递网络区分四体相关非手性反例中的简并结构

显然,通过引入等变消息传递增强的原子结构表达,有效解决了高度复杂催化体系中结构相似性对原子结构表达带来的巨大挑战。基于此,研究团队通过等变消息传递开发了一种等变图神经网络(equivGNN)模型,该模型具备解析不同催化系统中高复杂度的化学图像相似性的能力。在各类催化体系中,equivGNN对不同描述符的预测实现了平均绝对误差小于0.09 eV的高精度表现(图7),展现了equivGNN对各种多相催化体系的通用性和有效性。综上所述,本研究开发的机器学习模型有望结合现有的催化剂筛选框架,大大降低对于计算成本昂贵的第一性原理计算的依赖性,实现催化剂活性、选择性和稳定性的高效精准预测,进而加速新催化剂的设计与研发。

图7. 本文开发的equivGNN模型示意图及其在预测各类催化体系中关键描述符的精度。

该研究得到国家重点研发计划、国家自然科学基金、能源与碳中和浙江省实验室(白马湖实验室)、西湖大学启动经费和西湖大学未来产业研究中心等经费支持。