Nature专刊|AI用于分子动力学模拟中原子间势预测

收集训练数据的方法论

1. IAP预测迁移性差

i) IAP(interatomic potential)模型形式越灵活,训练数据的选择就越关键。

鉴于模型需要充分采样和表征的特征空间(描述局部原子环境的空间)具有极高的维度。

ii) 用于表征局部环境的描述符的通用性,再加上用ML方法外推的固有挑战,通常会导致可迁移性差。

2. 两种方式解决这一挑战

i) 通过将更多物理特性注入ML架构,以限制预测或重现已知限制;

ii) 通过使用更大和更多样化的训练集来训练MLIAP,从而在训练数据的支持下找到MD模拟期间遇到的大多数原子环境。

iii) 在ii)的方式下,基于描述符分布的熵优化概念对训练集生成过程的改进,可以增加迁移性。

先进的算法

1. E(3) 等变图神经网络模型NequIP ,该模型在分子动力学模拟上,显示出出色的预测准确性、对未见阶段的泛化能力以及非常高的样本效率。

2. 量子机器学习模型(QMLM)以少量的数据训练展现出一定的泛化性

i) 量子卷积神经网络对相变中的量子态进行分类只需要非常小的训练数据集。

ii) 其它潜在应用包括学习量子纠错码或量子动力学模拟。

评估化学性质

1. 使用机器学习(machine learning, ML)评估化学性质(如部分原子电荷、偶极矩、自旋和电子密度以及化学键合),观察到的趋势表明,该领域正在向基于ML增强的物理模型发展。

2. 预测ML原子间势的算法的发展,通过绕过量子力学(QM)方法,使得大规模分子动力学研究能够以几乎和经典力场一样低的计算成本进行,而不会牺牲量子力学的准确性。
3. ML建立有效且准确的替代模型以映射不同变量(理论和实验)的能量迅速使其成为一种非常适合揭示化学结构-性质关系的方法。


机器学习 (ML) 的进步促进了原子间势的发展,这些势能保证第一原理方法的准确性和经验势的低成本、并行效率。然而,基于 ML 的潜力难以实现可迁移性,即在与训练期间使用的配置不同的配置之间提供一致的准确性。

为了实现基于ML的潜力,需要开发系统和可扩展的方法来生成不同的训练集。这项工作使用熵优化方法自动方式为tungsten创建了一个多样化的训练集。最后,在熵优化数据集上训练多个多项式和神经网络势。

执行准确且稳健的大规模MD模拟并非易事,因为这需要集成多个组件,如图1所示,一个关键组成部分是原子间势(IPA),即将局部原子环境映射到执行有限时间积分步骤所需的能量和力的模型形式(Model Form)。

利用机器学习的原子间势能进行可扩展且准确的分子动力学模拟所需的组件示意图

本文取得的进展对应于Model Form- Training set对。

事实上,增加ML模型的复杂性虽然有助于提高准确性,但不足以实现可迁移性。事实上,它甚至可能是由害的,因为可能需要更多数据来充分约束更复杂的模型。

换言之,IAP(interatomic potential)模型形式越灵活,训练数据的选择就越关键。鉴于模型需要充分采样和表征的特征空间(描述局部原子环境的空间)具有极高的维度,因此生成适当的训练集并非易事。

MLIAP通常在一组配置上进行训练,这些配置被认为与给定材料和给定应用领域在物理上最相关,由领域专家确定。

现在许多示例表明,用于表征局部环境的描述符的通用性,再加上用ML方法外推的固有挑战,通常会导致可迁移性差。

可以通过两种方式解决这一挑战:i)通过将更多物理性质注入ML架构,以限制预测或重现已知限制;ii) 通过使用更大和更多样化的训练集来训练MLIAP,从而在训练数据的支持下找到MD模拟期间遇到的大多数原子环境。

本文探索了第二选项,开发可扩展的、与用户无关的和数据驱动的协议来创建非常大和多样化的训练集是可取的。

作者展示了基于描述符分布的熵优化概念对训练集生成过程的改进

我们利用这个框架以完全自动化的方式生成一个非常大的(>2⋅10 5 个配置,>7⋅10 6 个原子环境)和多样化的钨数据集(在此称为熵最大化,EM)。该数据集用于训练各种复杂度的原子能的 MLIAP 模型,包括基于神经网络的势,以及线性和二次 SNAP势。 将 EM 训练的性能与在用于开发 W/Be 的 MLIAP 的人工管理训练集上训练的等效模型进行比较(称为领域专业知识,DE)。

表示和抽样

图中比较了比较了 DE 集和 EM 集的配置能量分布(左图)和三个低秩双谱分量,作者用它们来表示原子环境。

在右图能量分布中观察到,与DE组相比,EM组非常广泛。虽然两组的能量分布之间的重叠是有限的,但下面显示在 EM 集上训练的 MLIAP 可以准确地捕捉这些低能量 DE 配置的能量。在右图表明,EM 集的描述符分布也比 DE 集更广泛和更均匀

可迁移性

为了评估在不同数据集上训练的模型相对可迁移性,作者选择三个模型进行进一步分析:NN -A 1、NN - B 1和二次 SNAP 模型,均使用角动量限制Jmax=3A。

不同训练和测试数据组合的RSE误差分布

A在EM上接受过训练并在EM上进行了验证;B在DE上训练并在EM上验证;C在EM上训练并在DE上验证;D在DE上训练并在DE上验证。只有观察到的平均值相差3个标准差内的误差(大约在99%的数据)被报告以清楚地传达分布的形状。

图A、D显示,当预测从模型训练的集合(DE或EM)中随机抽取的配置的能量时,两组模型都表现出低误差。

模型的可迁移性时通过预测从与用于训练的数据集不同的数据集采样的配置来量化的,如图B、C。

现在两组模型的性能显示出巨大的误差。图B显示,当使用针对DE数据训练的模型预测从EM集中采样的配置的能量时,误差会大幅增加,几乎增加了两个数量级。

当使用针对EM数据训练的模型预测从DE集中采样的配置的能量时,图C显示出适度的误差增加。换句话说,在集中在描述符空间的小区域的紧凑数据集上训练的模型可能非常准确。

A型NN模型和带EM训练的线性SNAP模型的能量守恒是MD时间步长的函数

在所有情况下,对钨 BCC 超级单元,在NVE动力学下的3000K下模拟7.5ps。能量偏差由方程式计算。所有模型都表现出δ t的渐近二阶精度,这是 Störmer-Verlet 时间离散化的特征。高阶偏差仅在 δt > 10 fs 时出现,接近 稳定极限。这表明 NN 模型产生的能量和力预测是一致的、平滑的和有界的。

通过使用LAMMPS代码在生产MD模拟中对其进行测试,证明了所得NN模型在数值和物理上是稳定的。显示了使用 EM 数据集训练的 A 型 NN 模型的能量偏差作为 MD 时间步长δ t的函数
在所有情况下,能量守恒程度与 SNAP 线性模型相当,并且在时间步长中表现出渐近二阶精度,正如 LAMMPS 使用的 Störmer-Verlet 时间离散化所预期的那样。

代码:https://github.com/FitSNAP/FitSNAP


2022月5月4日,哈佛大学Soris Kozinsky团队在nature communications上发表了题为"E(3)-equivariant graph neural networks for data-efficient and accurate interatomic protentials"的文章,开发了基于等变图神经网络模型NequIP ,该模型在分子动力学模拟上,显示出出色的预测准确性、对未见阶段的泛化能力以及非常高的样本效率。

该E(3)等变图神经网络方法:Neural Equivariant Interatomic Potentials (NequIP),用于分子动力学模拟的从头计算中学习原子间势(interatomic potentials)。

现在大多数对称感知模型使用不变卷积并且只用于标量,NequIP使用E(3)等变卷积来处理几何张量的相互作用,从而产生更丰富的信息和更可信的原子环境表示。

NequIP在具有挑战性和多样化的分子和材料集上[包括小分子、不同相的水,无定形固体、固/气界面反应和锂超离子导体]实现了最优的准确性,同时表现出了最好的数据利用效率,训练数据减少多达三个数量,参数少于1000个甚至100个,该方法的高数据效率允许使用高阶量子化学理论水平作为参考构建准确的电位(accurate potentials),并能够在长时间尺度上进行高保真分子动力学模拟。

本工作的贡献是为基于几何张量上的 E(3) 等变卷积的分子和材料引入了深度学习能量守恒的原子间势,从而产生了最先进的精度和出色的数据效率,并且可以从分子动力学模拟中以高保真度再现结构和动力学特性。

a.一组原子被解释为具有局部邻域的原子图。b.原子序数嵌入到 l=0特征中,通过一系列相互作用块进行细化,创建标量和高阶张量特征。一个输出块生成原子能量,这些原子能量被汇集后给出总预测能量。c.相互作用模块,包含卷积。d.卷积通过张量将径向函数R(r)和单位向量???的球偕投影与相邻特征的乘积相结合。

NequIP 网络架构,如上图所示,建立在原子嵌入的基础上,然后是一系列交互块,最后是输出块:

嵌入编码:在SchNet之后,初始特征是使用可训练的嵌入生成的,该嵌入仅对原子序数Zi(通过one-hot编码表示)进行操作,通过可训练的自交互层实现。

交互块:交互块编码相邻原子之间的交互;该块的核心是卷积函数。产生相同旋转和parity pair(lo, po)的不同张量积交互的特征,由线性原子级别自相互作用层混合,相互作用块由ResetNet更新。自相互作用权重是针对每个speices单独学习的。最后,混合特征由等变的基于SiLU的门非线性处理。

输出块:最终的卷积的 l=0 特征被传递到输出块,该输出块由一组两个原子级自相互作用组成。

每个原子,最后一层输出一个标量,被解释为原子势能。然后将这些相加得出系统的总预测势能。随后获的力作为预测的总势能的负梯度,从而确保能量守恒和旋转等变力。

虽然发现 NequIP 显示出出色的预测准确性、对未见阶段的泛化能力以及非常高的样本效率,但仍然存在的一个开放挑战是深度学习原子间势的可解释性。

经典原子间势中的能量贡献可以明确分配给个别类型的相互作用,例如pair-wise bonded terms或Coulomb或van der Waals non-bonded interactions。

仍然需要系统地探索将这些物理知识明确包含在深度学习原子间势的复杂功能形式中的潜在好处和最佳方法。另一方面,允许这种可解释性水平的经典力场函数形式的简单性严重限制了它们的准确性,在两种方法之间呈现出有趣的张力。

作者期望所提出的方法将使计算化学、物理学、生物学和材料科学的研究人员能够以更高的准确性和效率对复杂反应和相变进行分子动力学模拟。

代码路径:https://github.com/mir-group/nequip


本综述重点介绍了使用机器学习(machine learning, ML)评估化学性质(如部分原子电荷、偶极矩、自旋和电子密度以及化学键合)以及获得简化的量子化学描述的进展。

作者概述了几种现代神经网络架构、它们的预测能力、通用性和可迁移性,并说明了它们对各种化学性质的适用性。

观察到的趋势表明,该领域正在向基于ML增强的物理模型发展

原子尺度上的局部性质(如原子电荷和杂化)和分子尺度上的全局性质(如偶极矩、基态和激发态能量)已成为化学思维和描述的实用词汇的核心基本概念和设计应用。这些特性是实验和理论研究的主要目标。

从化学家的角度看物质的粗原子尺度:局部属性与原子、键或碎片等基本结构元素有关,而全局属性则归属于整个系统。二维和三维结构通常被视为周期性的;因此蛋白质作为一个整体的周期性例子得出了复杂性增加的规模。

潜在地,这些特性都可以从计算求解薛定谔方程的第一原理电子结构计算中推断出来。在实践中,精确解很少在数值上易于处理。

因此,已经开发了一系列具有不同保真度的方法,从极其精确的波函数方法(例如耦合聚类技术)、实用且广泛使用的密度泛函理论(DFT)、以及精度较低的半经验方法。

计算化学中机器学习的出现提供了一种新方法,可以为大规模系统提供快速解决方案。化学机器学习的进展清楚地表明,原子和分子特性可以通过机器学习,从而可以克服上述常规限制和数值障碍。

例如,预测ML原子间势的算法的发展,通过绕过量子力学(QM)方法,使得大规模分子动力学研究能够以几乎和经典力场一样低的计算成本进行,而不会牺牲量子力学的准确性。

ML建立有效且准确的替代模型以映射不同变量(理论和实验)的能量迅速使其成为一种非常适合揭示化学结构-性质关系的方法。


现代量子机器学习(QML)方法涉及在训练数据集上对参数化量子电路进行变分优化,然后对测试数据进行预测(即泛化)。在本工作中,作者对有限数量的N个训练数据点进行训练后,对QML中的泛化性能进行了全面研究。

作者的结果表明,具有T个可训练门的量子机器学习模型的泛化误差在最坏的情况下缩放为

,可以显著加快将酉编译成多项式数量的本地门(通常使用指数大小的训练数据的量子计算行业的关键应用)。

使用量子卷积神经网络对相变中的量子态进行分类只需要非常小的训练数据集。其他潜在应用包括学习量子纠错码或量子动力学模拟。

变分动力学模拟(variational dynamical simulation)的最新方法依赖于量子编译,将Trotterized酉编译成具有对角化形式的结构化ansatz。这种技术允许进行比迭代 Trotterization 更长的时间的量子模拟,因为可以手动更改对角化中的参数以提供具有固定深度电路的更长时间的模拟。

作者希望这里展示的量子编译结果能够延续到这个应用程序中。这将允许这些变分量子模拟方法使用更少的训练资源(输入输出对或纠缠辅助系统),但仍能实现良好的泛化和可扩展性。

各种类型的量子机器学习模型(QMLM)

量子相位识别的泛化性能

采用 QCNN 架构对方程的广义簇哈密顿量H的基态进行量子相位识别。

变分酉编译的泛化性能

显示了我们的数值结果。正如我们的分析结果所预测的那样,在对量子比特数大小多项式的数据集进行训练时,我们可以以很高的成功概率准确地编译 QFT。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章