AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

9180点击 2023-12-08 14:20

继谷歌DeepMind AI工具成功预测出220万种晶体结构后，微软团队最新扩散模型MatterGen，能设计生成新颖、稳定的材料，刷新SOTA。

材料科学领域的一个重大挑战，如今被大模型攻克了。

先前，谷歌DeepMind的全新AI工具GNoME，成功预测出220万种晶体结构，在学术界掀起海啸级地震。

今天，微软团队推出下一代生成式AI工具——MatterGen，大大提升了设计所需特性材料的速度。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

当前，材料科学的核心挑战是，发现所需特性的材料，比如高锂离子电导率的电池材料。

一般来说，要做到这一点，首先需要找到新材料，然后根据应用进行筛选。

这就好比要创建一只猫的图像，首先要生成100万张不同的图像，然后再搜索有猫的图像。

而有了MatterGen模型，就可以「直接生成」所需特性的新型材料，这与DALL·E处理图像生成的方式非常相似。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

论文地址：https://arxiv.org/pdf/2312.03687.pdf

简单来说，MatterGen是扩散模型的一种，专门设计用于生成新颖、稳定的材料。

另外，MatterGen还有适配器模块，可根据化学、对称性等各种约束条件进行微调，以生成材料。

值得一提的是，与SOTA模型（CDVAE）相比，MatterGen生成的新颖独特结构的稳定性高出2.9倍。它还生成接近能量局部最小值17.5倍的结构。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

看得出，AI在材料设计和筛选方面表现出巨大潜力，必将给材料学带来颠覆性的变革。

晶体材料生成的扩散过程

在MatterGen中，研究人员介绍了一种为晶体材料量身定制的新型扩散过程，如下图a。

扩散模型通过学习分数网络（score network）来逆转固定的破坏过程来生成样本。

图像的破坏过程通常添加高斯噪声，但晶体材料具有独特的周期结构和对称性，需要定制的扩散过程。

晶体材料可由其重复单元（即单元格）定义，单元格编码原子类型A（即化学元素）、坐标X和周期晶格L。

作者为每个成分定义了一个适合其自身几何形状的破坏过程，并具有物理上的极限噪声分布。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

再具体来讲，坐标扩散采用包裹正态分布，来遵守周期边界，并在噪声极限接近均匀分布。

其中，晶格扩散采用对称形式，接近于平均值为训练数据中原子平均密度的立方晶格分布。原子扩散是在分类空间中定义的，其中单个原子被损坏成掩蔽状态。

根据破坏后的结构，便可以学习一个分数网络，它可以分别为原子类型、坐标和晶格输出等变分数，从而无需从数据中学习对称性。

对此，研究人员将该网络称为「基础模型」。

为了生成具有所需属性约束的材料，研究人员还引入了适配器模块，这些模块可用于在带有属性标签的附加数据集上对「基础模型」进行微调，如下图b所示。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

由于计算成本较高，如果标注的数据集与未标注的结构数据集相比规模较小，微调仍能很好地发挥作用。

适配器模块是注入到基本模型的每一层中的可调节的组件，以根据给定的属性标签改变其输出。

由此产生的微调模型与无分类器引导结合使用，引导生成的结果符合目标属性约束。

作者将这种方法应用于多种类型的属性，生成了一套微调模型，可以生成具有目标化学成分、对称性或标量属性（如磁密度）的材料，下图c。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

生成稳定、多样化材料

那么，MatterGen究竟如何才能生成稳定的材料？

在作者看来，MatterGen的基本模型生成稳定、多样化材料的能力，是解决任何逆向材料设计任务的先决条件。

研究人员将逆向材料设计的生成模型设计为一个两步过程：

首先预训练一个通用的基本模型，以便在元素周期表上生成稳定的、多样的晶体，然后针对不同的下游任务对基本模型进行微调。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

为了训练基础模型，研究者从Materials Project（MP）和Alexandria数据集中重新计算了607,684个稳定结构（多达20个原子），并将其称为Alex-MP-20。

研究者认为，如果通过DFT松弛后每个原子的能量低于参考数据集的0.1 eV/原子阈值，包括从MP、Alexandria和ICSD数据集重新计算的1,081,850个独特结构，则该结构是稳定的。

下图a显示了，MatterGen生成的几个随机样品，具有典型的无机材料配位环境。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

为了评估稳定性，研究人员对1024个生成结构进行DFT计算。

图b显示了，78%的结构生成低于0.1 eV/原子阈值（13%低于0.0 eV/原子阈值) ，而75%的结构生成低于0.1 eV/原子阈值（3%低于0.0 eV/原子阈值）。此外，图c显示95%的生成结构具有RMSD w.r.t。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

研究进一步发现，MatterGen可以生成大量独特和新颖的材料。

如图d所示，当生成1000个结构时，独特结构的百分比是100% ，而当生成100万个结构时，独特结构的百分比仅下降到86% ，而新颖性保持稳定在68%左右。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

此外，研究人员还将MatterGen与先前的材料生成模型进行比较，并显示出性能方面的显著改进。

这里，主要关注两个关键指标:

(1) 生成样本中 S.U.N. 材料的百分比，衡量生成有希望候选材料的总体成功率；

(2) 生成样本与其DFT松弛结构之间的平均RMSD，衡量与等效平衡的距离。

实验结果显示，在图e-f中，与之前最先进的CDVAE相比，MatterGen-MP显示S.U.N.结构的百分比提高了1.8倍，平均RMSD降低了3.1倍。

在比较MatterGen和微调的MatterGen-MP时，研究者还发现由于扩大了训练数据集，S.U.N.结构的比例进一步提高了1.6倍，RMSD降低了5.5倍。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

综上所述，作者已经证明，与以前的生成模型相比，MatterGen能够以更高的速率生成S.U.N.物质，同时生成的结构在数量级上更接近其局部能量最小值。

目标化学材料生成

在目标化学体系（如Li-Co-O）中找到最稳定的材料结构，对于确定评估稳定性所需的真正凸包（Convex hull）至关重要，实际上也是材料设计的主要挑战之一。

在下图a-b中，可以看到MatterGen在每种系统类型，和每种化学复杂度下生成的S.U.N.结构百分比都是最高的。

如图c所示，在「部分探索」系统和「充分探索系统」中，MatterGen在组合凸包上找到的独特结构数量也是最高的，前者在训练过程中提供了凸包附近的已知结构，后者在训练过程中没有提供凸包附近的已知结构。

在三元和四元系统中，替换法提供了一种相似或更有效的方法来生成「船体」上的结构，而MatterGen则在二元系统中取得了更好的性能，如图d所示。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

此外，当筛选方法因数据库中的材料枯竭而趋于饱和时，MatterGen可以不断生成满足高体积模量等目标特性的新型材料。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

与筛选基线相比，MatterGen发现了更多新颖的稳定高体积模量材料，并且不会因计算资源的增加而停滞不前。MatterGen可以找到250多种体积模量>400 GPa的材料，而在参考数据集中只找到2种此类材料。

另外，MatterGen还可以生成给定目标空间组的结构。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

MatterGen在性能受限的情况下生成稳定的新材料

最后，研究人员还解决了寻找低供应链风险磁铁的多属性材料设计问题。MatterGen提出的结构既具有高磁密度，又具有低供应链风险的化学成分。

网友看后表示，室温超导体又要回来了。

AI再颠覆材料学！微软MatterGen直接生成新材料，稳定性超SOTA模型2.9倍

正如微软团队所说，MatterGen是AI在材料设计领域向前迈出的重要一步。

参考资料：

https://www.microsoft.com/en-us/research/blog/mattergen-property-guided-materials-design/

文章来自于微信公众号 “新智元”，作者 “新智元编辑部”

关键词: MatterGen , GNoME , AI科研 , SOTA

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner