100多年来,科学家们一直在使用X射线晶体学来确定金属、岩石和陶瓷等晶体材料的结构。当晶体完好无损时,这种技术效果最佳,但在许多情况下,科学家们只有粉末状的材料,其中含有晶体的随机碎片。这使得将整体结构拼凑在一起变得更加具有挑战性。
麻省理工学院的化学家们现在提出了一种新的生成式人工智能模型,可以更容易地确定这些粉末晶体的结构。该预测模型可以帮助研究人员表征用于电池、磁铁和许多其他应用的材料。通过分析X射线晶体学数据,该模型可以帮助研究人员开发用于许多应用的新材料。麻省理工学院Frederick George Keyes化学教授Danna Freedman说:“对于任何材料来说,结构都是你需要知道的第一件事。它对超导性很重要,对磁铁很重要,对于知道你创造了什么光伏很重要。它对你能想到的任何以材料为中心的应用都很重要。”。
Freedman和斯坦福大学计算机科学教授Jure Leskovec是这项新研究的资深作者,该研究发表在《美国化学学会杂志》上。麻省理工学院研究生Eric Riesel和耶鲁大学本科生Tsach Mackey是这篇论文的主要作者。
晶体材料包括金属和大多数其他无机固体材料,由许多相同的重复单元组成的晶格组成。这些单元可以被认为是具有独特形状和大小的“盒子”,原子精确地排列在其中。当X射线照射到这些晶格上时,它们会以不同的角度和强度衍射原子,从而揭示原子位置和原子间键的信息。自20世纪初以来,这种技术已被用于分析材料,包括具有晶体结构的生物分子,如DNA和一些蛋白质。
对于仅以粉末晶体形式存在的材料,解决这些结构变得更加困难,因为碎片没有携带原始晶体的完整3D结构。弗里德曼说:“精确的晶格仍然存在,因为我们所说的粉末实际上是微晶的集合。所以,你的晶格与大晶体相同,但它们处于完全随机的方向。”
对于数千种这样的材料,X射线衍射图案存在,但仍未得到解决。为了尝试破解这些材料的结构,Freedman和她的同事们根据一个名为“材料项目”的数据库中的数据训练了一个机器学习模型,该数据库包含超过15万种材料。首先,他们将数万种这种材料放入一个现有的模型中,该模型可以模拟X射线衍射图案的样子。然后,他们使用这些模式来训练他们的人工智能模型,他们称之为Crystalyze,以根据X射线模式预测结构。
该模型将预测结构的过程分解为几个子任务。首先,它确定晶格“盒子”的大小和形状,以及哪些原子将进入其中。然后,它预测盒子内原子的排列。对于每个衍射图案,该模型生成了几个可能的结构,可以通过将这些结构输入一个模型来测试,该模型确定了给定结构的衍射图案。Riesel说:“我们的模型是生成性人工智能,这意味着它生成了以前从未见过的东西,这使我们能够生成几种不同的猜测。我们可以进行一百次猜测,然后我们可以预测粉末模式应该是什么样子。然后,如果输入与输出完全相同,那么我们就知道我们做对了。”
研究人员在材料项目的数千个模拟衍射图案上测试了该模型。他们还对RRUFF数据库中的100多个实验衍射图案进行了测试,该数据库包含近14000种天然晶体矿物的粉末X射线衍射数据,这些数据是他们在训练数据中保留的。根据这些数据,该模型的准确率约为67%。然后,他们开始在以前没有解决的衍射图案上测试该模型。这些数据来自粉末衍射文件,其中包含400000多种已解决和未解决材料的衍射数据。
利用他们的模型,研究人员为100多个以前未解决的模式提出了结构。他们还利用他们的模型发现了弗里德曼实验室通过迫使在大气压下不反应的元素在高压下形成化合物而创造的三种材料的结构。这种方法可用于产生具有完全不同的晶体结构和物理性质的新材料,即使它们的化学成分是相同的。
石墨和金刚石都是由纯碳制成的,它们就是这种材料的例子。弗里德曼开发的材料,每种都含有铋和另一种元素,可用于设计永磁体的新材料。
弗里德曼说:“我们从现有数据中发现了很多新材料,最重要的是,我们实验室解决了三个未知的结构,这些结构构成了这些元素组合的第一个新的二元相。”麻省理工学院的团队表示,能够确定粉末晶体材料的结构可以帮助研究人员在几乎任何与材料相关的领域工作,该团队已在crystalyze.org上发布了该模型的网络界面。
该研究由美国能源部和国家科学基金会资助。