为电池组件设计最佳的分子积木,就像试图创造一种新型蛋糕的配方,而你有数十亿种潜在的配料。挑战在于确定哪些成分最适合搭配,或者更简单地说,生产出一种可食用的产品(或者,就电池而言,是一种安全的产品)。但是,即使拥有最先进的超级计算机,科学家们也无法精确地模拟每一种分子的化学特性,而这种化学特性可能成为下一代电池材料的基础。
相反,美国能源部阿贡国家实验室(DOE)的研究人员已经转向机器学习和人工智能的力量,以大大加快电池的发现过程。
正如两篇新论文所描述的,阿贡的研究人员首先建立了一个高度精确的数据库,其中包含大约13.3万个可能构成电池电解质基础的小有机分子。为此,他们使用了一种称为G4MP2的计算密集型模型。然而,这些分子只是科学家们想要探索的1660亿个更大分子中的一小部分。
因为使用G4MP2解决每个1660亿分子需要一个不可能的计算时间和力量,研究小组使用了机器学习算法与精确已知结构的小型数据集建模更粗更大的数据集的结构。
“在确定这些分子的工作方式时,准确性和计算结果所需的时间之间存在巨大的权衡,”阿贡数据科学与学习部门主任、其中一篇论文的作者伊恩·福斯特(Ian Foster)说。“我们相信,机器学习代表了一种方法,可以用一小部分计算成本获得几乎同样精确的分子图像。”
为了给机器学习模型提供一个基础,福斯特和他的同事们使用了一个基于密度泛函理论的计算量较小的建模框架,这是一个用于计算大型系统中电子结构的量子力学建模框架。密度泛函理论为分子性质提供了一个很好的近似,但不如G4MP2准确。
改进算法,以便更好地确定更广泛的有机分子类别的信息,这些有机分子包括使用高度精确的G4MP2计算的分子的原子位置与仅使用密度泛函理论分析的分子的原子位置。以G4MP2为金标准,研究人员可以训练密度泛函理论模型加入修正因子,在降低计算成本的同时提高其精度。
“机器学习算法给出了一种看原子在一个大的分子之间的关系和他们的邻居,看他们如何债券和互动,并寻找相似之处我们知道这些分子和其他人很好,”阿贡计算科学家洛根说病房,其中一项研究的作者之一。“这将有助于我们对这些大分子的能量或低精度和高精度计算之间的差异做出预测。”
Argonne的化学家Rajeev Assary是这两项研究的作者之一,他说:“整个项目的目的是为我们提供电池电解质的最大可能图景。”“如果我们要将一种分子用于能量存储应用,我们需要知道它的性质,比如它的稳定性,我们可以使用这种机器学习来更准确地预测大分子的性质。”
6月27日的《化学科学》在线期刊上发表了一篇论文,描述了基于g4mp2的数据集“13.3万个有机分子的精确量子化学能量”的形成过程。
第二篇论文描述了机器学习算法,“机器学习从低保真度量子化学计算中准确预测有机分子的原子化能”,发表在8月27日的《夫人通讯》杂志上。
——文章发布于2019年11月27日