《机器学习预测有机分子内的态密度,加速功能材料设计》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-07-11
  • 近日,来自东京大学的研究团队开发了一种机器学习算法来预测有机分子内的态密度(DOS),即电子在材料分子内的基态中可以占据的能级数目。这些基于光谱数据的预测对有机化学家和材料科学家分析碳基分子很有帮助。

    局部原子和电子结构与纳米材料的性质密切相关。因此,表征局部原子和电子结构对于研究和设计纳米材料变得至关重要。在纳米材料的表征方法中,核损失光谱(Core-loss Spectroscopy),即电子能量损失谱 (EELS)和 X 射线吸收近边结构(XANES),由于其具有较高的空间分辨率和灵敏度,反映了材料的原子和电子结构,得到了广泛的应用。

    然而,分子结构、化学键和各种分子性质,如磁性和机械性质,主要是由已占轨道的基态电子结构决定的,这是不能直接从核损失谱中得到的。此外,基态电子结构与核损光谱之间的联系是间接的,光谱所具有的信息仅在激发分子的电子缺失(未占据)状态下。为了解决这个问题,东京大学的团队训练了一个神经网络机器学习模型来分析核损光谱数据并预测电子态密度。该研究旨在使用 ML 从碳 k 边(C K-edge)核损失谱中获得有机分子的完整基态电子结构,特别是 s 轨道和 p 轨道分波态密度 (Partial Density of States,PDOS)。研究使用具有两个隐藏层的前馈神经网络 (FNN) 作为 ML 模型,以数据库中的碳 K 边 ELNES/XANES 和基态 PDOS 碳 s- 和 p- 轨道分别用作输入和输出。

    首先,通过计算 22 151 个分子的态密度和相应的核损耗光谱来构建数据库。还添加了一些模拟噪音。然后,该算法在核损失谱上进行了训练并进行了优化,以预测基态下占据和未占据状态的正确态密度。「我们试图使用由较小分子训练的模型来推断对较大分子的预测。我们发现通过排除小分子可以提高准确性,」论文一作 Po-Yen Chen 解释说。

    对于进一步的研究,外推研究提供了一个重要的指示,因为外推的成功意味着 PDOS 预测存在规律性,并且该 ML 模型可能应用于更大的分子。


    在第一个模型 model-blue 中,将具有不同原子数的分子的 ELNES/XANES-PDOS 相关性与测试数据集进行了比较。平均 MSE 值随着训练数据集中分子的原子数 (n) 的增加而减小,这意味着较大的分子具有相似的 ELNES/XANES– PDOS 与测试数据集的相关性。在 model-green 模型中,更大的 n 意味着更大的分子被添加到训练数据集中。趋势非常接近 model-blue,最小值出现在模型中具有 1-20 个原子的分子,表明将较大的分子添加到训练数据集中可以增加 ELNES/XANES- 的相似性 PDOS 相关性。在 model-brown 中,n 的增加对应于去除训练数据集中原子数少于 n 的分子。有趣的是,它首先显示出较低的 MSE,然后在去除具有 18 个或更多原子的分子时 MSE明显更高。为了详细了解微小分子排除的影响,从三个模型中挑选了两个 model,model A 和 model B。结果表明模型 B 可以提供与模型 A 相似或更好的 PDOS 预测。此外,模型 B 中训练数据集的大小(5848 个数据)比模型 A 中的训练数据集(21042 个数据)小 4 倍,表明去除微小分子可以提高 PDOS 预测,而不是增加训练数据量。为了证实模型的进一步外推能力,研究人员还构建了 10 个工业固硬剂或环氧树脂分子的分子结构,并模拟了 ELNES/XANES 光谱,结果表明模在没有微小分子的情况下表现出良好的外推性能,并且具有应用于大分子的潜力。

    为了检查模型的外推能力,研究人员检查了三种类型的训练数据集(分别称为 model-blue、model-green 和 model-brown),但所有训练都是使用小于 20 个原子的相对较小的分子进行的。应用三种不同类型的模型来预测具有 21-26 个原子的较大分子的 PDOS,作为测试数据。




  • 原文来源:https://doi.org/10.1021/acs.jpclett.3c00142
相关报告
  • 《机器学习辅助的高性能有机光伏材料分子设计》

    • 来源专题:可再生能源
    • 编译者:pengh
    • 发布时间:2019-11-20
    • 为了合成用于将太阳辐射转换成直流电的有机光伏(OPV)的高性能材料,材料科学家必须有意义地建立化学结构与其光伏特性之间的关系。 在一项关于科学进步的新研究中,孙文博及其一个团队,包括来自能源与动力工程学院,自动化学院,计算机科学,电气工程以及绿色和智能技术学院的研究人员,建立了一个新的数据库,该数据库使用1,700多种捐助材料 现有文献报告。 他们将监督学习与机器学习模型结合使用,使用针对不同ML算法的各种输入来建立结构-属性关系并快速筛选OPV材料。 使用超过1000位长度的分子指纹(以二进制位编码分子的结构)。获得了较高的ML预测精度。他们通过筛选10种新设计的供体材料以确保模型预测与实验结果之间的一致性,从而验证了该方法的可靠性。 ML结果提供了一个强大的工具,可以预筛选新的OPV材料并加速材料工程中OPV的开发。 有机光伏(OPV)电池可以促进太阳能以直接且具有成本效益的方式转换为电能,而最近的快速增长使其超过了电能转换效率(PCE)的速度。主流OPV研究集中在建立新的OPV分子结构与其光伏特性之间的关系。传统工艺通常涉及光伏材料的设计和合成,以用于光伏电池的组装/优化。这种方法导致耗时的研究周期,需要精细控制化学合成和装置制造,实验步骤和纯化。现有的OPV开发过程缓慢且效率低下,到目前为止,合成和测试的OPV供体分子不到2000个。然而,从数十年研究工作中收集的数据是无价的,潜在价值仍有待充分探索以生成高性能OPV材料。 为了从数据中提取有用的信息,Sun等人。 需要一个复杂的程序来扫描大型数据集并从要素之间提取关系。 由于机器学习(ML)提供了使用训练数据集学习和识别模式和关系的计算工具,因此该团队使用了数据驱动的方法来启用ML并预测各种材料特性。 机器学习算法不必了解材料属性背后的化学或物理原理即可完成任务。 最近,类似的方法已经成功地预测了材料发现,药物开发和材料设计过程中材料的活性/性质。 在ML应用之前,科学家已经生成了化学信息学来建立有用的工具箱。 材料科学家直到最近才探索ML在OPV领域中的应用。在目前的工作中,Sun等。建立了一个数据库,其中包含从文献中收集的1719个经过实验测试的供体OPV材料。他们首先研究了分子的语言表达对理解机器学习性能的重要性。然后,他们测试了几种不同类型的表达式,包括图像,ASCII字符串,两种类型的描述符和七种类型的分子指纹。他们观察到模型预测与实验结果非常吻合。科学家们希望这种新方法能够极大地加快用于OPV研究应用的新型高效有机半导体材料的开发。 研究团队首先将原始数据转换为机器可读的表示形式。同一分子存在多种表达形式,包括以不同抽象水平呈现的极为不同的化学信息。 Sun等使用一组ML模型。通过比较功率转换效率(PCE)的预测准确度,获得了69.41%的深度学习模型,从而探索了分子的多种表达。相对较差的性能是由于数据库较小。例如,以前,当同一小组使用最多50,000个分子时,深度学习模型的准确性超过90%。要完全训练深度学习模型,研究人员必须实现一个包含数百万个样本的更大的数据库。 目前每个类别中只有数百个分子,因此模型很难提取足够的信息来获得更高的准确性。尽管可以对预训练的模型进行微调以减少所需的数据量,但仍需要成千上万的样本来实现足够数量的特征。当使用图像表达分子时,这导致增加数据库大小的选择。 科学家在研究中使用了五种监督ML算法,包括(1)反向传播(BP)神经网络(BPNN),(2)深度神经网络(DNN),(3)深度学习,(4)支持向量机(SVM)和(5)随机森林(RF)。这些是高级算法,其中BPNN,DNN和深度学习均基于人工中性网络(ANN)。 SMILES代码(简化的分子输入线输入系统)提供了分子的另一种原始表达,Sun等人(2002年)。用作四个模型的输入。根据结果??,RF模型的最高准确度约为67.84%。和以前一样,与深度学习不同,这四种经典方法无法提取隐藏特征。总体而言,SMILES作为图像的分子描述符在预测数据中的PCE(功率转换效率)等级方面表现不及图像。 然后,研究人员使用了分子描述符,该描述符可以使用数字数组而不是化学结构的直接表达来描述分子的特性。研究小组在研究中使用了两种类型的描述符PaDEL和RDKIt。在对所有ML模型进行广泛分析之后,大数据量意味着更多与PCE不相关的描述符会影响ANN性能。相比之下,当使用分子描述符作为ML方法的输入时,小的数据量意味着无法有效地训练ML模型的化学信息,关键在于找到与目标物体直接相关的合适描述符。 研究小组接下来使用了分子指纹;通常用于将分子表示为数学对象,最初用于识别同分异构体。在大规模的数据库筛选过程中,这个概念被表示为一个包含“1”和“0”的位数组,用来描述分子中特定子结构或模式的存在或不存在。Sun等以7种类型的指纹作为输入,训练ML模型,考虑指纹长度对不同模型预测性能的影响,得到不同的指纹。例如,分子接入系统(MACCS)指纹包含166位元,是最短的输入,由于信息有限,结果并不理想。 Sun等人利用1024位杂交指纹和RF得到编程语言与ML算法的最佳组合,预测准确率达到81.76%;其中杂化指纹表示分子的SP2杂化状态。当指纹长度从166位增加到1024位时,所有ML模型的性能都得到了改善,因为较长的指纹包含了更多的化学信息。 为了验证ML模型的可靠性,Sun等人合成了10个新的OPV供体分子。然后用三个有代表性的指纹图谱来表达新分子的化学结构,并将RF模型预测的结果与实验PCE值进行比较。系统将10个分子中的8个分类。结果表明,通过对两种新材料进行额外的实验优化,合成材料在OPV应用中的潜力。结构上的微小变化可能导致PCE值的巨大差异。令人鼓舞的是,ML模型确定了这些微小的修改,以促进良好的预测结果。 这样,孙文波和同事利用OPV供体材料的文献数据库和各种编程语言表达式(图像、ASCII字符串、描述符和分子指纹)来建立ML模型,并预测相应的OPV PCE类。该团队展示了一种利用ML方法和实验分析设计OPV供体材料的方案。他们使用ML模型筛选了大量的供体材料,以确定合成和进一步实验的主要候选材料。这一新的工作可以加速新型供氧材料的设计,从而加速高PCE OPVs的发展。将毫升与实验结合使用将促进材料的发现。
  • 《机器学习模型为预测材料属性和结构助力》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:冯瑞华
    • 发布时间:2018-06-11
    • Robert Rudd,Timofey Frolov和Amit Samanta三人站在模拟C2H4分子的拓扑原子的模型前面,该模型由分子中的原子量子论(QTAIM)定义并通过TopoMS计算得到,每种颜色代表一个原子。来源:劳伦斯利弗莫尔国家实验室 利用机器学习,演化算法和其他先进的计算技术,劳伦斯利弗莫尔国家实验室(LLNL)的研究人员成功地模拟了构成大多数材料的晶体之间的原子排列方式,这一发展可能对未来材料的设计和优化方式产生影响。 尽管大多数材料在肉眼看来可能是均匀的固体,但它们实际上是由微小的晶粒或颗粒组成,它们之间在原子水平上存在着界面,科学家称之为晶界。晶界对于材料特性和功能十分重要,因此这些晶界的结构已被广泛研究。然而,通过手工搜索数十亿种可能的结构,并试图预测它们的行为无异于大海捞针。 LLNL、内华达大学、拉斯维加斯大学,石溪大学和加州大学戴维斯分校的研究人员已经设计了一种基于先进算法和机器学习的方法,能够通过梳理晶界中原子的排列方式,并预测它们将如何在一定条件下相互作用。科学家表示,该方法最终提供了一种预测材料性能的方法,未来可能在开发具有更高强度,更高耐热性或更高导电性的材料方面取得重大突破。这篇论文今年早些时候在菲尼克斯召开的金属和材料学会2018年国际会议上发表。 该项目首席研究员LLNL科学家Timofey Frolov说:“我们开发的第一种计算工具能够有效地采样晶界的可能结构,并找到对应的低能量结构以及重要的亚稳态。令人惊喜和震惊的是,我们自认为已经理解了晶界的结构,但实际上没有。事实上,我们正在从头开始,因为我们所看到的许多晶界结构与我们之前的想法不一样。” 科学家说:“晶界的原子构成是材料在某些条件,如强热或极压条件下,如何表现或改变相位(即固态为液态)的基础。使用机器学习可以探索可能的结构并能够以计算方式对它们进行建模,这可能会对设计用于各种能源应用的材料产生重大影响,这些应用包括固态燃料电池,用于发电的热电,氧传感器,光纤,开关,激光器放大器和镜头等。” “近年来,机器学习发生了一场革命,从而获得以前无法获得的东西,而以前对晶界结构的研究却给出了不正确的结果,那么就需要这些现代技术的力量来找到正确的答案。”LLNL计算材料科学组组长Robert Rudd说。“近几十年来我们所看到的很多技术变革都是通过以前不存在的材料实现的,因此,为这些结构启用和优化设计将会改变游戏规则。” 研究人员使用铜材料创建并表征了新模型,并成功地用硅,钨和其他材料对其进行了演示和测试。LLNL的聚变能源计划中也已经实施。Frolov表示,他希望进一步开发具有多种元素的系统功能陶瓷的方法,该方法会在高温下显示出迷人和复杂的转变。 “最近大量的实验研究表明,掺杂后陶瓷材料的晶粒生长行为发生了巨大的变化,并且将这些变化与晶界处的结构转变联系起来,”Frolev说。“例如,异常大尺寸晶粒的形成可以彻底改变材料的性质,但难以预测或控制。我们的新方法首先可以提供晶界转变的证据,也可以预测晶界的不同状态,并解释实验中看到材料性质产生突然变化的原因。” 原文来自phys网站,原文题目为Machine learning model predicts phenomenon key to understanding material properties,