《人工智能辅助材料制作》

  • 来源专题:可再生能源
  • 编译者: pengh
  • 发布时间:2017-11-09
  • 近年来,材料基因组计划(Materials Genome Initiative)和材料项目(the Materials Project)等研究成果为设计用于一系列应用的新材料提供了大量的计算工具,从能源、电子到航空和土木工程。

    但是,开发这些材料的过程继续依赖于经验、直觉和手工文献综述的结合。

    麻省理工学院(MIT)、马萨诸塞大学阿姆赫斯特分校(University of Massachusetts at Amherst)和加州大学伯克利分校(University of California at Berkeley)的一组研究人员希望通过一种新的人工智能系统来关闭这种材料——科学自动化的缺口,该系统将通过研究论文来推断出生产特定材料的“食谱”。

    麻省理工学院材料科学与工程学系的能源研究助理教授Elsa Olivetti说:“计算材料科学家们已经在‘该做什么’上取得了很大的进展,这是基于我们想要的特性来设计的材料。”“但由于成功,瓶颈已经转移到,‘好吧,现在我怎么做呢?’”

    研究人员设想了一个数据库,其中包含从数百万份文件中提取的材料食谱。科学家和工程师可以输入目标材料的名称和任何其他标准——前体材料、反应条件、制造过程——并提出建议配方。

    一步实现这一愿景,奥利维蒂和她的同事已经开发出一种机器学习系统,可以分析一篇研究论文,推断其段落包含材料的配方,并对其进行分类单词在这些段落根据他们的角色在食谱:目标材料的名字,数字量,设备名称、操作条件、描述性形容词,等等。

    在一篇出现在最新一期的《化学材料,他们也证明了机器学习系统可以分析提取的数据来推断总体特征的类的材料,如他们的合成需要的不同温度范围-或特定特征的个人材料,如不同的物理形式时,他们将他们的制造条件有所不同。

    Olivetti是这篇论文的资深作者,她和麻省理工学院的研究生爱德华·金一起,Kevin Huang,一位DMSE博士后;亚当·桑德斯(Adam Saunders)和安德鲁·麦卡勒姆(Andrew McCallum),UMass Amherst的计算机科学家;Gerbrand Ceder是加州大学伯克利分校材料科学与工程学系的校长。

    填写空白

    研究人员使用监督和无监督的机器学习技术训练他们的系统。“监督”是指给系统提供的培训数据首先由人进行注解;系统试图找出原始数据和注释之间的相关性。“无监督”意味着训练数据是无注释的,而系统则根据结构相似性学习将数据聚在一起。

    由于材料配方的提取是一个新的研究领域,Olivetti和她的同事们并没有享受到由不同的研究团队多年积累的大型、带注释的数据集。相反,他们不得不自己注释自己的数据——最终,大约有100篇论文。

    通过机器学习标准,这是一个相当小的数据集,为了改进它,他们使用了一个在谷歌开发的名为Word2vec的算法。Word2vec研究单词发生的上下文——单词在句子中的句法角色和周围的其他单词——以及组合在一起的单词,这些单词往往有类似的上下文。例如,如果一篇论文中包含了“我们将四氯化钛加热到500摄氏度”的句子,另一篇文章则包含了“氢氧化钠加热到500摄氏度”的句子,Word2vec会将“四氯化钛”和“氢氧化钠”组合在一起。

    在Word2vec中,研究人员能够极大地扩展他们的训练集,因为机器学习系统可以推断出一个附加在任何给定单词上的标签很可能应用于与之相关联的其他单词。因此,研究人员可以用大约64万张纸来训练他们的系统,而不是100篇论文。

    冰山一角

    然而,为了测试系统的准确性,他们不得不依赖被标记的数据,因为他们没有标准来评估其在未标记数据上的性能。在这些测试中,该系统能够识别出包含食谱的段落的99%的准确性,并以86%的准确度将这些段落中的单词准确地标注出来。

    研究人员希望进一步的研究能提高系统的准确性,在正在进行的工作中,他们正在探索一种深度学习技术,可以对材料配方的结构进行进一步的归纳,目标是自动设计在现有文献中没有考虑到的材料的食谱。

    Olivetti先前的研究主要集中在寻找更具成本效益和环保的方法来生产有用的材料,她希望一个材料的数据库可以abet这个项目。

    “这是具有里程碑意义的工作,”加州大学圣芭芭拉分校(University of California at Santa Barbara)材料科学的弗雷德(Fred)和Linda r . Wudl教授的Ram Seshadri说。“作者们通过人工智能方法,利用人工智能方法来捕捉新材料,这是一项艰巨而又雄心勃勃的挑战。”这项工作展示了机器学习的力量,但准确地说,最终的成功或失败的判断需要有说服力的实践者相信,这种方法的效用可以使他们放弃更本能的方法。

    这项研究是由美国国家科学基金会、海军研究办公室、能源部和麻省理工学院能源计划的种子支持所支持的。金部分得到了加拿大自然科学和工程研究委员会的支持。

    ——文章发布于2017年的11月5日

相关报告
  • 《人工智能软件协助设计太阳能电池的新材料》

    • 来源专题:可再生能源
    • 编译者:pengh
    • 发布时间:2018-09-13
    • 利用材料信息学探索聚合物太阳能电池的新聚合物。(上)由电子供体、电子受体和烷基链组成的聚合物结构的例子。(中)随机森林法分类。(下)材料信息学、实践实验与人类智能的协同结合。 信贷:大阪大学 在转向可再生经济的过程中,太阳能电池将发挥关键作用。有机光伏(OPVs)是一种很有前途的太阳能电池,基于一种吸光有机分子和一种半导体聚合物。 OPVs由廉价、轻质的材料制成,安全可靠,易于生产。然而,它们的能量转换效率(PCEs)——将光转化为电能的能力——仍然太低,无法实现全面的商业化。 PCE既依赖于有机层,也依赖于聚合物层。传统上,化学家通过反复试验来试验这些物质的不同组合,从而浪费了大量的时间和精力。 现在,大阪大学的一个研究小组已经使用计算机来自动搜索匹配良好的太阳能材料。在未来,这可能会导致更高效的设备。这项研究发表在《物理化学快报》杂志上。 “聚合物的选择会影响一些特性,比如直接决定PCE的短路电流,”第一作者长川信司解释道。然而,要设计出性能更好的聚合物并不是一件容易的事情。传统的化学知识是不够的。相反,我们使用人工智能来指导设计过程。 信息学可以通过探测人类专家无法察觉的统计趋势,从而对庞大而复杂的数据集有意义。研究小组从大约500个研究中收集了1200个opv的数据。利用随机森林机器学习,他们建立了一个模型,结合了这些前OPVs的带隙、分子量和化学结构,以及它们的PCE,来预测潜在的新设备的效率。 Random Forest揭示了在OPVs中材料性能与其实际性能之间的改进相关性。为了利用这一点,该模型被用于自动“筛选”预期聚合物的理论PCE,然后根据实践中可合成物的化学直觉,削减了顶级候选聚合物的名单。 这一策略促使该团队开发出了一种新的、此前未经测试的聚合物。在这种情况下,基于第一次尝试的实用OPV比预期的效率低。然而,该模型对结构-属性关系提供了有用的见解。它的预测可以通过包括更多的数据来改进,比如聚合物在水中的溶解度,或者它们骨架的规律性。 “机器学习可以极大地加速太阳能电池的发展,因为它可以瞬间预测出在实验室需要几个月的结果,”合著者Akinori Saeki说。“这并不是对人类因素的直接替代,但它可以为分子设计师选择探索哪条路径提供关键支持。” ——文章发布于2018年5月29日
  • 《机器学习辅助的高性能有机光伏材料分子设计》

    • 来源专题:可再生能源
    • 编译者:pengh
    • 发布时间:2019-11-20
    • 为了合成用于将太阳辐射转换成直流电的有机光伏(OPV)的高性能材料,材料科学家必须有意义地建立化学结构与其光伏特性之间的关系。 在一项关于科学进步的新研究中,孙文博及其一个团队,包括来自能源与动力工程学院,自动化学院,计算机科学,电气工程以及绿色和智能技术学院的研究人员,建立了一个新的数据库,该数据库使用1,700多种捐助材料 现有文献报告。 他们将监督学习与机器学习模型结合使用,使用针对不同ML算法的各种输入来建立结构-属性关系并快速筛选OPV材料。 使用超过1000位长度的分子指纹(以二进制位编码分子的结构)。获得了较高的ML预测精度。他们通过筛选10种新设计的供体材料以确保模型预测与实验结果之间的一致性,从而验证了该方法的可靠性。 ML结果提供了一个强大的工具,可以预筛选新的OPV材料并加速材料工程中OPV的开发。 有机光伏(OPV)电池可以促进太阳能以直接且具有成本效益的方式转换为电能,而最近的快速增长使其超过了电能转换效率(PCE)的速度。主流OPV研究集中在建立新的OPV分子结构与其光伏特性之间的关系。传统工艺通常涉及光伏材料的设计和合成,以用于光伏电池的组装/优化。这种方法导致耗时的研究周期,需要精细控制化学合成和装置制造,实验步骤和纯化。现有的OPV开发过程缓慢且效率低下,到目前为止,合成和测试的OPV供体分子不到2000个。然而,从数十年研究工作中收集的数据是无价的,潜在价值仍有待充分探索以生成高性能OPV材料。 为了从数据中提取有用的信息,Sun等人。 需要一个复杂的程序来扫描大型数据集并从要素之间提取关系。 由于机器学习(ML)提供了使用训练数据集学习和识别模式和关系的计算工具,因此该团队使用了数据驱动的方法来启用ML并预测各种材料特性。 机器学习算法不必了解材料属性背后的化学或物理原理即可完成任务。 最近,类似的方法已经成功地预测了材料发现,药物开发和材料设计过程中材料的活性/性质。 在ML应用之前,科学家已经生成了化学信息学来建立有用的工具箱。 材料科学家直到最近才探索ML在OPV领域中的应用。在目前的工作中,Sun等。建立了一个数据库,其中包含从文献中收集的1719个经过实验测试的供体OPV材料。他们首先研究了分子的语言表达对理解机器学习性能的重要性。然后,他们测试了几种不同类型的表达式,包括图像,ASCII字符串,两种类型的描述符和七种类型的分子指纹。他们观察到模型预测与实验结果非常吻合。科学家们希望这种新方法能够极大地加快用于OPV研究应用的新型高效有机半导体材料的开发。 研究团队首先将原始数据转换为机器可读的表示形式。同一分子存在多种表达形式,包括以不同抽象水平呈现的极为不同的化学信息。 Sun等使用一组ML模型。通过比较功率转换效率(PCE)的预测准确度,获得了69.41%的深度学习模型,从而探索了分子的多种表达。相对较差的性能是由于数据库较小。例如,以前,当同一小组使用最多50,000个分子时,深度学习模型的准确性超过90%。要完全训练深度学习模型,研究人员必须实现一个包含数百万个样本的更大的数据库。 目前每个类别中只有数百个分子,因此模型很难提取足够的信息来获得更高的准确性。尽管可以对预训练的模型进行微调以减少所需的数据量,但仍需要成千上万的样本来实现足够数量的特征。当使用图像表达分子时,这导致增加数据库大小的选择。 科学家在研究中使用了五种监督ML算法,包括(1)反向传播(BP)神经网络(BPNN),(2)深度神经网络(DNN),(3)深度学习,(4)支持向量机(SVM)和(5)随机森林(RF)。这些是高级算法,其中BPNN,DNN和深度学习均基于人工中性网络(ANN)。 SMILES代码(简化的分子输入线输入系统)提供了分子的另一种原始表达,Sun等人(2002年)。用作四个模型的输入。根据结果??,RF模型的最高准确度约为67.84%。和以前一样,与深度学习不同,这四种经典方法无法提取隐藏特征。总体而言,SMILES作为图像的分子描述符在预测数据中的PCE(功率转换效率)等级方面表现不及图像。 然后,研究人员使用了分子描述符,该描述符可以使用数字数组而不是化学结构的直接表达来描述分子的特性。研究小组在研究中使用了两种类型的描述符PaDEL和RDKIt。在对所有ML模型进行广泛分析之后,大数据量意味着更多与PCE不相关的描述符会影响ANN性能。相比之下,当使用分子描述符作为ML方法的输入时,小的数据量意味着无法有效地训练ML模型的化学信息,关键在于找到与目标物体直接相关的合适描述符。 研究小组接下来使用了分子指纹;通常用于将分子表示为数学对象,最初用于识别同分异构体。在大规模的数据库筛选过程中,这个概念被表示为一个包含“1”和“0”的位数组,用来描述分子中特定子结构或模式的存在或不存在。Sun等以7种类型的指纹作为输入,训练ML模型,考虑指纹长度对不同模型预测性能的影响,得到不同的指纹。例如,分子接入系统(MACCS)指纹包含166位元,是最短的输入,由于信息有限,结果并不理想。 Sun等人利用1024位杂交指纹和RF得到编程语言与ML算法的最佳组合,预测准确率达到81.76%;其中杂化指纹表示分子的SP2杂化状态。当指纹长度从166位增加到1024位时,所有ML模型的性能都得到了改善,因为较长的指纹包含了更多的化学信息。 为了验证ML模型的可靠性,Sun等人合成了10个新的OPV供体分子。然后用三个有代表性的指纹图谱来表达新分子的化学结构,并将RF模型预测的结果与实验PCE值进行比较。系统将10个分子中的8个分类。结果表明,通过对两种新材料进行额外的实验优化,合成材料在OPV应用中的潜力。结构上的微小变化可能导致PCE值的巨大差异。令人鼓舞的是,ML模型确定了这些微小的修改,以促进良好的预测结果。 这样,孙文波和同事利用OPV供体材料的文献数据库和各种编程语言表达式(图像、ASCII字符串、描述符和分子指纹)来建立ML模型,并预测相应的OPV PCE类。该团队展示了一种利用ML方法和实验分析设计OPV供体材料的方案。他们使用ML模型筛选了大量的供体材料,以确定合成和进一步实验的主要候选材料。这一新的工作可以加速新型供氧材料的设计,从而加速高PCE OPVs的发展。将毫升与实验结合使用将促进材料的发现。