近年来,材料基因组计划(Materials Genome Initiative)和材料项目(the Materials Project)等研究成果为设计用于一系列应用的新材料提供了大量的计算工具,从能源、电子到航空和土木工程。
但是,开发这些材料的过程继续依赖于经验、直觉和手工文献综述的结合。
麻省理工学院(MIT)、马萨诸塞大学阿姆赫斯特分校(University of Massachusetts at Amherst)和加州大学伯克利分校(University of California at Berkeley)的一组研究人员希望通过一种新的人工智能系统来关闭这种材料——科学自动化的缺口,该系统将通过研究论文来推断出生产特定材料的“食谱”。
麻省理工学院材料科学与工程学系的能源研究助理教授Elsa Olivetti说:“计算材料科学家们已经在‘该做什么’上取得了很大的进展,这是基于我们想要的特性来设计的材料。”“但由于成功,瓶颈已经转移到,‘好吧,现在我怎么做呢?’”
研究人员设想了一个数据库,其中包含从数百万份文件中提取的材料食谱。科学家和工程师可以输入目标材料的名称和任何其他标准——前体材料、反应条件、制造过程——并提出建议配方。
一步实现这一愿景,奥利维蒂和她的同事已经开发出一种机器学习系统,可以分析一篇研究论文,推断其段落包含材料的配方,并对其进行分类单词在这些段落根据他们的角色在食谱:目标材料的名字,数字量,设备名称、操作条件、描述性形容词,等等。
在一篇出现在最新一期的《化学材料,他们也证明了机器学习系统可以分析提取的数据来推断总体特征的类的材料,如他们的合成需要的不同温度范围-或特定特征的个人材料,如不同的物理形式时,他们将他们的制造条件有所不同。
Olivetti是这篇论文的资深作者,她和麻省理工学院的研究生爱德华·金一起,Kevin Huang,一位DMSE博士后;亚当·桑德斯(Adam Saunders)和安德鲁·麦卡勒姆(Andrew McCallum),UMass Amherst的计算机科学家;Gerbrand Ceder是加州大学伯克利分校材料科学与工程学系的校长。
填写空白
研究人员使用监督和无监督的机器学习技术训练他们的系统。“监督”是指给系统提供的培训数据首先由人进行注解;系统试图找出原始数据和注释之间的相关性。“无监督”意味着训练数据是无注释的,而系统则根据结构相似性学习将数据聚在一起。
由于材料配方的提取是一个新的研究领域,Olivetti和她的同事们并没有享受到由不同的研究团队多年积累的大型、带注释的数据集。相反,他们不得不自己注释自己的数据——最终,大约有100篇论文。
通过机器学习标准,这是一个相当小的数据集,为了改进它,他们使用了一个在谷歌开发的名为Word2vec的算法。Word2vec研究单词发生的上下文——单词在句子中的句法角色和周围的其他单词——以及组合在一起的单词,这些单词往往有类似的上下文。例如,如果一篇论文中包含了“我们将四氯化钛加热到500摄氏度”的句子,另一篇文章则包含了“氢氧化钠加热到500摄氏度”的句子,Word2vec会将“四氯化钛”和“氢氧化钠”组合在一起。
在Word2vec中,研究人员能够极大地扩展他们的训练集,因为机器学习系统可以推断出一个附加在任何给定单词上的标签很可能应用于与之相关联的其他单词。因此,研究人员可以用大约64万张纸来训练他们的系统,而不是100篇论文。
冰山一角
然而,为了测试系统的准确性,他们不得不依赖被标记的数据,因为他们没有标准来评估其在未标记数据上的性能。在这些测试中,该系统能够识别出包含食谱的段落的99%的准确性,并以86%的准确度将这些段落中的单词准确地标注出来。
研究人员希望进一步的研究能提高系统的准确性,在正在进行的工作中,他们正在探索一种深度学习技术,可以对材料配方的结构进行进一步的归纳,目标是自动设计在现有文献中没有考虑到的材料的食谱。
Olivetti先前的研究主要集中在寻找更具成本效益和环保的方法来生产有用的材料,她希望一个材料的数据库可以abet这个项目。
“这是具有里程碑意义的工作,”加州大学圣芭芭拉分校(University of California at Santa Barbara)材料科学的弗雷德(Fred)和Linda r . Wudl教授的Ram Seshadri说。“作者们通过人工智能方法,利用人工智能方法来捕捉新材料,这是一项艰巨而又雄心勃勃的挑战。”这项工作展示了机器学习的力量,但准确地说,最终的成功或失败的判断需要有说服力的实践者相信,这种方法的效用可以使他们放弃更本能的方法。
这项研究是由美国国家科学基金会、海军研究办公室、能源部和麻省理工学院能源计划的种子支持所支持的。金部分得到了加拿大自然科学和工程研究委员会的支持。
——文章发布于2017年的11月5日