《材料科学+人工智能:“抱团”才能“更暖”》

  • 来源专题:科技大数据监测服务平台
  • 编译者: zhoujie
  • 发布时间:2019-06-20
  • “一些汽车企业经常讲,汽车再怎么改变,离不开一个壳、一个发动机、四个轮子,吃定了这个就什么都不怕。但是特斯拉一出来,前盖一打开,原来的发动机都没有了,成了装行李的箱子,这些老牌汽车公司立马有了危机感。”

    6月17日,在广东省东莞市召开的粤港澳大湾区科技创新论坛上,中国科学院院士、松山湖材料实验室理事长王恩哥讲的这个故事,引起了大家的深思。

    “谁掌握了材料,谁就掌握了未来。”在王恩哥看来,当前一些热门的领域,如生命健康、信息产业、人工智能等,说到底都要依赖材料的革新。

    在人工智能和材料科学高速协同发展的今天,人们也面临着诸多亟待解决的基本科学问题、关键技术难题及政策实施引导。 这也正是中国科学院学部工作局、中国科学院物理研究所主办本次论坛的原因。科技发展到今天,材料科学和人工智能这两个学科之间,可能从未像现在一样需要彼此。 “材料科学对人工智能的发展是非常重要的,同时人工智能可以帮助材料科学的发展。”中国科学院院士、松山湖材料实验室学术委员会主任赵忠贤说,“对这些问题,我们需要不断讨论,加深认识。” 2011年,美国前总统奥巴马宣布启动了一项雄心勃勃的“材料基因组计划”,投资超过1亿美元。这项计划试图通过数据共享和计算技术,将新材料的研发周期、成本大幅降低。 欧盟、日本、中国也紧随其后。2012年,“材料科学系统工程发展战略研究——中国版材料基因组计划”重大项目启动会在中国工程院召开。 中国科学院院士、清华大学原校长顾秉林认为,以往的材料科学研究是试错、“炒菜”式的,研发周期很长,耗费了很多人力物力。而机器学习以及人工智能的发展,缩短了材料研发的周期、减少了投资、加快了整个领域的进程。“材料科学和人工智能的协同发展无疑将对材料科学起到至关重要的作用。” “材料科学涉及的种类和数据特别多,需要人工智能的介入,才会提高处理效率。”中国科学院院士、武汉大学物理科学与技术学院院长徐红星也认为,“材料科学对人工智能的需求是实实在在的”。

    今年2月,美国国家科学院发布了针对材料研究的第三次十年调查——《材料研究前沿:十年调查》,评估了过去十年中材料研究领域的进展,确定了未来十年的材料研究的机遇、挑战和新方向。其中,在纳米、高熵等前沿材料研究领域,人工智能被寄予厚望。机器学习方法在材料设计和材料筛选方面表现出巨大潜力,将有望极大推动新型材料的发现和传统材料的更新。 反过来,作为必不可缺的硬件基础,人工智能的发展也离不开材料科学的助力。1月,《科学进展(Science Advances)》杂志报道了清华大学和中国科学技术大学科研人员合作完成的一项研究,他们在超导系统中首次实验实现了量子生成对抗学习,展示了量子器件应用于人工智能领域中的可行性及巨大潜力。

    在论坛召开当天,由中国科学院物理所为牵头单位,东莞市政府、中国科学院物理所和中国科学院高能物理研究所共建的松山湖材料实验室也正式动工。这个总体规划1200亩、总经费预算约120亿元的材料科学实验室,定位于成为有国际影响力的新材料研发南方基地、未来国家物质科学研究的重要组成部分、粤港澳交叉开放的新窗口及具有国际品牌效应的粤港澳科研中心。 徐红星希望,松山湖材料实验室地处粤港澳大湾区的创新土壤中,能够充分利用这里灵活的体制机制,加快产业催化,最终让人工智能和材料科学快速产生效应。.

相关报告
  • 《人工智能辅助材料制作》

    • 来源专题:可再生能源
    • 编译者:pengh
    • 发布时间:2017-11-09
    • 近年来,材料基因组计划(Materials Genome Initiative)和材料项目(the Materials Project)等研究成果为设计用于一系列应用的新材料提供了大量的计算工具,从能源、电子到航空和土木工程。 但是,开发这些材料的过程继续依赖于经验、直觉和手工文献综述的结合。 麻省理工学院(MIT)、马萨诸塞大学阿姆赫斯特分校(University of Massachusetts at Amherst)和加州大学伯克利分校(University of California at Berkeley)的一组研究人员希望通过一种新的人工智能系统来关闭这种材料——科学自动化的缺口,该系统将通过研究论文来推断出生产特定材料的“食谱”。 麻省理工学院材料科学与工程学系的能源研究助理教授Elsa Olivetti说:“计算材料科学家们已经在‘该做什么’上取得了很大的进展,这是基于我们想要的特性来设计的材料。”“但由于成功,瓶颈已经转移到,‘好吧,现在我怎么做呢?’” 研究人员设想了一个数据库,其中包含从数百万份文件中提取的材料食谱。科学家和工程师可以输入目标材料的名称和任何其他标准——前体材料、反应条件、制造过程——并提出建议配方。 一步实现这一愿景,奥利维蒂和她的同事已经开发出一种机器学习系统,可以分析一篇研究论文,推断其段落包含材料的配方,并对其进行分类单词在这些段落根据他们的角色在食谱:目标材料的名字,数字量,设备名称、操作条件、描述性形容词,等等。 在一篇出现在最新一期的《化学材料,他们也证明了机器学习系统可以分析提取的数据来推断总体特征的类的材料,如他们的合成需要的不同温度范围-或特定特征的个人材料,如不同的物理形式时,他们将他们的制造条件有所不同。 Olivetti是这篇论文的资深作者,她和麻省理工学院的研究生爱德华·金一起,Kevin Huang,一位DMSE博士后;亚当·桑德斯(Adam Saunders)和安德鲁·麦卡勒姆(Andrew McCallum),UMass Amherst的计算机科学家;Gerbrand Ceder是加州大学伯克利分校材料科学与工程学系的校长。 填写空白 研究人员使用监督和无监督的机器学习技术训练他们的系统。“监督”是指给系统提供的培训数据首先由人进行注解;系统试图找出原始数据和注释之间的相关性。“无监督”意味着训练数据是无注释的,而系统则根据结构相似性学习将数据聚在一起。 由于材料配方的提取是一个新的研究领域,Olivetti和她的同事们并没有享受到由不同的研究团队多年积累的大型、带注释的数据集。相反,他们不得不自己注释自己的数据——最终,大约有100篇论文。 通过机器学习标准,这是一个相当小的数据集,为了改进它,他们使用了一个在谷歌开发的名为Word2vec的算法。Word2vec研究单词发生的上下文——单词在句子中的句法角色和周围的其他单词——以及组合在一起的单词,这些单词往往有类似的上下文。例如,如果一篇论文中包含了“我们将四氯化钛加热到500摄氏度”的句子,另一篇文章则包含了“氢氧化钠加热到500摄氏度”的句子,Word2vec会将“四氯化钛”和“氢氧化钠”组合在一起。 在Word2vec中,研究人员能够极大地扩展他们的训练集,因为机器学习系统可以推断出一个附加在任何给定单词上的标签很可能应用于与之相关联的其他单词。因此,研究人员可以用大约64万张纸来训练他们的系统,而不是100篇论文。 冰山一角 然而,为了测试系统的准确性,他们不得不依赖被标记的数据,因为他们没有标准来评估其在未标记数据上的性能。在这些测试中,该系统能够识别出包含食谱的段落的99%的准确性,并以86%的准确度将这些段落中的单词准确地标注出来。 研究人员希望进一步的研究能提高系统的准确性,在正在进行的工作中,他们正在探索一种深度学习技术,可以对材料配方的结构进行进一步的归纳,目标是自动设计在现有文献中没有考虑到的材料的食谱。 Olivetti先前的研究主要集中在寻找更具成本效益和环保的方法来生产有用的材料,她希望一个材料的数据库可以abet这个项目。 “这是具有里程碑意义的工作,”加州大学圣芭芭拉分校(University of California at Santa Barbara)材料科学的弗雷德(Fred)和Linda r . Wudl教授的Ram Seshadri说。“作者们通过人工智能方法,利用人工智能方法来捕捉新材料,这是一项艰巨而又雄心勃勃的挑战。”这项工作展示了机器学习的力量,但准确地说,最终的成功或失败的判断需要有说服力的实践者相信,这种方法的效用可以使他们放弃更本能的方法。 这项研究是由美国国家科学基金会、海军研究办公室、能源部和麻省理工学院能源计划的种子支持所支持的。金部分得到了加拿大自然科学和工程研究委员会的支持。 ——文章发布于2017年的11月5日
  • 《CFN员工聚焦:曲晓辉跨越了数据科学与材料科学之间的鸿沟》

    • 来源专题:生物质能
    • 编译者:pengh
    • 发布时间:2020-02-05
    • 瞿晓辉,功能纳米材料中心理论与计算组助理科学家,应用人工智能的各种方法分析实验和计算纳米科学数据。在他的电脑屏幕上显示的是由透射电子显微镜(左图)记录的金纳米颗粒的图像分割结果,以及显示纳米颗粒聚集的聚结事件(右图)的颗粒大小演变的剖面图。 一年前,曲晓辉作为理论和计算组的助理科学家加入了美国能源部布鲁克海文国家实验室科学用户设施中心(CFN)。此前,他是加州大学伯克利分校材料科学与工程系的一名助理项目科学家,在那里他进行了计算,以发现有前途的电池电解质材料。尽管屈是一名训练有素的量子化学家,但他也有开发和应用数据分析技术来解决材料科学中的重要问题的经验。在CFN,他正在利用人工智能(AI)的新兴技术来推进纳米科学的发现。他拥有中国山东大学环境化学专业的博士和学士学位。 像今天的许多科研机构一样,CFN也面临着大数据的挑战。现代数据分析技术如何帮助解决日益增长的数据规模和复杂性? 机器学习(ML)等计算机科学技术可以帮助处理科学仪器产生的大数据。例如,CFN电子显微镜设备有一套透射电子显微镜(TEMs),科学家们用它来分析纳米材料的结构、化学和电子信息。环境瞬变电磁法(ETEM)是一种环境瞬变电磁法(ETEM),它可以监测纳米颗粒在操作过程中的生长情况,也就是说,纳米颗粒的结构是如何在相关的工作条件下演化的,比如退火(加热到相对较高的温度)或暴露在某些气体中。了解纳米粒子如何转变是提高材料性能和功能的关键。ETEM具有很高的时间分辨率(毫秒级),这使我们能够对它们的演化进行测量。然而,有大量的数据是不可能手工分析的。 晓惠曲 点击图片下载高分辨率版本。曲晓辉与TEM在CFN。 考虑到ETEM产生了2tb的数据——相当于200,000张图像——用于氮化硅表面金纳米颗粒的进化,这是一个潜在的催化剂系统。每一帧包含数百个粒子,它们的大小和形状需要随着时间的推移进行跟踪。自动跟踪是困难的,因为图像含有明显的背景噪声。这种噪声以白色、灰色和黑色(而不是纯白色或黑色)的混合点出现,模糊了定义良好的边界。这就是基于mlb的图像识别可以提供帮助的地方。 我正在与CFN的科学家德米特里·扎哈罗夫(Dmitri Zakharov)合作,建立几种检测纳米颗粒的算法。布鲁克海文实验室计算科学项目(CSI)的副计算科学家林跃伟;宾夕法尼亚大学的Eric Stach教授,前CFN电子显微镜小组的领导人。这些图像分割算法将在单帧中识别粒子,并将它们从一帧链接到另一帧,以跟踪它们的演化。由于任何帧中的漏检或误检都将通过粒子演化传播,所以每帧中的检测都需要非常健壮。我们正在开发的一种算法可以跟踪漏检并修正进化过程中产生的错误。 金纳米颗粒催化剂的发展是一个自动化图像处理和分析有助于减轻大数据负担的实验。为什么选择金纳米颗粒数据集?如何将图像分割方法扩展到催化和其他应用领域? 根据Dmitri和Eric之前的测量数据,数据集已经存在,它代表了我们需要研究的数据类型。此外,这也是与UPenn的Stach小组正在进行的工作的共同点,他们正在用不同的技术方法对相同的数据集进行类似的图像处理研究。使用不同的图像分割方法——例如,基于边缘的目标检测和分水岭,其中图像被视为地形图——我们共同寻找最佳的算法来处理纳米颗粒图像中的显著噪声。 期待在新的数据集上测试我们的方法,一些特定的图像分割参数(如阈值)将不能在不同的数据集之间转移,但我们希望算法将是。考虑到需要为新的数据集调整这些参数,我还开发了一个图形用户界面(GUI),以便用户可以根据他们的特定数据集调整细分过程并运行相同的代码。 通过这种方式,我们为用户社区提供服务,并为不同的数据集获取标记数据。最终,我们将有大量的标记数据集,包含足够的变化来训练一个深度学习模型。深度学习是ML的一种高级形式,它允许我们创建一个适用于不同实验的更通用的模型,理想情况下不需要调整任何参数。 您提到了术语GUI。你不仅要处理数据;您还需要以用户友好的方式向最终用户显示那些处理过的数据。一旦你建立了一个数据分析工具,你如何让它可用? 是的,我们和CFN用户不仅需要一个数据分析解决方案,而且还需要一个框架来交付该解决方案。当我刚开始在CFN工作时,我不知道我们需要什么样的web服务。很快,我们就清楚地认识到,我们需要一个动态环境——一个允许我们改进数据分析工具以响应不断变化的用户需求的环境。 最后,我和布鲁克海文科学数据与计算中心(SDCC)的计算机科学家进行了交谈。特别是,SDCC技术架构师Ofer Rind提到,交付数据分析工具并提供对大型数据集的访问的一个很好的选择是JupyterLab和JupyterHub。这个基于web的用户界面支持动态编程环境和交互式小部件(GUI元素),用户可以控制它们来可视化数据。我向我的组长Mark Hybertsen提出了这个概念,他同意了。图像分割对大数据的可视化要求非常高,因此Jupyter是最佳选择。由SDCC运行的计算机服务器现在托管该服务,我们正在测试它的试点项目。 我们在JupyterLab上实现的图像分割工具展示了云平台如何支持用户。对于其他CFN组和用户来说,这些平台对于不同的工具非常有用。事实上,我正在与CFN的工作人员科学家Esther Tsai一起开发另一种工具来支持国家同步加速器光源II (nsl -II)的x射线散射数据分析。CFN的开发人员目前正在测试这个工具,一旦我们确认它是可靠的,就会发布给CFN用户。 数据分析假设您首先要处理数据。对于科学中的许多问题,有些数据是实验的结果,比如您所描述的TEM图像,但其他数据本质上是计算性的。你也使用人工智能方法进行计算数据分析吗? 回答问题有时需要结合实验和模拟数据分析。人工智能在这两种情况下都是有用的。例如,来自Brookhaven实验室和Stony Brook大学(SBU)的一组科学家演示了一个ML模型,该模型可以从模拟的x射线光谱中推断出材料的局部结构基序,并为与重要测试用例中的实验x射线光谱进行比较提供参考。这项正在进行的研究工作涉及到CFN理论家陆德宇在我们组与布鲁克海文实验室化学部门和SBU化学部门共同任命的Anatoly Frenkel合作的一系列项目;CSI计算科学家yoinjae Yoo和Yuwei Lin;nsl - ii内壳层光谱学引线科学家Eli Stavitski;CFN接口科学与催化组组长达里奥·斯塔奇奥拉。 我最近加入了这项研究工作,我们正在从几个方面扩展这项工作。例如,我们正在与CFN接口科学和催化组的科学家刘明照合作,开发一个可以推断硅化物薄膜结构的模型,硅化物是一种潜在的有用的催化剂或超导体。 我们还与美国国家标准与技术研究所的物理学家布鲁斯·拉威尔(Bruce Ravel)合作,建立一个薄膜实验光谱数据库。该数据库将包含几种代表性材料的高质量实验测量数据。当前ML面临的挑战之一是,它需要非常大的数据量和高保真度。有了更好的计算能力,我们现在可以创建模拟光谱的大型数据库。然而,对于实验光谱却不能这样说;创建一个大型的实验数据库不仅耗时,而且开销也很大。我们可以通过在包含计算光谱和实验光谱的混合数据集上建立模型来减少ML所需的数据量。同时,利用实验谱对计算谱进行验证,可以获得较高的数据质量。 将数据分析应用到材料科学中最具挑战性的部分是什么? 问题本身的定义非常具有挑战性。材料科学家知道他们试图用材料科学的术语来回答的问题。但是将这些问题组织成数据科学中的可执行问题需要材料和计算机科学的知识。这是一个迭代的过程,涉及到实验人员、计算化学家和数据科学家之间的协作。 这种改进的一个很好的例子与我正在着手的另一个超导薄膜项目有关。起初,科学家告诉我他们想了解电影的发展。我不知道他们所说的“增长”是什么意思。“通过我们的讨论,我发现他们的一个关键问题是如何建立单层。有了这些知识,我现在可以开发适当的技术来解决这些单层动力学。 你们的每一个项目都是合作性的,包括与来自不同学科的科学家的互动。你最初是一名化学家,然后被数据科学吸引。这个职业轨迹是如何演变的?你认为这个独特的背景对你的研究有什么影响? 我对化学有着天生的兴趣,因为我们作为消费者所知道和使用的许多产品都是化学制品。但直到我上了大学,我才发现我实际上喜欢上了化学。在这个时候,我也开始通过网络资源和图书馆的书籍自学计算机科学,我认为从事计算机科学的工作可能更有利可图。但是通过这个教育过程,我意识到计算机科学对于解决材料科学中的问题是至关重要的。 我的博士学位是将计算化学应用于大气污染研究。然后我从中国搬到了新加坡,在那里我用计算生物学工具做了一个博士后来模拟蛋白质折叠。之后,我在葡萄牙做了另一个博士后,用ML来预测药物分子的化学反应。在伯克利,我的注意力转向了电化学储能系统。我用密度泛函理论(DFT)计算了这些系统的性能,并帮助电池电解质研究社区建立了包含这些性能信息的大型数据库。 在计算机科学和材料科学方面的双重背景非常有帮助。正如我所提到的,材料科学家和计算机科学家通常会说不同的“语言”,因此他们对各自的目标都不了解。如果计算机科学家可以从材料科学的角度理解要求,那么他们可以建议可行的数据分析解决方案。通过研究,我希望更好地在这两个领域之间架起桥梁。 由于CFN是国家级的纳米科学用户设施,因此它的设施可供世界各地的科学家使用。结果,CFN社区由不仅具有专门领域专业知识而且具有不同文化的工作人员和用户组成。在中国长大,在新加坡和葡萄牙完成博士后,现在在美国生活和工作,您如何为这种多元文化,跨学科的环境做好准备? 环游世界使我接触了许多文化和学科。我可以从不同角度看问题,结识特定领域的专家,并更好地理解他们的想法。此功能在CFN上特别有用,因为CFN的每个人都使用独特的技术进行材料发现。来自不同学科的人们确实确实有不同的想法。根据领域,即使是同一单词也可能具有不同的含义。例如,“微级”是指生物学家的蛋白质水平,而对于化学家来说,则是指精细几个数量级(原子分辨率)。了解特定领域的术语对于理解科学问题和要求很重要。 如今,人工智能已成为流行语,从股票交易和音乐流到导航应用程序和监视系统,应有尽有。虽然已经取得了很大的进步,但是AI仍处于起步阶段。在未来的几年中,您如何预见AI将改变科学事业,尤其是材料科学? 新兴的数据科学技术具有极大地改变许多领域的潜力。我的希望是,我们开发的工具可以改变材料的发现,将数据转换为可用的格式,从中可以提取知识。或者,甚至更进一步,我希望我们的工具能够实现以前无法实现的各种科学,例如自主实验。自动化不仅可以使实验之间的参数更加一致,而且可以彻底改变设备的操作方式。开发从实验到分析的自动化管道,使用户可以专注于自己的科学,而无需与设备进行手动交互或学习编程方法。很难预测这些未来技术的时间表,但是我们正在尽力而为。