《CFN员工聚焦:曲晓辉跨越了数据科学与材料科学之间的鸿沟》

  • 来源专题:生物质能
  • 编译者: pengh
  • 发布时间:2020-02-05
  • 瞿晓辉,功能纳米材料中心理论与计算组助理科学家,应用人工智能的各种方法分析实验和计算纳米科学数据。在他的电脑屏幕上显示的是由透射电子显微镜(左图)记录的金纳米颗粒的图像分割结果,以及显示纳米颗粒聚集的聚结事件(右图)的颗粒大小演变的剖面图。

    一年前,曲晓辉作为理论和计算组的助理科学家加入了美国能源部布鲁克海文国家实验室科学用户设施中心(CFN)。此前,他是加州大学伯克利分校材料科学与工程系的一名助理项目科学家,在那里他进行了计算,以发现有前途的电池电解质材料。尽管屈是一名训练有素的量子化学家,但他也有开发和应用数据分析技术来解决材料科学中的重要问题的经验。在CFN,他正在利用人工智能(AI)的新兴技术来推进纳米科学的发现。他拥有中国山东大学环境化学专业的博士和学士学位。

    像今天的许多科研机构一样,CFN也面临着大数据的挑战。现代数据分析技术如何帮助解决日益增长的数据规模和复杂性?

    机器学习(ML)等计算机科学技术可以帮助处理科学仪器产生的大数据。例如,CFN电子显微镜设备有一套透射电子显微镜(TEMs),科学家们用它来分析纳米材料的结构、化学和电子信息。环境瞬变电磁法(ETEM)是一种环境瞬变电磁法(ETEM),它可以监测纳米颗粒在操作过程中的生长情况,也就是说,纳米颗粒的结构是如何在相关的工作条件下演化的,比如退火(加热到相对较高的温度)或暴露在某些气体中。了解纳米粒子如何转变是提高材料性能和功能的关键。ETEM具有很高的时间分辨率(毫秒级),这使我们能够对它们的演化进行测量。然而,有大量的数据是不可能手工分析的。

    晓惠曲

    点击图片下载高分辨率版本。曲晓辉与TEM在CFN。

    考虑到ETEM产生了2tb的数据——相当于200,000张图像——用于氮化硅表面金纳米颗粒的进化,这是一个潜在的催化剂系统。每一帧包含数百个粒子,它们的大小和形状需要随着时间的推移进行跟踪。自动跟踪是困难的,因为图像含有明显的背景噪声。这种噪声以白色、灰色和黑色(而不是纯白色或黑色)的混合点出现,模糊了定义良好的边界。这就是基于mlb的图像识别可以提供帮助的地方。

    我正在与CFN的科学家德米特里·扎哈罗夫(Dmitri Zakharov)合作,建立几种检测纳米颗粒的算法。布鲁克海文实验室计算科学项目(CSI)的副计算科学家林跃伟;宾夕法尼亚大学的Eric Stach教授,前CFN电子显微镜小组的领导人。这些图像分割算法将在单帧中识别粒子,并将它们从一帧链接到另一帧,以跟踪它们的演化。由于任何帧中的漏检或误检都将通过粒子演化传播,所以每帧中的检测都需要非常健壮。我们正在开发的一种算法可以跟踪漏检并修正进化过程中产生的错误。

    金纳米颗粒催化剂的发展是一个自动化图像处理和分析有助于减轻大数据负担的实验。为什么选择金纳米颗粒数据集?如何将图像分割方法扩展到催化和其他应用领域?

    根据Dmitri和Eric之前的测量数据,数据集已经存在,它代表了我们需要研究的数据类型。此外,这也是与UPenn的Stach小组正在进行的工作的共同点,他们正在用不同的技术方法对相同的数据集进行类似的图像处理研究。使用不同的图像分割方法——例如,基于边缘的目标检测和分水岭,其中图像被视为地形图——我们共同寻找最佳的算法来处理纳米颗粒图像中的显著噪声。

    期待在新的数据集上测试我们的方法,一些特定的图像分割参数(如阈值)将不能在不同的数据集之间转移,但我们希望算法将是。考虑到需要为新的数据集调整这些参数,我还开发了一个图形用户界面(GUI),以便用户可以根据他们的特定数据集调整细分过程并运行相同的代码。

    通过这种方式,我们为用户社区提供服务,并为不同的数据集获取标记数据。最终,我们将有大量的标记数据集,包含足够的变化来训练一个深度学习模型。深度学习是ML的一种高级形式,它允许我们创建一个适用于不同实验的更通用的模型,理想情况下不需要调整任何参数。

    您提到了术语GUI。你不仅要处理数据;您还需要以用户友好的方式向最终用户显示那些处理过的数据。一旦你建立了一个数据分析工具,你如何让它可用?

    是的,我们和CFN用户不仅需要一个数据分析解决方案,而且还需要一个框架来交付该解决方案。当我刚开始在CFN工作时,我不知道我们需要什么样的web服务。很快,我们就清楚地认识到,我们需要一个动态环境——一个允许我们改进数据分析工具以响应不断变化的用户需求的环境。

    最后,我和布鲁克海文科学数据与计算中心(SDCC)的计算机科学家进行了交谈。特别是,SDCC技术架构师Ofer Rind提到,交付数据分析工具并提供对大型数据集的访问的一个很好的选择是JupyterLab和JupyterHub。这个基于web的用户界面支持动态编程环境和交互式小部件(GUI元素),用户可以控制它们来可视化数据。我向我的组长Mark Hybertsen提出了这个概念,他同意了。图像分割对大数据的可视化要求非常高,因此Jupyter是最佳选择。由SDCC运行的计算机服务器现在托管该服务,我们正在测试它的试点项目。

    我们在JupyterLab上实现的图像分割工具展示了云平台如何支持用户。对于其他CFN组和用户来说,这些平台对于不同的工具非常有用。事实上,我正在与CFN的工作人员科学家Esther Tsai一起开发另一种工具来支持国家同步加速器光源II (nsl -II)的x射线散射数据分析。CFN的开发人员目前正在测试这个工具,一旦我们确认它是可靠的,就会发布给CFN用户。

    数据分析假设您首先要处理数据。对于科学中的许多问题,有些数据是实验的结果,比如您所描述的TEM图像,但其他数据本质上是计算性的。你也使用人工智能方法进行计算数据分析吗?

    回答问题有时需要结合实验和模拟数据分析。人工智能在这两种情况下都是有用的。例如,来自Brookhaven实验室和Stony Brook大学(SBU)的一组科学家演示了一个ML模型,该模型可以从模拟的x射线光谱中推断出材料的局部结构基序,并为与重要测试用例中的实验x射线光谱进行比较提供参考。这项正在进行的研究工作涉及到CFN理论家陆德宇在我们组与布鲁克海文实验室化学部门和SBU化学部门共同任命的Anatoly Frenkel合作的一系列项目;CSI计算科学家yoinjae Yoo和Yuwei Lin;nsl - ii内壳层光谱学引线科学家Eli Stavitski;CFN接口科学与催化组组长达里奥·斯塔奇奥拉。

    我最近加入了这项研究工作,我们正在从几个方面扩展这项工作。例如,我们正在与CFN接口科学和催化组的科学家刘明照合作,开发一个可以推断硅化物薄膜结构的模型,硅化物是一种潜在的有用的催化剂或超导体。

    我们还与美国国家标准与技术研究所的物理学家布鲁斯·拉威尔(Bruce Ravel)合作,建立一个薄膜实验光谱数据库。该数据库将包含几种代表性材料的高质量实验测量数据。当前ML面临的挑战之一是,它需要非常大的数据量和高保真度。有了更好的计算能力,我们现在可以创建模拟光谱的大型数据库。然而,对于实验光谱却不能这样说;创建一个大型的实验数据库不仅耗时,而且开销也很大。我们可以通过在包含计算光谱和实验光谱的混合数据集上建立模型来减少ML所需的数据量。同时,利用实验谱对计算谱进行验证,可以获得较高的数据质量。

    将数据分析应用到材料科学中最具挑战性的部分是什么?

    问题本身的定义非常具有挑战性。材料科学家知道他们试图用材料科学的术语来回答的问题。但是将这些问题组织成数据科学中的可执行问题需要材料和计算机科学的知识。这是一个迭代的过程,涉及到实验人员、计算化学家和数据科学家之间的协作。

    这种改进的一个很好的例子与我正在着手的另一个超导薄膜项目有关。起初,科学家告诉我他们想了解电影的发展。我不知道他们所说的“增长”是什么意思。“通过我们的讨论,我发现他们的一个关键问题是如何建立单层。有了这些知识,我现在可以开发适当的技术来解决这些单层动力学。

    你们的每一个项目都是合作性的,包括与来自不同学科的科学家的互动。你最初是一名化学家,然后被数据科学吸引。这个职业轨迹是如何演变的?你认为这个独特的背景对你的研究有什么影响?

    我对化学有着天生的兴趣,因为我们作为消费者所知道和使用的许多产品都是化学制品。但直到我上了大学,我才发现我实际上喜欢上了化学。在这个时候,我也开始通过网络资源和图书馆的书籍自学计算机科学,我认为从事计算机科学的工作可能更有利可图。但是通过这个教育过程,我意识到计算机科学对于解决材料科学中的问题是至关重要的。

    我的博士学位是将计算化学应用于大气污染研究。然后我从中国搬到了新加坡,在那里我用计算生物学工具做了一个博士后来模拟蛋白质折叠。之后,我在葡萄牙做了另一个博士后,用ML来预测药物分子的化学反应。在伯克利,我的注意力转向了电化学储能系统。我用密度泛函理论(DFT)计算了这些系统的性能,并帮助电池电解质研究社区建立了包含这些性能信息的大型数据库。

    在计算机科学和材料科学方面的双重背景非常有帮助。正如我所提到的,材料科学家和计算机科学家通常会说不同的“语言”,因此他们对各自的目标都不了解。如果计算机科学家可以从材料科学的角度理解要求,那么他们可以建议可行的数据分析解决方案。通过研究,我希望更好地在这两个领域之间架起桥梁。

    由于CFN是国家级的纳米科学用户设施,因此它的设施可供世界各地的科学家使用。结果,CFN社区由不仅具有专门领域专业知识而且具有不同文化的工作人员和用户组成。在中国长大,在新加坡和葡萄牙完成博士后,现在在美国生活和工作,您如何为这种多元文化,跨学科的环境做好准备?

    环游世界使我接触了许多文化和学科。我可以从不同角度看问题,结识特定领域的专家,并更好地理解他们的想法。此功能在CFN上特别有用,因为CFN的每个人都使用独特的技术进行材料发现。来自不同学科的人们确实确实有不同的想法。根据领域,即使是同一单词也可能具有不同的含义。例如,“微级”是指生物学家的蛋白质水平,而对于化学家来说,则是指精细几个数量级(原子分辨率)。了解特定领域的术语对于理解科学问题和要求很重要。

    如今,人工智能已成为流行语,从股票交易和音乐流到导航应用程序和监视系统,应有尽有。虽然已经取得了很大的进步,但是AI仍处于起步阶段。在未来的几年中,您如何预见AI将改变科学事业,尤其是材料科学?

    新兴的数据科学技术具有极大地改变许多领域的潜力。我的希望是,我们开发的工具可以改变材料的发现,将数据转换为可用的格式,从中可以提取知识。或者,甚至更进一步,我希望我们的工具能够实现以前无法实现的各种科学,例如自主实验。自动化不仅可以使实验之间的参数更加一致,而且可以彻底改变设备的操作方式。开发从实验到分析的自动化管道,使用户可以专注于自己的科学,而无需与设备进行手动交互或学习编程方法。很难预测这些未来技术的时间表,但是我们正在尽力而为。

相关报告
  • 《跨学科的材料科学是进步的关键》

    • 来源专题:可再生能源
    • 编译者:pengh
    • 发布时间:2017-11-14
    • 前桑迪亚国家实验室执行主任朱莉娅·m·菲利普斯(Julia m . Phillips)告诉研究人员,在上个月举行的麻省理工学院材料研究实验室(MRL)材料日研讨会上,跨学科材料研究是解决人类面临的生存挑战的关键。 菲利普斯在10月11日的活动上说:“作为材料研究人员,我们都很兴奋,也有点让人沮丧的是,材料的真正影响发生在它们变成了你口袋里随身携带的东西的时候。” 她说,在20世纪后半叶,我们今天认为理所当然的许多技术进步,如笔记本电脑和智能手机,都来自于材料研究的基本进步,以及控制和制造材料的能力。菲利普斯从桑迪亚国家实验室(Sandia National Laboratories)退休,担任副总裁兼首席技术官。他还担任MRL外部咨询委员会(MRL)的主席,也是国家科学委员会(National Science Board)的成员。 MRL是由材料加工中心和材料科学与工程中心合并形成的,该中心于10月1日生效。在他的引言中,MRL主管Carl v . Thompson注意到Geoffrey s.d Beach,材料科学与工程副教授,他是国家科学基金会材料研究科学与工程中心MRL的联合主任和首席研究员。 在工业需求和后二战时期政府资助的研究的推动下,“材料研究无疑是跨学科研究的早期模式,”菲利普斯说。与扫描探针显微镜等新工具了解材料的结构和性能,材料科学家在过去的20世纪创造了全新类别的材料和产品,从超级合金,使更大、更可靠的飞机引擎紧张那麽现代磁记录层超晶格,激光和红外探测器。 未来增长将来自合成的能力和控制越来越复杂的材料,菲利普斯说,注意发展等领域的高温超导体、多孔固体像金属有机框架,和超材料,产生新的属性结合生物材料,在分子尺度上附近的有机物,陶瓷,金属精密在自然界中尚未发现的方法。 “在分子和材料之间的模糊空间中,”这些更新的材料具有非常有趣的特性,它们仍在被充分探索的过程中,它们将在未来几年被利用,菲利普斯指出。“对很多人来说,很明显,随着我们的前进,这些也将是革命性的。” 为解决21世纪能源、环境和可持续性的挑战提供了一个模型;卫生保健和医学;对人类和自然威胁的脆弱性;扩大和提高人类的能力和快乐。Phillips说:“这些都是范例,但你可以看到所有的材料都写在这个清单上,我认为你可能提出的任何类似的清单都有材料写在上面。”“为了应对这些巨大的挑战,我们真的需要能够处理现实复杂的系统,从科学、工程、社会和行为科学,甚至是艺术上,把所有这些学科结合起来。” 菲利普斯说,科学理解和计算建模的进展正在加速研究人员在实际制造新材料之前预测新材料的结构和性质的能力。 麻省理工学院教师安东尼Allanore,波琳娜Anikeeva,a . John Hart Pablo Jarillo-Herrero,Juejun胡锦涛,珍妮弗·鲁普研究更新他们的最近的工作跨越一系列从新的电子设备和超薄层材料对大脑和脊髓的细胞水平探测大规模3 d印刷和金属加工的方法。 ——文章发布于2017年11月5日
  • 《北京高精尖论坛聚焦材料基因工程》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:冯瑞华
    • 发布时间:2020-11-30
    • 11月23日,北京高精尖论坛﹒第一届青年材料科学家论坛在北京举行。论坛上,专家学者们分享了新材料领域前沿研究成果,探讨了材料基因工程新理论、新方法和新应用,共同致力推动新材料研发和产业发展。 北京科技大学校长杨仁树表示,新材料是国家经济建设的物质基础。近年来,我国在新材料领域厚积薄发,部分领域已达到国际领先水平。北京科技大学积极进军材料基因工程研究领域,2017年获批建设北京材料基因工程高精尖创新中心,为把握转型发展的历史机遇、努力推动材料科学技术的新革命奠定了坚实的基础。 北京材料基因工程高精尖创新中心副主任曲选辉从建设背景、建设概况、阶段成果等几方面,对北京材料基因工程高精尖创新中心进行了介绍。他表示,中心的建设目标与任务是聚焦材料基因工程前沿、汇聚高端研究人员,围绕实现新材料“研发周期缩短一半、研发成本降低一半”的战略目标,取得突破性成就。 在开幕式上,国家自然科学基金委副主任高瑞平建议,青年学者开展科研工作要长远布局,以问题为导向,以需求为牵引,关注学科交叉和多层次、多尺度、多耦合发展,不要忽视用新的方法研究传统的问题,重视材料研发的应用目标,更好地服务于科技发展。 主论坛报告环节由北京科技大学教授乔利杰主持。中国联合重型燃气轮机技术有限公司副总设计师楼琅洪、北京航空航天大学材料科学与工程学院教授孙志梅、中国科学院物理研究所研究员金魁、北京科技大学新材料技术研究院教授张达威分别做了题为“重型燃气轮机关键材料应用和发展”“数据驱动的材料跨尺度建模与设计”“基于新一代高通量实验技术的材料研究范式”和“材料服役失效大数据技术研究”的主旨学术报告。 论坛设置了四个分论坛,邀请76位海内外学者分别进行特邀报告,围绕前沿新材料、数据驱动的新材料发现、集成计算材料工程、材料研发智能化等主题开展深入探讨。 据悉,本次高精尖论坛在北京市教育委员会指导下,由北京材料基因工程高精尖创新中心、北京科技大学主办。共有来自高校和科研院所及企事业单位的参会代表450余人,邀请80余位材料科学与工程及相关学科领域国家级杰出青年人才、国家级优秀青年人才、海外知名高校优秀青年科学家为论坛做特邀学术报告。