《CFN员工聚焦:曲晓辉跨越了数据科学与材料科学之间的鸿沟》

  • 来源专题:生物质能
  • 编译者: pengh
  • 发布时间:2020-02-05
  • 瞿晓辉,功能纳米材料中心理论与计算组助理科学家,应用人工智能的各种方法分析实验和计算纳米科学数据。在他的电脑屏幕上显示的是由透射电子显微镜(左图)记录的金纳米颗粒的图像分割结果,以及显示纳米颗粒聚集的聚结事件(右图)的颗粒大小演变的剖面图。

    一年前,曲晓辉作为理论和计算组的助理科学家加入了美国能源部布鲁克海文国家实验室科学用户设施中心(CFN)。此前,他是加州大学伯克利分校材料科学与工程系的一名助理项目科学家,在那里他进行了计算,以发现有前途的电池电解质材料。尽管屈是一名训练有素的量子化学家,但他也有开发和应用数据分析技术来解决材料科学中的重要问题的经验。在CFN,他正在利用人工智能(AI)的新兴技术来推进纳米科学的发现。他拥有中国山东大学环境化学专业的博士和学士学位。

    像今天的许多科研机构一样,CFN也面临着大数据的挑战。现代数据分析技术如何帮助解决日益增长的数据规模和复杂性?

    机器学习(ML)等计算机科学技术可以帮助处理科学仪器产生的大数据。例如,CFN电子显微镜设备有一套透射电子显微镜(TEMs),科学家们用它来分析纳米材料的结构、化学和电子信息。环境瞬变电磁法(ETEM)是一种环境瞬变电磁法(ETEM),它可以监测纳米颗粒在操作过程中的生长情况,也就是说,纳米颗粒的结构是如何在相关的工作条件下演化的,比如退火(加热到相对较高的温度)或暴露在某些气体中。了解纳米粒子如何转变是提高材料性能和功能的关键。ETEM具有很高的时间分辨率(毫秒级),这使我们能够对它们的演化进行测量。然而,有大量的数据是不可能手工分析的。

    晓惠曲

    点击图片下载高分辨率版本。曲晓辉与TEM在CFN。

    考虑到ETEM产生了2tb的数据——相当于200,000张图像——用于氮化硅表面金纳米颗粒的进化,这是一个潜在的催化剂系统。每一帧包含数百个粒子,它们的大小和形状需要随着时间的推移进行跟踪。自动跟踪是困难的,因为图像含有明显的背景噪声。这种噪声以白色、灰色和黑色(而不是纯白色或黑色)的混合点出现,模糊了定义良好的边界。这就是基于mlb的图像识别可以提供帮助的地方。

    我正在与CFN的科学家德米特里·扎哈罗夫(Dmitri Zakharov)合作,建立几种检测纳米颗粒的算法。布鲁克海文实验室计算科学项目(CSI)的副计算科学家林跃伟;宾夕法尼亚大学的Eric Stach教授,前CFN电子显微镜小组的领导人。这些图像分割算法将在单帧中识别粒子,并将它们从一帧链接到另一帧,以跟踪它们的演化。由于任何帧中的漏检或误检都将通过粒子演化传播,所以每帧中的检测都需要非常健壮。我们正在开发的一种算法可以跟踪漏检并修正进化过程中产生的错误。

    金纳米颗粒催化剂的发展是一个自动化图像处理和分析有助于减轻大数据负担的实验。为什么选择金纳米颗粒数据集?如何将图像分割方法扩展到催化和其他应用领域?

    根据Dmitri和Eric之前的测量数据,数据集已经存在,它代表了我们需要研究的数据类型。此外,这也是与UPenn的Stach小组正在进行的工作的共同点,他们正在用不同的技术方法对相同的数据集进行类似的图像处理研究。使用不同的图像分割方法——例如,基于边缘的目标检测和分水岭,其中图像被视为地形图——我们共同寻找最佳的算法来处理纳米颗粒图像中的显著噪声。

    期待在新的数据集上测试我们的方法,一些特定的图像分割参数(如阈值)将不能在不同的数据集之间转移,但我们希望算法将是。考虑到需要为新的数据集调整这些参数,我还开发了一个图形用户界面(GUI),以便用户可以根据他们的特定数据集调整细分过程并运行相同的代码。

    通过这种方式,我们为用户社区提供服务,并为不同的数据集获取标记数据。最终,我们将有大量的标记数据集,包含足够的变化来训练一个深度学习模型。深度学习是ML的一种高级形式,它允许我们创建一个适用于不同实验的更通用的模型,理想情况下不需要调整任何参数。

    您提到了术语GUI。你不仅要处理数据;您还需要以用户友好的方式向最终用户显示那些处理过的数据。一旦你建立了一个数据分析工具,你如何让它可用?

    是的,我们和CFN用户不仅需要一个数据分析解决方案,而且还需要一个框架来交付该解决方案。当我刚开始在CFN工作时,我不知道我们需要什么样的web服务。很快,我们就清楚地认识到,我们需要一个动态环境——一个允许我们改进数据分析工具以响应不断变化的用户需求的环境。

    最后,我和布鲁克海文科学数据与计算中心(SDCC)的计算机科学家进行了交谈。特别是,SDCC技术架构师Ofer Rind提到,交付数据分析工具并提供对大型数据集的访问的一个很好的选择是JupyterLab和JupyterHub。这个基于web的用户界面支持动态编程环境和交互式小部件(GUI元素),用户可以控制它们来可视化数据。我向我的组长Mark Hybertsen提出了这个概念,他同意了。图像分割对大数据的可视化要求非常高,因此Jupyter是最佳选择。由SDCC运行的计算机服务器现在托管该服务,我们正在测试它的试点项目。

    我们在JupyterLab上实现的图像分割工具展示了云平台如何支持用户。对于其他CFN组和用户来说,这些平台对于不同的工具非常有用。事实上,我正在与CFN的工作人员科学家Esther Tsai一起开发另一种工具来支持国家同步加速器光源II (nsl -II)的x射线散射数据分析。CFN的开发人员目前正在测试这个工具,一旦我们确认它是可靠的,就会发布给CFN用户。

    数据分析假设您首先要处理数据。对于科学中的许多问题,有些数据是实验的结果,比如您所描述的TEM图像,但其他数据本质上是计算性的。你也使用人工智能方法进行计算数据分析吗?

    回答问题有时需要结合实验和模拟数据分析。人工智能在这两种情况下都是有用的。例如,来自Brookhaven实验室和Stony Brook大学(SBU)的一组科学家演示了一个ML模型,该模型可以从模拟的x射线光谱中推断出材料的局部结构基序,并为与重要测试用例中的实验x射线光谱进行比较提供参考。这项正在进行的研究工作涉及到CFN理论家陆德宇在我们组与布鲁克海文实验室化学部门和SBU化学部门共同任命的Anatoly Frenkel合作的一系列项目;CSI计算科学家yoinjae Yoo和Yuwei Lin;nsl - ii内壳层光谱学引线科学家Eli Stavitski;CFN接口科学与催化组组长达里奥·斯塔奇奥拉。

    我最近加入了这项研究工作,我们正在从几个方面扩展这项工作。例如,我们正在与CFN接口科学和催化组的科学家刘明照合作,开发一个可以推断硅化物薄膜结构的模型,硅化物是一种潜在的有用的催化剂或超导体。

    我们还与美国国家标准与技术研究所的物理学家布鲁斯·拉威尔(Bruce Ravel)合作,建立一个薄膜实验光谱数据库。该数据库将包含几种代表性材料的高质量实验测量数据。当前ML面临的挑战之一是,它需要非常大的数据量和高保真度。有了更好的计算能力,我们现在可以创建模拟光谱的大型数据库。然而,对于实验光谱却不能这样说;创建一个大型的实验数据库不仅耗时,而且开销也很大。我们可以通过在包含计算光谱和实验光谱的混合数据集上建立模型来减少ML所需的数据量。同时,利用实验谱对计算谱进行验证,可以获得较高的数据质量。

    将数据分析应用到材料科学中最具挑战性的部分是什么?

    问题本身的定义非常具有挑战性。材料科学家知道他们试图用材料科学的术语来回答的问题。但是将这些问题组织成数据科学中的可执行问题需要材料和计算机科学的知识。这是一个迭代的过程,涉及到实验人员、计算化学家和数据科学家之间的协作。

    这种改进的一个很好的例子与我正在着手的另一个超导薄膜项目有关。起初,科学家告诉我他们想了解电影的发展。我不知道他们所说的“增长”是什么意思。“通过我们的讨论,我发现他们的一个关键问题是如何建立单层。有了这些知识,我现在可以开发适当的技术来解决这些单层动力学。

    你们的每一个项目都是合作性的,包括与来自不同学科的科学家的互动。你最初是一名化学家,然后被数据科学吸引。这个职业轨迹是如何演变的?你认为这个独特的背景对你的研究有什么影响?

    我对化学有着天生的兴趣,因为我们作为消费者所知道和使用的许多产品都是化学制品。但直到我上了大学,我才发现我实际上喜欢上了化学。在这个时候,我也开始通过网络资源和图书馆的书籍自学计算机科学,我认为从事计算机科学的工作可能更有利可图。但是通过这个教育过程,我意识到计算机科学对于解决材料科学中的问题是至关重要的。

    我的博士学位是将计算化学应用于大气污染研究。然后我从中国搬到了新加坡,在那里我用计算生物学工具做了一个博士后来模拟蛋白质折叠。之后,我在葡萄牙做了另一个博士后,用ML来预测药物分子的化学反应。在伯克利,我的注意力转向了电化学储能系统。我用密度泛函理论(DFT)计算了这些系统的性能,并帮助电池电解质研究社区建立了包含这些性能信息的大型数据库。

    在计算机科学和材料科学方面的双重背景非常有帮助。正如我所提到的,材料科学家和计算机科学家通常会说不同的“语言”,因此他们对各自的目标都不了解。如果计算机科学家可以从材料科学的角度理解要求,那么他们可以建议可行的数据分析解决方案。通过研究,我希望更好地在这两个领域之间架起桥梁。

    由于CFN是国家级的纳米科学用户设施,因此它的设施可供世界各地的科学家使用。结果,CFN社区由不仅具有专门领域专业知识而且具有不同文化的工作人员和用户组成。在中国长大,在新加坡和葡萄牙完成博士后,现在在美国生活和工作,您如何为这种多元文化,跨学科的环境做好准备?

    环游世界使我接触了许多文化和学科。我可以从不同角度看问题,结识特定领域的专家,并更好地理解他们的想法。此功能在CFN上特别有用,因为CFN的每个人都使用独特的技术进行材料发现。来自不同学科的人们确实确实有不同的想法。根据领域,即使是同一单词也可能具有不同的含义。例如,“微级”是指生物学家的蛋白质水平,而对于化学家来说,则是指精细几个数量级(原子分辨率)。了解特定领域的术语对于理解科学问题和要求很重要。

    如今,人工智能已成为流行语,从股票交易和音乐流到导航应用程序和监视系统,应有尽有。虽然已经取得了很大的进步,但是AI仍处于起步阶段。在未来的几年中,您如何预见AI将改变科学事业,尤其是材料科学?

    新兴的数据科学技术具有极大地改变许多领域的潜力。我的希望是,我们开发的工具可以改变材料的发现,将数据转换为可用的格式,从中可以提取知识。或者,甚至更进一步,我希望我们的工具能够实现以前无法实现的各种科学,例如自主实验。自动化不仅可以使实验之间的参数更加一致,而且可以彻底改变设备的操作方式。开发从实验到分析的自动化管道,使用户可以专注于自己的科学,而无需与设备进行手动交互或学习编程方法。很难预测这些未来技术的时间表,但是我们正在尽力而为。

相关报告
  • 《跨学科的材料科学是进步的关键》

    • 来源专题:可再生能源
    • 编译者:pengh
    • 发布时间:2017-11-14
    • 前桑迪亚国家实验室执行主任朱莉娅·m·菲利普斯(Julia m . Phillips)告诉研究人员,在上个月举行的麻省理工学院材料研究实验室(MRL)材料日研讨会上,跨学科材料研究是解决人类面临的生存挑战的关键。 菲利普斯在10月11日的活动上说:“作为材料研究人员,我们都很兴奋,也有点让人沮丧的是,材料的真正影响发生在它们变成了你口袋里随身携带的东西的时候。” 她说,在20世纪后半叶,我们今天认为理所当然的许多技术进步,如笔记本电脑和智能手机,都来自于材料研究的基本进步,以及控制和制造材料的能力。菲利普斯从桑迪亚国家实验室(Sandia National Laboratories)退休,担任副总裁兼首席技术官。他还担任MRL外部咨询委员会(MRL)的主席,也是国家科学委员会(National Science Board)的成员。 MRL是由材料加工中心和材料科学与工程中心合并形成的,该中心于10月1日生效。在他的引言中,MRL主管Carl v . Thompson注意到Geoffrey s.d Beach,材料科学与工程副教授,他是国家科学基金会材料研究科学与工程中心MRL的联合主任和首席研究员。 在工业需求和后二战时期政府资助的研究的推动下,“材料研究无疑是跨学科研究的早期模式,”菲利普斯说。与扫描探针显微镜等新工具了解材料的结构和性能,材料科学家在过去的20世纪创造了全新类别的材料和产品,从超级合金,使更大、更可靠的飞机引擎紧张那麽现代磁记录层超晶格,激光和红外探测器。 未来增长将来自合成的能力和控制越来越复杂的材料,菲利普斯说,注意发展等领域的高温超导体、多孔固体像金属有机框架,和超材料,产生新的属性结合生物材料,在分子尺度上附近的有机物,陶瓷,金属精密在自然界中尚未发现的方法。 “在分子和材料之间的模糊空间中,”这些更新的材料具有非常有趣的特性,它们仍在被充分探索的过程中,它们将在未来几年被利用,菲利普斯指出。“对很多人来说,很明显,随着我们的前进,这些也将是革命性的。” 为解决21世纪能源、环境和可持续性的挑战提供了一个模型;卫生保健和医学;对人类和自然威胁的脆弱性;扩大和提高人类的能力和快乐。Phillips说:“这些都是范例,但你可以看到所有的材料都写在这个清单上,我认为你可能提出的任何类似的清单都有材料写在上面。”“为了应对这些巨大的挑战,我们真的需要能够处理现实复杂的系统,从科学、工程、社会和行为科学,甚至是艺术上,把所有这些学科结合起来。” 菲利普斯说,科学理解和计算建模的进展正在加速研究人员在实际制造新材料之前预测新材料的结构和性质的能力。 麻省理工学院教师安东尼Allanore,波琳娜Anikeeva,a . John Hart Pablo Jarillo-Herrero,Juejun胡锦涛,珍妮弗·鲁普研究更新他们的最近的工作跨越一系列从新的电子设备和超薄层材料对大脑和脊髓的细胞水平探测大规模3 d印刷和金属加工的方法。 ——文章发布于2017年11月5日
  • 《自然》《科学》一周(11.20-11.26)材料科学前沿要闻》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:冯瑞华
    • 发布时间:2017-11-27
    • 1.冷原子气体与晶体之间的光子量子态转移 (Photonic quantum state transfer between a cold atomic gas and a crystal) 界面根本上不同的量子系统,是建立未来混合量子网络的关键。这种异构网络提供的功能优于同类网络,因为它们能够将不同量子节点的独特优势合并到单一网络架构中。然而,由于接口光子的波长和带宽匹配等存在的基础挑战和技术挑战,光混合互连取得的进展非常少。Maring 等人报导了两个具有光子存储能力的不同物质量子系统之间的光量子互连。研究表明,量子态可以通过级联的量子频率转换,利用 1552 纳米通信波长的单个光子,实现在冷原子系综和稀土掺杂晶体之间的转移。而且,证明了冷原子集合中光子和单个集体自旋激发之间的量子相关性可以转移到固态系统。在冷原子集合中产生的单光子时间量子比特可以从晶体中被转换、存储并检索,其中一定条件下的量子比特保真度超过 85%。该研究结果揭示了将不同功能的量子节点进行光学连接的前景,代表了向着实现大规模混合量子网络迈出的重要一步。(Nature DOI: 10.1038/nature24468) 2. 含有扭曲结构的三维机械超材料 (Three-dimensional mechanical metamaterials with a twist) 经由合理设计得到的人造材料可以实现普通材料无法达到的机械性能。加上个普通的线性弹性杆就使它能以多种方式变形。但与静态情况下的旋光性对应的扭曲严格为零。这种自由度的不可用性,妨碍了模式转换方面的应用以及使用坐标转换来实现先进的机械设计。Frenzel 等人的目标是实现微结构的三维弹性手性机械超材料,克服了这个限制。在整个毫米级的样品上,测量得到的每个轴的应变扭曲都超过 2o/%。根据固定的样本尺寸扩展单位单元的数量,由于超材料硬化,所以扭曲是稳健的,这表明了特征长度尺度并使上述应用得以实现。(Science DOI: 10.1126/science.aao4640) 3. 从无序固体中塑性的普遍特征得到结构与性质的关系 (Structure-property relationships from universal signatures of plasticity in disordered solids) 当变形超出结晶固体弹性极限时,结晶固体会通过围绕结构缺陷进行局部粒子重排从而发生塑性流动。无序的固体也会流动,但没有明显的结构缺陷。Cubuk 等人利用微观结构数量,即“柔软度”,将无序固体中的结构与可塑性联系了起来,其中“柔软度”是通过机器学习设计得到的,能够最大限度地预测重排。结合实验结果与计算能够测量柔软度的空间相关性和应变响应,以及两种可塑性度量:重排的大小和屈服应变。所有这四个量在涉及原子到晶粒,直径跨度为七个数量级,弹性模量跨度为 13 个数量级的无序填充物的价值上保持了显著的共性。这些共同点分别将空间相关性和柔软度的应变响应,与重排大小和屈服应变联系了起来。(Science DOI: 10.1126/science.aai8830) 4. 可控分子筛骨架的弹性和孔结构用以分离乙烷和乙烯 (Control of zeolite framework flexibility and pore topology for separation of ethane and ethylene) 通过吸附而不是使用低温蒸馏来分离乙烯的新材料是分子分离的关键里程碑,这是因为这些分子在工业上有着众多广泛的扩展用途。与当前使用的通过蒸汽裂化生产的乙烯再经低温蒸馏的方法相比,该技术具有巨大的节能潜力。Bereciartua 等人介绍了一种柔性纯硅沸石(ITQ-55)的合成和结构测定。这种材料可以动态地从乙烷中分离乙烯,且具有前所未有的接近 100 的选择性,这得益于它具有大型心形笼的独特孔隙结构和骨架的灵活性。对这些性质的控制扩大了沸石挑战分离应用的边界。(Science DOI: 10.1126/science.aao0092) 5. Mott 绝缘体 Ca2RuO4 中电流引起的强反磁性 (Current-induced strong diamagnetism in the Mott insulator Ca2RuO4) 当 Mott 绝缘体的冷冻电子受到各种刺激的干扰时,它们可以拥有令人惊讶地各种各样的量子现象。超导电性,金属-绝缘体转变以及由元素替代、压力和磁场引起的巨磁电阻是较为突出的例子。Sow 等人报告了 Mott 绝缘体钌酸钙(Ca2RuO4)由直流电流诱导的强磁性。施加每平方厘米仅有 1 安培的电流密度导致它比其他非超导材料更强的反磁性。随着系统变成半金属,这种变化与运输性质的变化是一致的。这些发现表明,直流电流可能是控制 Mott 绝缘过渡区域附近材料性能的一种手段。(Science DOI: 10.1126/science.aah4297) 6.在有机-无机卤化铅钙钛矿半导体中进行连续波激射 (Continuous-wave lasing in an organic–inorganic lead halide perovskite semiconductor) 杂化有机-无机钙钛矿已成为用于可调谐、溶液处理半导体激光器的非常有前景的增益介质。但是,目前还没有实现连续波运作。Jia 等人研究表明,光泵浦连续波激射在甲基碘化铅(MAPbI3)分布反馈激光器中可以超过阈值激励强度约 17kW•cm-2 维持一个多小时,这种反馈维持在MAPbI3 四方到斜方的相变温度 T≈160K以下。Jia 等人发现与 T>160K 下纯四方相 MAPbI3 发生的激射终止现象相反,在 T≈100K 时,从正常存在的更大带隙的正交主基质泵中光生的四方相包裹体中,想要实现连续波增益是有可能的。在这个混合相系统中,四方包裹体作为载流子复合体沉降,降低了透明度阈值,与无机半导体量子阱相似,可以作为工程改进的钙钛矿增益介质的模型。(Nature Photonics DOI: 10.1038/s41566-017-0047-6) 7. 临时形成高导电畴壁从而对铁电畴壁电阻开关存储器进行非破坏性地读取 (Temporary formation of highly conducting domain walls for non-destructive read-out of ferroelectric domain-wall resistance switching memories) 绝缘铁电薄膜中的可擦除导电畴壁可用于对铁电存储器中的极化状态进行非破坏性电学读取。但是由这些器件提取的畴壁电流,还没有达到能够驱动高速运行的读取电路所需的强度和稳定性。这篇文章的研究展示了台面几何结构外延形成的 BiFeO3 薄膜中利用特的畴壁构型存储的数字数据的非破坏性读取。在读取操作期间能够形成导电壁的部分开关域,在读取电压被移除时自发回缩,减少了畴壁处移动缺陷的累积并且有可能改善器件稳定性。三端子存储器件在 5V 的工作电压下产生 14nA 的读取电流,工作温度高达 85℃。间隙长度也可以小于膜厚度,能够允许实现器件尺寸远低于 100nm 的铁电存储器。(Nature Materials DOI: 10.1038/NMAT5028) 8.用于建筑一体化光伏发电的发光太阳能聚光器 (Luminescent solar concentrators for building-integrated photovoltaics) 目前,低人口密度地区正通过实现所谓的净零能耗建筑向着充满活力的可持续建筑进行过渡。但在城市地区还未能实现,因为安装地面光伏(PV)的土地成本过高,且屋顶空间太少无法满足维持高层建筑电力需求所需的光伏组件。因此,将太阳能收集装置以光伏窗或封装元件的形式整合到建筑立面中的新技术正在研究当中。发光太阳能聚光器(LSC)是用于半透明、无电极光伏玻璃系统的最有前景的技术,它可以“无形”地整合到建筑环境中,而不会对建筑美学或居民的生活质量产生不利影响。经过 40 多年的研究,近年来在实现宽带吸收的无重吸收发射体方面取得的突破性进展,使得 LSC 的性能达到了可以在不久的将来实现商业化的程度。在这篇综述中,Meinardi 等人探索了实现这一变化的成功策略,考核和比较了不同类型的发色团和波导材料,并讨论了有待进一步研究的问题。(Nature Reviews Materials DOI: 10.1038/natrevmats.2017.72)