瞿晓辉,功能纳米材料中心理论与计算组助理科学家,应用人工智能的各种方法分析实验和计算纳米科学数据。在他的电脑屏幕上显示的是由透射电子显微镜(左图)记录的金纳米颗粒的图像分割结果,以及显示纳米颗粒聚集的聚结事件(右图)的颗粒大小演变的剖面图。
一年前,曲晓辉作为理论和计算组的助理科学家加入了美国能源部布鲁克海文国家实验室科学用户设施中心(CFN)。此前,他是加州大学伯克利分校材料科学与工程系的一名助理项目科学家,在那里他进行了计算,以发现有前途的电池电解质材料。尽管屈是一名训练有素的量子化学家,但他也有开发和应用数据分析技术来解决材料科学中的重要问题的经验。在CFN,他正在利用人工智能(AI)的新兴技术来推进纳米科学的发现。他拥有中国山东大学环境化学专业的博士和学士学位。
像今天的许多科研机构一样,CFN也面临着大数据的挑战。现代数据分析技术如何帮助解决日益增长的数据规模和复杂性?
机器学习(ML)等计算机科学技术可以帮助处理科学仪器产生的大数据。例如,CFN电子显微镜设备有一套透射电子显微镜(TEMs),科学家们用它来分析纳米材料的结构、化学和电子信息。环境瞬变电磁法(ETEM)是一种环境瞬变电磁法(ETEM),它可以监测纳米颗粒在操作过程中的生长情况,也就是说,纳米颗粒的结构是如何在相关的工作条件下演化的,比如退火(加热到相对较高的温度)或暴露在某些气体中。了解纳米粒子如何转变是提高材料性能和功能的关键。ETEM具有很高的时间分辨率(毫秒级),这使我们能够对它们的演化进行测量。然而,有大量的数据是不可能手工分析的。
晓惠曲
点击图片下载高分辨率版本。曲晓辉与TEM在CFN。
考虑到ETEM产生了2tb的数据——相当于200,000张图像——用于氮化硅表面金纳米颗粒的进化,这是一个潜在的催化剂系统。每一帧包含数百个粒子,它们的大小和形状需要随着时间的推移进行跟踪。自动跟踪是困难的,因为图像含有明显的背景噪声。这种噪声以白色、灰色和黑色(而不是纯白色或黑色)的混合点出现,模糊了定义良好的边界。这就是基于mlb的图像识别可以提供帮助的地方。
我正在与CFN的科学家德米特里·扎哈罗夫(Dmitri Zakharov)合作,建立几种检测纳米颗粒的算法。布鲁克海文实验室计算科学项目(CSI)的副计算科学家林跃伟;宾夕法尼亚大学的Eric Stach教授,前CFN电子显微镜小组的领导人。这些图像分割算法将在单帧中识别粒子,并将它们从一帧链接到另一帧,以跟踪它们的演化。由于任何帧中的漏检或误检都将通过粒子演化传播,所以每帧中的检测都需要非常健壮。我们正在开发的一种算法可以跟踪漏检并修正进化过程中产生的错误。
金纳米颗粒催化剂的发展是一个自动化图像处理和分析有助于减轻大数据负担的实验。为什么选择金纳米颗粒数据集?如何将图像分割方法扩展到催化和其他应用领域?
根据Dmitri和Eric之前的测量数据,数据集已经存在,它代表了我们需要研究的数据类型。此外,这也是与UPenn的Stach小组正在进行的工作的共同点,他们正在用不同的技术方法对相同的数据集进行类似的图像处理研究。使用不同的图像分割方法——例如,基于边缘的目标检测和分水岭,其中图像被视为地形图——我们共同寻找最佳的算法来处理纳米颗粒图像中的显著噪声。
期待在新的数据集上测试我们的方法,一些特定的图像分割参数(如阈值)将不能在不同的数据集之间转移,但我们希望算法将是。考虑到需要为新的数据集调整这些参数,我还开发了一个图形用户界面(GUI),以便用户可以根据他们的特定数据集调整细分过程并运行相同的代码。
通过这种方式,我们为用户社区提供服务,并为不同的数据集获取标记数据。最终,我们将有大量的标记数据集,包含足够的变化来训练一个深度学习模型。深度学习是ML的一种高级形式,它允许我们创建一个适用于不同实验的更通用的模型,理想情况下不需要调整任何参数。
您提到了术语GUI。你不仅要处理数据;您还需要以用户友好的方式向最终用户显示那些处理过的数据。一旦你建立了一个数据分析工具,你如何让它可用?
是的,我们和CFN用户不仅需要一个数据分析解决方案,而且还需要一个框架来交付该解决方案。当我刚开始在CFN工作时,我不知道我们需要什么样的web服务。很快,我们就清楚地认识到,我们需要一个动态环境——一个允许我们改进数据分析工具以响应不断变化的用户需求的环境。
最后,我和布鲁克海文科学数据与计算中心(SDCC)的计算机科学家进行了交谈。特别是,SDCC技术架构师Ofer Rind提到,交付数据分析工具并提供对大型数据集的访问的一个很好的选择是JupyterLab和JupyterHub。这个基于web的用户界面支持动态编程环境和交互式小部件(GUI元素),用户可以控制它们来可视化数据。我向我的组长Mark Hybertsen提出了这个概念,他同意了。图像分割对大数据的可视化要求非常高,因此Jupyter是最佳选择。由SDCC运行的计算机服务器现在托管该服务,我们正在测试它的试点项目。
我们在JupyterLab上实现的图像分割工具展示了云平台如何支持用户。对于其他CFN组和用户来说,这些平台对于不同的工具非常有用。事实上,我正在与CFN的工作人员科学家Esther Tsai一起开发另一种工具来支持国家同步加速器光源II (nsl -II)的x射线散射数据分析。CFN的开发人员目前正在测试这个工具,一旦我们确认它是可靠的,就会发布给CFN用户。
数据分析假设您首先要处理数据。对于科学中的许多问题,有些数据是实验的结果,比如您所描述的TEM图像,但其他数据本质上是计算性的。你也使用人工智能方法进行计算数据分析吗?
回答问题有时需要结合实验和模拟数据分析。人工智能在这两种情况下都是有用的。例如,来自Brookhaven实验室和Stony Brook大学(SBU)的一组科学家演示了一个ML模型,该模型可以从模拟的x射线光谱中推断出材料的局部结构基序,并为与重要测试用例中的实验x射线光谱进行比较提供参考。这项正在进行的研究工作涉及到CFN理论家陆德宇在我们组与布鲁克海文实验室化学部门和SBU化学部门共同任命的Anatoly Frenkel合作的一系列项目;CSI计算科学家yoinjae Yoo和Yuwei Lin;nsl - ii内壳层光谱学引线科学家Eli Stavitski;CFN接口科学与催化组组长达里奥·斯塔奇奥拉。
我最近加入了这项研究工作,我们正在从几个方面扩展这项工作。例如,我们正在与CFN接口科学和催化组的科学家刘明照合作,开发一个可以推断硅化物薄膜结构的模型,硅化物是一种潜在的有用的催化剂或超导体。
我们还与美国国家标准与技术研究所的物理学家布鲁斯·拉威尔(Bruce Ravel)合作,建立一个薄膜实验光谱数据库。该数据库将包含几种代表性材料的高质量实验测量数据。当前ML面临的挑战之一是,它需要非常大的数据量和高保真度。有了更好的计算能力,我们现在可以创建模拟光谱的大型数据库。然而,对于实验光谱却不能这样说;创建一个大型的实验数据库不仅耗时,而且开销也很大。我们可以通过在包含计算光谱和实验光谱的混合数据集上建立模型来减少ML所需的数据量。同时,利用实验谱对计算谱进行验证,可以获得较高的数据质量。
将数据分析应用到材料科学中最具挑战性的部分是什么?
问题本身的定义非常具有挑战性。材料科学家知道他们试图用材料科学的术语来回答的问题。但是将这些问题组织成数据科学中的可执行问题需要材料和计算机科学的知识。这是一个迭代的过程,涉及到实验人员、计算化学家和数据科学家之间的协作。
这种改进的一个很好的例子与我正在着手的另一个超导薄膜项目有关。起初,科学家告诉我他们想了解电影的发展。我不知道他们所说的“增长”是什么意思。“通过我们的讨论,我发现他们的一个关键问题是如何建立单层。有了这些知识,我现在可以开发适当的技术来解决这些单层动力学。
你们的每一个项目都是合作性的,包括与来自不同学科的科学家的互动。你最初是一名化学家,然后被数据科学吸引。这个职业轨迹是如何演变的?你认为这个独特的背景对你的研究有什么影响?
我对化学有着天生的兴趣,因为我们作为消费者所知道和使用的许多产品都是化学制品。但直到我上了大学,我才发现我实际上喜欢上了化学。在这个时候,我也开始通过网络资源和图书馆的书籍自学计算机科学,我认为从事计算机科学的工作可能更有利可图。但是通过这个教育过程,我意识到计算机科学对于解决材料科学中的问题是至关重要的。
我的博士学位是将计算化学应用于大气污染研究。然后我从中国搬到了新加坡,在那里我用计算生物学工具做了一个博士后来模拟蛋白质折叠。之后,我在葡萄牙做了另一个博士后,用ML来预测药物分子的化学反应。在伯克利,我的注意力转向了电化学储能系统。我用密度泛函理论(DFT)计算了这些系统的性能,并帮助电池电解质研究社区建立了包含这些性能信息的大型数据库。
在计算机科学和材料科学方面的双重背景非常有帮助。正如我所提到的,材料科学家和计算机科学家通常会说不同的“语言”,因此他们对各自的目标都不了解。如果计算机科学家可以从材料科学的角度理解要求,那么他们可以建议可行的数据分析解决方案。通过研究,我希望更好地在这两个领域之间架起桥梁。
由于CFN是国家级的纳米科学用户设施,因此它的设施可供世界各地的科学家使用。结果,CFN社区由不仅具有专门领域专业知识而且具有不同文化的工作人员和用户组成。在中国长大,在新加坡和葡萄牙完成博士后,现在在美国生活和工作,您如何为这种多元文化,跨学科的环境做好准备?
环游世界使我接触了许多文化和学科。我可以从不同角度看问题,结识特定领域的专家,并更好地理解他们的想法。此功能在CFN上特别有用,因为CFN的每个人都使用独特的技术进行材料发现。来自不同学科的人们确实确实有不同的想法。根据领域,即使是同一单词也可能具有不同的含义。例如,“微级”是指生物学家的蛋白质水平,而对于化学家来说,则是指精细几个数量级(原子分辨率)。了解特定领域的术语对于理解科学问题和要求很重要。
如今,人工智能已成为流行语,从股票交易和音乐流到导航应用程序和监视系统,应有尽有。虽然已经取得了很大的进步,但是AI仍处于起步阶段。在未来的几年中,您如何预见AI将改变科学事业,尤其是材料科学?
新兴的数据科学技术具有极大地改变许多领域的潜力。我的希望是,我们开发的工具可以改变材料的发现,将数据转换为可用的格式,从中可以提取知识。或者,甚至更进一步,我希望我们的工具能够实现以前无法实现的各种科学,例如自主实验。自动化不仅可以使实验之间的参数更加一致,而且可以彻底改变设备的操作方式。开发从实验到分析的自动化管道,使用户可以专注于自己的科学,而无需与设备进行手动交互或学习编程方法。很难预测这些未来技术的时间表,但是我们正在尽力而为。