随着科学数据集的规模和复杂性的增加,如果没有自动化工具的帮助,标记、过滤和搜索这些海量信息的能力已经成为一项费力、耗时、有时甚至不可能完成的任务。
考虑到这一点,来自美国能源部劳伦斯·伯克利国家实验室(伯克利实验室)和加州大学伯克利分校的一组研究人员正在开发创新的机器学习工具,从科学数据集中提取上下文信息,并为每个文件自动生成元数据标签。然后,科学家们可以通过一个基于网络的搜索引擎来搜索这些文件,这个搜索引擎叫做“科学搜索”(Science search)。
作为概念验证,该团队正与伯克利实验室的分子铸造厂的工作人员合作,在该设施的仪器捕获的图像上演示科学搜索的概念。该平台的测试版已经提供给铸造研究人员。
国家电子显微镜中心(NCEM)的分子铸造研究科学家Colin Ophus说:“像科学搜索这样的工具有可能彻底改变我们的研究。”Colin Ophus是科学搜索的合作者。“我们是一个由纳税人资助的国家用户机构,我们希望让所有的数据都能被广泛获取,而不是只公布少量的图片。然而,今天,这里收集的大部分数据实际上只被少数几个人看到——数据制造者,包括PI(首席研究员),他们的博士后或研究生——因为目前没有简单的方法来筛选和共享数据。通过使这些原始数据易于搜索和共享,通过互联网,科学搜索可以向所有科学家开放这个‘黑暗数据’库,并最大化我们的设施的科学影响。”
搜索科学数据的挑战
今天,搜索引擎被广泛地用于在互联网上寻找信息,但是搜索科学数据带来了一系列不同的挑战。例如,谷歌的算法依赖于200多条线索来实现有效的搜索。这些线索可以是网页上的关键词、图片中的元数据,也可以是上亿人点击他们所寻找信息时的观众反馈。相比之下,科学数据有许多不同于一般web页面的形式,需要特定于科学的上下文,而且常常缺少元数据来提供有效搜索所需的上下文。
在像分子铸造厂这样的国家用户设施中,来自世界各地的研究人员申请时间,然后免费前往伯克利使用极其专业的仪器。奥弗斯指出,目前在铸造厂显微镜上的摄像头可以在10分钟内收集多达1tb的数据。然后,用户需要手动筛选这些数据,以找到具有“良好分辨率”的高质量图像,并将这些信息保存在一个安全的共享文件系统上,比如Dropbox,或者保存在一个外部硬盘上,最终可以带回家进行分析。
通常,来分子铸造厂的研究人员只有几天时间来收集他们的数据。因为手动向tb级的科学数据添加注释是非常繁琐和耗时的,而且没有这样做的标准,所以大多数研究人员只是在文件名中键入简短的描述。这对保存文件的人来说可能有意义,但对其他人来说通常没有多大意义。
加州大学伯克利分校实验室计算研究部(CRD)的科学家、科学搜索项目的联合首席研究员Lavanya Ramakrishnan说:“缺乏真正的元数据标签最终会导致科学家稍后试图寻找数据或试图与他人共享数据时出现问题。”“但有了机器学习技术,我们可以让电脑帮助用户完成那些费力的工作,包括为数据添加标签。”然后我们可以使用这些标签来有效地搜索数据。”
为了解决元数据问题,伯克利实验室团队使用机器学习技术来挖掘“科学生态系统”——包括仪器时间戳、设备用户日志、科学建议、出版物和文件系统结构——以获取上下文信息。来自这些来源的集合信息,包括实验的时间戳、使用的分辨率和过滤器的说明以及用户对时间的请求,都提供了关键的上下文信息。伯克利实验室团队已经建立了一个创新的软件栈,使用机器学习技术,包括自然语言处理,提取与科学实验相关的关键字,并自动为数据创建元数据标签。
为了证明概念,Ophus与科学搜索组共享了来自NCEM的分子铸造团队1电子显微镜的数据,这些数据最近由该设施的工作人员收集。他还自愿给几千张图像贴上标签,以便给机器学习工具贴上一些标签,从这些标签开始学习。虽然这是一个良好的开端,但Science Search的联合首席研究员Gunther Weber指出,大多数成功的机器学习应用程序通常需要大量的数据和反馈来提供更好的结果。例如,在像谷歌这样的搜索引擎的情况下,韦伯指出,训练数据集创建和机器学习技术进行验证,当全世界数十亿人验证他们的身份通过点击所有的图像与路牌或店面输入密码后,或在Facebook上标记他们的朋友在一个图像。
”在科学数据的情况下只有少数领域专家可以创建的训练集和验证机器学习技术,所以我们面对不断出现的一大问题是一个极其少量的训练集,“韦伯说,他也是一个科学家在伯克利实验室的CRD。
为了克服这一挑战,伯克利实验室的研究人员使用转移学习来限制卷积神经网络(CNNs)的自由度或参数计数。转移学习是机器学习方法的模型为任务重用是一个模型在第二个任务的起点,它允许用户从一个较小的训练集得到更准确的结果。在团队中我显微镜,产生的数据包含哪些信息,仪器操作模式集合的时候。有了这些信息,韦伯就可以训练神经网络进行分类这样它就可以自动生成操作模式标签。然后他冻结了网络的卷积层,这意味着他只需要重新训练紧密连接的层。这种方法有效地减少了CNN上的参数数量,允许团队从有限的训练数据中获得一些有意义的结果。
机器学习来挖掘科学生态系统
除了通过训练数据集生成元数据标记外,伯克利实验室团队还开发了使用机器学习技术挖掘科学生态系统中的数据上下文的工具。例如,数据摄取模块可以查看来自科学生态系统的大量信息源——包括仪器时间戳、用户日志、建议和发布——并确定共性。在伯克利实验室开发的工具使用自然语言处理方法,然后可以识别和排序单词,为数据提供上下文,并在以后为用户提供有意义的结果。用户将看到类似于Internet搜索结果页面的内容,其中与用户搜索词匹配最多的文本内容将出现在页面的较高位置。系统也从用户的查询和他们点击的搜索结果中学习。
由于科学仪器正在生成一个不断增长的数据体,伯克利团队的科学搜索引擎的各个方面都需要可扩展,以跟上产生的数据量的速度和规模。该团队通过在国家能源研究科学计算中心(NERSC)的Spin中建立他们的系统实现了这一点。Spin是NERSC开发的一种基于码头的边缘服务技术,可以访问工厂的高性能计算系统和后端存储。
“我们有可能建立一个像科学搜索这样的工具的原因之一是我们可以访问NERSC的资源,”伯克利实验室博士后研究员Gonzalo Rodrigo说,他正在研究科学搜索中的自然语言处理和基础设施挑战。“我们必须存储、分析和检索非常大的数据集,使用超级计算设施来完成这些繁重的任务是很有用的。NERSC的Spin是运行我们的搜索引擎的一个很好的平台,它是一个面向用户的应用程序,需要访问大型数据集和分析数据,而这些数据只能存储在大型超级计算存储系统中。”
用于验证和搜索数据的接口
当伯克利实验室团队开发了用户与他们的系统交互的界面时,他们知道它必须完成两个目标,包括有效的搜索和允许人工输入到机器学习模型。由于系统依赖于领域专家来帮助生成训练数据并验证机器学习模型的输出,因此需要接口来促进这一点。
“我们开发的标记接口显示原始数据和可用的元数据,以及迄今为止我们拥有的任何机器生成的标记。然后专家用户可以浏览数据,创建新的标签,并检查任何机器生成的标签的准确性。
为了方便基于可用信息对用户进行有效搜索,团队的搜索界面为可用文件、建议和论文提供了查询机制,berkelei开发的机器学习工具已经解析并提取了其中的标记。每个列出的搜索结果项表示该数据的摘要,并提供更详细的辅助视图,包括与该项匹配的标记的信息。该团队目前正在探索如何最好地结合用户反馈来改进模型和标签。
Ramakrishnan说:“拥有探索数据集的能力对于科学突破是很重要的,这是第一次尝试像科学搜索这样的东西。”“我们的最终愿景是建立一个基础,最终支持科学数据的‘谷歌’,在那里,研究人员甚至可以搜索分布式数据集。”我们目前的工作为实现这一宏伟目标提供了必要的基础。”
“伯克利实验室确实是一个理想的地方建立一个搜索工具像科幻,因为我们有很多用户设施,如分子铸造,具有几十年的数据将提供更多价值的科学界如果数据可以搜索和共享,”凯蒂Antypas补充道,他是科学的首席研究员搜索和·数据部门负责人。“此外,我们拥有伯克利实验室计算科学领域的机器学习专业知识,以及NERSC的高性能计算资源,以构建这些能力。”
除了安蒂帕斯、拉马克里希南和韦伯外,加州大学伯克利分校的计算机科学教授约瑟夫·赫勒斯坦(Joseph Hellerstein)也是一名首席研究员。
这项工作得到了美国能源部高级科学计算研究办公室(ASCR)的支持。分子铸造和NERSC都是位于伯克利实验室的能源部科学用户设施办公室。