COVID-19颠覆了科学,正如它颠覆了一切。在短期内,大学已经关闭了大部分的商店,作为一种最大化社会距离的方式,许多科学——或者至少是大量的实验工作——还没有完成。
马克·穆森说:“就像目前的社会停摆正在加速改变工作场所和社会交往一样,‘COVID-19’将以某种深远的方式改变科学和我们进行科学研究的方式。”
穆森是斯坦福大学医学和生物医学数据科学教授。4月1日,在斯坦福大学人工智能中心(Center for human -Center for AI)主办的一场关于COVID-19和人工智能(AI)的虚拟会议上,他概述了他认为COVID-19加速科学变革的最重要方式之一:推动开放数据。
穆森在他关于“知识技术加速开放科学”的演讲中说,在过去20年左右的时间里,科学已经“发生了根本性的变化”,而一个主要的变化是,在网上提供数据变得越来越重要。
一些期刊,如公共科学图书馆(PLoS)系列期刊,要求作者建立最小的数据集,定义为“复制文章中所有研究结果所需的数据,以及相关的元数据和方法”。
穆森说,资助机构需要数据共享——尽管并非总是原始数据——而且总体而言,人们越来越多地看到科学产出“不仅是在出版物方面,而且是在基本数据方面”。
会议上有整整一场会议专门讨论如何在其他国家使用从温度测量到手机位置数据等数据来跟踪大流行并部署应对措施。其他的报告探讨了如何在美国使用这些数据无论好坏,美国都比中国、新加坡、香港和韩国更重视个人权利和隐私——这些国家都成功地降低了感染率。
穆森说,在COVID-19大流行中,“有大量的数据,[而且]人们希望迅速获得数据”。这是好消息。”
如果你找不到,它真的在那里吗?
坏消息是,这些数据中的大多数都是不公平的。
在本例中,FAIR代表“可查找的、可访问的、可互操作的、可重用的”。
仅仅因为数据集在互联网上的某个地方原则上是可用的,并不意味着为解决某个问题而寻找数据的人可以找到它。
穆森将目前的情况比作“拥有一个没有好的目录的图书馆”。
元数据方面的情况也好不到哪里去,元数据是用来标准化数据的标签,以便让其他研究人员能够重用数据。
目前,穆森说,“如果你是一名试图寻找数据的调查人员,你经常会被困住,因为元数据很糟糕。”
例如,“如果你在寻找病人的年龄,数据可以以数十种方式呈现,”穆森说,他用一张列出其中一些方式的幻灯片来说明他的观点:年龄。的年龄。的年龄。年龄(y)。年龄(岁)。年龄(年)。年龄、年。年龄、年。Age_years。Age.years。年龄(周)。年龄(天)。病人的时代。年龄的病人。Age_patient。时代的主题。
在一个为了和他的合著者拉斐尔Goncalves发表分析科学数据在2019年,科学家们报道,在BioSample元数据,数据存储库管理的国家生物技术信息中心(NCBI)和BioSamples,这是由欧洲生物信息学研究所(EBI),管理的“变质量”。
穆森在HAI大会上的发言更为直接,他将元数据描述为“糟糕”。
布尔标签,被认为是“真”或“假”,只有大约四分之一的时间完成了这个看似简单的任务。
据推测,一个试验参与者是否吸烟的逻辑标签几乎和年龄标签一样丰富:“非吸烟者,非吸烟者,非吸烟者,前吸烟者,前吸烟者,吸烟者,是,否,前吸烟者,前吸烟者,现在吸烟者,Y, N, 0,从不吸烟者,从不吸烟者,等等,”Goncalves和Musen在他们的论文中报道。
四分之一的标签被指定为整数不能被整数表示。在他们的分析中,作者发现了“整数”,包括JM52、UVpgt59.4和pig。
作为扩展数据注释和检索中心(CEDAR)的首席研究员,Musen正在努力改善这种情况。CEDAR是一个由NIH Big Data to Knowledge Initiative支持的多机构卓越中心,旨在通过多个途径(包括提供模板)更容易地提供良好的元数据。CEDAR还与GO FAIR合作,GO FAIR是一个致力于让研究人员和机构在公开他们的工作时能够实施公平数据原则的倡议。
GO Fair的最新项目是病毒爆发数据网络(VODAN) GO Fair实施网络,该项目于3月份启动,目的是确保COVID-19数据的管理方式能够充分发挥它们的潜力。
“在这次疫情期间和早些时候,我们看到了严重的次优数据管理和数据重用。例如,过去埃博拉疫情的数据很难找到,很难访问,如果可以访问,它们就不能互操作,更不用说可重复使用,”GO FAIR网站称。“迫切需要利用机器学习和未来的人工智能方法,在疫情爆发时发现有意义的模式,我们需要做得更好。”
截至4月2日,世界卫生组织在全球报告了896450例确诊的脊髓灰质炎19例,以及45526例死亡。