2023年国际“爱数据周”(2月13日-17日)的主题是“数据:变革的推动者”。创办Figshare的十年间,我认为最大的变革是“鼓励研究人员将数据放到互联网上”。而未来十年是让这些数据对机器可用。这也为资助者和学术界降低了风险,在下一个研究范式中得到回报。
通过公开可用的数据,并链接到经过同行评审的出版物,将会增加研究的透明度和可重复性。然而,要在发现新知识方面实现真正的突破,研究需要利用人工智能技术对大量具有同质元数据的可重现研究数据进行处理。Deepmind于2020年推出的Alphafold是第一个范例。
“AlphaFold以令人难以置信的速度和精度预测蛋白质结构。这一飞跃式发展展示了计算方法已为颠覆生物学研究做好准备,并为加速药物发现进程带来希望。”Arthur D. Levinson 博士,Calico创始人兼首席执行官,Genentech前董事长兼首席执行官认为。
引导世界关注重点领域是联合国可持续发展目标 (Sustainable Development Goals,SDG)。17个可持续发展目标的核心是呼吁所有国家(发达国家和发展中国家)在全球伙伴关系中采取行动。他们认识到,消除贫困和其他剥夺必须与改善健康和教育、减少不平等和刺激经济增长的战略同步进行,同时应对气候变化并努力保护我们的海洋和森林。Creative Commons是试图解决这一问题的参与者之一。他们最近获得了一项为期四年、耗资400万美元的开放气候运动的资金资助,与SPARC合作通过开放知识应对气候和生物多样性方面的挑战。
2021年11月23日,教科文组织大会第四十一届会议期间,193个会员国通过了教科文组织关于开放科学的建议。“该建议书概述了国际层面关于开放科学的共同定义、共同价值观、原则和标准,并提出了一系列有助于个人、机构、国家、区域和国际上所有人公平公正地进行开放科学的行动。”认识到迫切需要解决人类和地球面临的复杂且相互关联的环境、社会和经济挑战,包括贫困,健康问题,受教育机会,日益加剧的不平等和机会差距,日益扩大的科学、技术和创新差距,自然资源枯竭,生物多样性丧失,土地退化,气候变化,自然灾害和人为灾害,以及不断升级的冲突和相关的人道主义危机。
在北美,联邦机构将2023年定为开放科学年,这是一项跨联邦政府的多机构倡议,旨在通过推动采用开放、公平和安全科学活动激发开放科学的参与和变革。在open.science.gov上显示,这已经得到了NASA、NIH、NEH和其他5个机构的支持。
我们如何找到需要重点关注的领域?
通用存储库为每个数据集提供保存环境——无论研究领域或资金情况如何。当然,学科专业存储库可以基于元数据提供特殊服务。Re3data在全球范围内列出了2,316个学科知识库,但其中还包含一些冗余的存储库。通用存储库的可持续性模型似乎比学科专业存储库更简单。现在已有方法可以确定哪些研究领域缺乏工具,允许以可操作的方式定义特定主题的元数据标准。
我们可以使用Dimensions.ai查看DataCite收录的所有数据集的SDG分类,能够说明SDG中哪些类别在数据出版方面具有良好的覆盖率。下图显示了论文和数据集的结果类似,其中健康、气候和能源占主导地位,这似乎符合最紧迫的可持续发展目标。根据定义它们都是很紧迫的,因为没有足够的研究资金用于解决贫困、清洁水和性别平等等问题。
深入研究Dimensions数据集,我们还发现通用存储库在为所有研究人员提供发布数据集途径的同时,也可能引导研究人员走上“阻力最小的道路”。如,与世界气候数据中心相比,Zenodo拥有更多可归类为对“气候行动”可持续发展目标有用的数据集。我敢肯定,我在 Zenodo的同事更希望这些数据集最终出现在专业学科主题存储库中,该存储库比通用存储库(如 Figshare、Zenodo)更具可互操作性和可重用性。
作为通用存储库,我们的责任是确保我们构建的平台能够支持FAIR(可发现、可获取、可互操作、可重用)数据。我们知道 FAIR的I(可互操作)和R(可重用)需要更多的组织和管理。我们对此的解决方案依赖专业人士,如图书馆员和数据管理员可以完善并丰富研究数据和相关元数据。机构数据库通常比通用存储库高一个级别,因为它们多了一层所谓的数据治理。我们的“开放数据现状”报告强调,当研究人员需要发布数据时,学术出版商是他们的首选。因此,出版商和协会有很大的机会在学科层级定义元数据模式。
在存储库方面,学术界和所有后续利益相关者应该认识到:
(1)作为一个主体,同意并开始使用一致的主题元数据;
(2)使用计算机或人工管理、提高元数据质量
我认为未来十年就是让这些数据对机器可用。我意识到学术领域激励机制的重要性,试图推动研究人员做正确的事。当涉及到研究完整性时,我们必须让研究人员承担责任。科研领域的文化环境变革需要时间。然而,研究人员适应数据出版的速度很快。我们应该并将继续支持这一行动以及那些参与其中的人。数据发布是当今研究中最大的投资回报率。它确实是变革的推动者,我很高兴我们已经做到了这一点。现在资助者已经强制要求发布大量数据,我对未来感到兴奋。