不同的研究社群在交流其研究成果时有着不同的优先事项、需求、规范和挑战。因此,不同的主题和学科采用的开放科学实践也是不同的。开放科学指标(Open Science Indicators,OSI)以一种前所未有的方式揭示了不同学科采用开放科学的模式。PLOS根据最新的开放科学指标数据集,分享开放科学实践方面有关学科差异的初步观察结果。
关于本文的分析
OSI使用自然语言处理和人工智能技术识别和量化开放科学实践。数据集包括2019年1月1日至2023年3月31日期间PLOS发表的74,130篇研究论文,以及从PMC(PubMed Central))中爬取的8,186篇开放获取论文作为对比数据。开放科学实践包括数据共享、代码共享和预印本发布。
OSI数据集的数据项包括每篇论文的DOI,因此很容易与索引和归档服务中使用的一系列分类标准进行匹配,从而获取学科数据。在本文分析中,选择了适用于维度数据的澳大利亚和新西兰标准研究分类法(Australian and New Zealand Standard Research Classification, ANZSRC)。由于它是一个开放的分类体系,因此可以很容易地提取和重建。
由于一篇论文可能属于多个主题,因此在分析中可能会被计算多次。
数据库的使用
虽然以任何形式共享的数据都有其价值,但数据库通常认定的黄金标准是实现最大程度的可发现性、可访问性和实用性。本文的分析重点是数据库的使用情况,但也可以通过OSI 数据集计算出广泛的数据共享率。
无论是在不同学科之间,还是同一学科下PLOS论文和对比论文之间,数据库的使用情况都大相径庭。就PLOS论文而言,数据库使用率最低的学科是健康科学(PLOS为19%,对比数据集为6%)和生物医学与临床科学(PLOS为19%,对比数据集为10%)。这两个学科都可能受到隐私因素的影响。此外,数据库使用率低于平均水平的学科有工程学、农业和地球科学,这些学科的专有数据很常见。在对比数据集上得到了类似但不完全相同的结果,使用率最低的是工程学(5%)和健康科学(6%)。
相反,信息与计算科学、心理学和生物科学的使用率较高。生物科学的使用率较高,而且PLOS与对比数据的使用率相似,这主要是由于学科规范和强制性的数据存档要求。参见图1。
在不同学科最常使用的数据库类型方面,生物科学、农业和生物医学与临床科学最有可能使用学科范围较窄的专业数据库,这可能是受到测序、遗传学、晶体学和大分子数据领域的强制性数据缴存的影响。参见图2。
图2 不同学科使用数据库的类型分析结果
(注:各主题在对比数据集中都包含超过100篇论文,与上图中的主题领域一致。涉及PLOS数据集中最常引用的15个数据库,在PLOS数据集中占94%,占对比数据集84%。每篇论文可能有不止一个与之相关的数据库,因此有些主题的总和超过了100%)
代码共享
用开放获取的代码充实研究文章可以加深理解、促进可重复性和再分析、增强可信度,并为其他研究人员节省时间和精力。
事实上,代码生成与代码共享的关系似乎并不密切。在代码生成率较高的主题领域,代码共享率分布广泛。例如,数学、信息与计算科学和物理科学的代码生成率和代码共享率都较高,而生物科学、环境科学和化学科学的代码生成率较高,但代码共享率却较低。
相反,代码共享行为似乎与数据库中共享的数据高度相关,这表明既定的数据共享规范(而非代码的普遍性/相关性)是决定性因素。参见图3。
预印本发布
预印本使研究人员能够更好地控制他们的科学交流,及早分享,以确立首发权、发布成果、寻求社区反馈、吸引读者群,并有助于申请基金、工作或终身职位。
作为2022年年终分析的一部分,本文还探讨了不同时期和不同地区的预印本发布模式。按学科对数据进行分析,在PLOS和对比数据中,生物科学的预印本发布率最高。生物学是PLOS发表论文最多的主题领域之一,而且生物学预印本平台bioRxiv也是PLOS第一个官方合作的平台。
PLOS还在生物医学与临床科学领域与medRxiv建立了预印本合作关系,最近又在地球与环境科学领域与EarthArXiv建立了合作关系,PLOS在这两个领域都有较多发文。值得注意的是,在生物医学和临床科学领域,PLOS与对比数据集的预印本发布率非常接近,能够在一定程度上说明,在这一学科中,便捷的发表方式对是否采用预印发布的影响较小。在地球与环境科学领域,预印本发布率普遍低于平均水平,而且与对比数据相比,各分支学科的预印本发布率也不尽相同。参见图4。
这只是OSI所开展的探索性研究,学科级开放科学数据的未来走向值得关注。