《预印本发布、数据和代码共享的趋势:探索最新的开放科学指标数据集》

  • 来源专题:科技期刊发展智库
  • 编译者: 王传清
  • 发布时间:2023-06-15
  • 2023年4月,PLOS推出了新的开放科学指标(Open Science Indicators,OSIs),这是一个大型的公共数据集,主要用于识别和量化PLOS文章中的预印本发布、数据共享和代码共享等开放科学实践。根据最新发布的2022年下半年数据,可见2019-2022年,这三个领域都在逐步增长。有关该项目的更多详细信息如下。

    1 开放科学指标的原因和方式

    PLOS的创始使命是打破出版、阅读和重用可信的学术研究的障碍,总体目标是加速整个科学和医学的进步。我们通过让全世界所有学科的所有研究人员更容易获得开放存取的出版资源和开放科学的最佳实践来实现这一目标。

    在这项工作中,我们并不孤单:在整个学术生态系统中,研究人员、资助者、机构、图书馆员、专业组织和其他开放存取出版商都在拥抱开放实践,支持公平和包容、研究完整性和可重复性,以及跨地域和跨学科的合作。但是要了解我们是否在提高采用率方面取得了进展,首先必须了解研究人员目前的情况。开放科学指标使我们能够建立基准,并跟踪一段时间内的变化。

    在制定一套开放科学实践的原则和定义之后,PLOS与DataSeer合作创建了“指标”,用于识别和衡量已发表的研究文章中特定的开放科学实践。2022年12月,我们推出了首批三个指标:数据共享、代码共享和预印本发布。我们目前正在为协议共享制定第四个指标。在未来,我们的目标是继续完善我们的方法并扩展数据集。我们感谢您的意见和反馈,包括最新的数据,您是如何使用它的,以及您认为在未来最有价值的数据点和功能。

    2 近距离观察最新的开放科学指标

    (1)关于数据集

    2023年3月的数据集包括2019年1月至2022年12月这4年间发表的71,109篇PLOS研究文章,以及来自PubMed Central的7,635篇可公开获取的研究文章,比之前的数据集增加了16%。

    有几点需要注意的是:开放科学指标只报告机器可检测到的特征。不清晰的标签或缺失的元数据可能意味着一些实践在数据集中代表性不足。在第二版中,对数据集的准确率进行了更新和扩展,为高级用户提供了更细致入微的数据集视图。

    (2)到2022年底的更新

    截至2022年底,开放科学指标的结果继续遵循既定模式,特别是针对PLOS文章,如图1所示。

    数据存储库使用率持续上升,从2021年的26%上升到2022年的28%。总体数据共享率也上升至75%。

    与2021年相比,2022年的代码共享率略有上升,2022年发表的所有文章的代码共享率达到15%。

    与已发表文章相关的预印本发布率在2021年和2022年期间稳定在24%。

    3 近距离观察预印本发布情况

    为了补充第一次发布的数据和代码共享结果,在此对预印本的发布进行更深入研究。

    虽然在2021年和2022年,带有相关预印本的已发表文章的比例保持不变,但如果我们根据预印本发布日期而不是相关文章发布日期来观察预印本发布情况,就会发现一个不同的模式。就PLOS文章而言,2020年第二季度发布的预印本比上一季度增加了57%,部分原因可能是为了应对Sars-CoV-2大流行。自从那时起,增长率逐渐恢复正常,直到2021年第四季度,略高于大流行前的水平,与前几年观察到的逐渐上升的趋势一致。对比数据显示,大流行的增长幅度不太明显,整个2021年的水平仍然比较稳定(尽管这是一个比较小的样本量)。数据集的未来迭代将更清楚地说明预印本的持续趋势。如图2所示。

    开放科学指标数据集的一个好处是,它提供了一个比以往PLOS更全面的预印本发布视图。在PLOS和比较机构中,最受欢迎的预印本平台是社区/学科特定平台bioRxiv和medRxiv(见表1和表2)。PLOS和比较机构之间平台使用的差异可能与不同的出版商最紧密合作的预印本平台有关。

    预印的流行程度也因地区而异。如图3所示,从广泛的地理区域来看,美洲的预印本发布率最高(27%)。非洲(不包括北非)、欧洲和大洋洲的预印本发布率都差不多(21%-23%),而亚洲和北非/中东(MENA)的预印本发布率较低,分别为15%和17%。到目前为止,我们还没有试图解释为什么各地区在预印本发布方面存在这些差异,但欢迎提出意见。这些最新的 “开放科学指标 ”结果可以为其他已经开始在科学出版的公平性方面研究区域预印本采用率的工作提供参考。

    4 使用开放科学指标

    有很多方法可以查看和分析开放科学指标:仔细观察数据,确定最流行的数据和代码库,寻找研究人员如何使用资源库与支持信息文件来分享数据的模式,或者交叉参考以调查学科或区域规范的差异。伦敦帝国理工学院的罗宾·普莱斯(Robyn Price)在The Bibliomagician上撰文,探讨了机构如何使用指标来更好地了解研究人员的出版模式,同时对特定机构的数据进行更深入的研究。

相关报告
  • 《PLOS发布探索开放科学指标的首个数据集》

    • 来源专题:科技期刊发展智库
    • 编译者:刘晶晶
    • 发布时间:2023-01-28
    •   PLOS根据FAIR原则制定了一个衡量开放科学实践的框架,并与DataSeer合作开发了一套与已发表研究文章中可观察到的特定开放科学特征和行为相关联的数值“指标”。2022年12月12日,第一个数据集可以在Figshare上下载。该数据集专注于三个开放科学实践:数据共享、代码共享和预印本发布。 ●开放科学指标和数据集建立的背景   开放科学正在崛起。这可以从开放获取出版选项的扩展中推断出这一点;bioRxiv发文量稳步上升;新的国家、机构或资助者的政策不断推出等。   但我们对开放科学实践的日常现实究竟了解多少?标准是什么?它们在不同的研究领域和地区有什么不同?开放科学实践是否会随着时间而改变?下一个机会在哪里?采用开放科学的障碍在哪里?   为了开始探索这些问题和其他类似的问题,需要就如何定义和衡量开放科学实践达成共识。此外,还需要了解当前开放科学的采用状态,以便随着时间的推移跟踪进展。这就是开放科学指标项目的切入点。 ●如何使用此数据集?   开放科学指标是一种工具,对研究交流中的许多不同情况和问题具有广泛的潜在应用。这些指标可以补充和支持教科文组织开放科学监测框架工作组的目标,并满足希望更好地了解开放科学实践的组织的需求。它们还可以用于评估政策变化的影响,就像最近的OSTP备忘录中所述的那样,在整个文献中,或者在未来,通过研究学科或主题、机构、地区或时间段进行分析。它们可以告诉我们哪些基础设施最常被使用,以及被谁使用。   PLOS希望更好地理解开放科学工具和实践在今天是如何应用的,可以帮助我们识别障碍,理解社区规范,更好地支持最佳实践,并随着时间的推移跟踪变化。   重要的是,我们的目的不是让这些指标被用作对期刊、作者或机构进行排名的工具。对于研究特征的每一项定量评估,都需要衡量其背景和多样性,来保证这些指标被负责任地使用(例如,The Metric Tide and Leiden Manifesto)。因此,我们认为,这些指标最好用作改进工具。 ●这仅仅是个开始   在未来,我们计划用新的数据点、额外的出版年份和与开放科学实践的其他方面相关的新指标来扩展这个数据集。我们感谢您的反馈,以帮助告知未来的迭代。我们需要知道您对收集的数据字段、我们的开放科学指标定义、确定的开放实践以及我们如何在这第一次结果共享中衡量它们的看法。 ●初步观察   在初始数据集中,我们主要分析了来自PLOS发表的论文和其他一些科学文献中的数据共享和代码共享行为。该数据集还包括对预印本发布的观察。   数据涵盖了PLOS在2019年1月至2022年6月期间发表的约61000篇论文,以及来自PubMed Central的6000篇公开研究论文的比较样本(占PLOS论文样本的10%)。   值得注意的是,此数据集仅测量机器可检测的特征。例如,如果一篇文章的作者共享了一个数据集但没有这样标记,则该数据可能不会被标记为“共享”。数据共享的准确率范围从比较样本的81%到PLOS论文的85%。对于代码共享,准确率范围从比较样本的94%到PLOS论文的97%。比较样本的预印本准确率为96%,PLOS论文为94%。我们的目标是使所有指标和内容来源的准确率至少达到85%。要使开放科学指标大规模发挥作用,必须使流程自动化并将这项工作与其他研究人员的工作进行比较,PLOS正在与DataSeer合作以提高这些准确率,这将在每次数据发布时报告。 ●数据存储库使用   虽然共享数据的方式有很多种,但最佳做法是,将其存放在专门构建的数据存储库中。数据存储库提供的好处包括提升数据的可发现性和元数据、稳定的唯一标识符,以及随着时间的推移保持记录完整性。   开放科学指标数据集提供了两种不同的数据共享方法视图: 1.经认证的数据存储库:数据存储在“已知存储库”中,据保守估计,该存储库基于约130个存储库的受控列表。 2.在线可访问:数据可在可识别的URL上获得。这是一个不太保守的数字,其中包括不常用的存储库、机构存储库,以及其他共享数据的在线方法(例如共享文档、实验室网站等)。   通过任何一种衡量标准,PLOS论文比其他地方发表的同类论文更有可能链接到相关的公共数据集。随着时间的推移,PLOS和比较样本中的论文更有可能在确认存储库使用方面呈现积极趋势。 ●代码共享   PLOS论文和比较样本中的论文之间的代码共享率通常接近。总体而言,任何形式的代码共享都没有数据共享那么普遍,部分原因可能是相关性降低(大多数研究成果会生成数据集,但只有一些研究成果被生成代码)。   除了代码共享率之外,该数据集还追踪了代码是否作为研究成果的一部分,从而为采用率和未来潜在采用提供新的见解。PLOS的目标是在以后的文章中更全面地探索这些数据。 ●预印本发布   数据表明,与其他地方发表的同类文章相比,PLOS论文更有可能拥有相关的预印本。总体而言,21%的PLOS 论文有相关的预印本,而对比数据中这一比例为 19%。 ●“开放科学指标”的下一步是什么?   上述内容探讨了三个指标,但还有许多其他方法可以分析数据集来了解开放科学实践。例如,我们可以深入研究数据和代码共享方法,区分作为支持信息 (SI) 或在存储库中的共享。 图 2 PLOS 和比较样本在数据共享、代码共享、预印本发布方面的论文对比情况 图 3 PLOS 和比较样本中的论文在支持信息之外的数据共享逐年变化图 图4 PLOS和比较样本中的论文在代码共享率的对比情况图 ................................................................................................................................................................................................ *所有数据截至2022年6月30日(上半年末);所有比率均按所有分析文章的百分比计算。
  • 《PLOS探索最能支持代码的共享和重用的解决方案》

    • 来源专题:科技期刊发展智库
    • 编译者:华宁
    • 发布时间:2022-05-16
    • PLOS发布了一项关于预印本和支撑数据的研究,旨在了解研究人员在代码共享和重用方面的需求和习惯,并帮助出版商制定加强代码共享的策略。 除了探索支持代码共享的政策外,PLOS还与加拿大开放神经科学平台的一个方案——NeuroLibre合作,进一步了解技术解决方案对加强代码共享的潜在作用。NeuroLibre是越来越多的用于分享和发表研究的互动或可执行技术之一,其中一些技术已经嵌入到出版商的工作流程。 我们需要从读者和作者的角度更好地理解代码共享和重用。2021年2月,我们发起了一项调查,以收集计算生物学和相关学科的研究人员的意见。188名受访者完成了调查。 (1)读者调查结果 四分之三的受访者表示,他们至少偶尔会看一下与研究论文的相关代码,39%的人经常或非常频繁地看代码,只有6%的人从来没有看过相关代码。这表明公开代码对其他研究人员很有价值。 受访者查看代码最常见的原因(70%)是为了理解文章的内容。仅有不到一半的受访者(48%)希望以某种方式重用代码,例如直接重用代码或重用代码的选定部分。 "链接到代码库"(例如Github或Bitbucket)被认为是获取他人代码的最有效方法,而且几乎所有受访者都遇到过(98%)。除了"应要求提供",受访者认为"网站链接"和"研究文章中的可执行代码片段"是最没有价值的获取代码的方法。 (2)作者调查结果 总的来说,带有相关代码的文章的作者对其自身执行代码共享相关任务的能力感到满意。确保"读者在正确的环境中轻松运行代码"以及"数据和代码在同一个地方",这两项的满意度最低。这意味着可能获得更好的工具(解决方案)来支持研究人员完成这些任务。 大多数受访者表示,他们花了一天以上的时间准备代码,以便与出版物一起分享。使用新的工具或平台来准备并分享代码,可能需要额外的成本(在时间和精力方面),但从研究结果来看,对于研究人员是否愿意花费额外的时间来使用一个工具以提高他们所分享的代码的效用,并没有达成共识。 (3)技术和文化解决方案 虽然研究人员认识到代码共享技术带来的好处,例如在正确的环境中共享数据和代码,并允许读者轻松改变参数,但在期刊上发表文章时,可能没有足够的激励措施让研究人员常规地执行这些任务。大多数研究人员对通过代码库共享代码的社区感到满意。虽然技术解决方案可以在其他方面帮助研究人员,但为了支持代码共享和重用的目标,《PLOS计算生物学》(PLOS Computational Biology)的强制性政策似乎是最佳方案。