《开放科学框架发布新元数据:支持数据共享政策合规性》

  • 来源专题:科技期刊发展智库
  • 编译者: 孟美任
  • 发布时间:2023-06-14
  • 元数据是开放科学框架(Open Science Framework,OSF)最重要的功能之一。所有OSF的项目、登记项目和预印本都带有元数据,用于记录OSF实例的信息,如标题、描述或关键词。元数据通常对于研究来说是不可或缺的,如果没有标题、描述或关键词,研究就很难被发现,甚至更难理解。

    研究人员现在能够添加有关他们在OSF上共享的材料类型信息,以及资金或资助来源信息。随着在线资源数量的激增,不仅在OSF上,此类信息对于组织、发现和重用研究成果至关重要。

    这种元数据非常重要,事实上,国际上的主要国家和其他资助、研究支持机构的许多新政策都有所涉及。NIH的新数据共享政策于2023年1月25日生效,要求共享一组通用的数据元素,包括我们最近更新的资助者和资源类型信息。除了这些具体指南外,其他机构也在支持创建更成熟的数据共享基础设施。白宫科技政策办公室最近的政策,以及联合国教科文组织关于开放科学的建议,都设想了一个需要增强元数据作用的研究生态系统。

    1 元数据遵循FAIR原则

    元数据使研究材料能够被发现、被理解和被重用,并确保数据和其他研究成果是可发现、可访问、可互操作和可重用 (Findable, Accessible, Interoperable, and Reusable, FAIR) 的。

    (1)可发现

    虽然文本材料支持检索,但其他材料却不容易被找到。元数据是理解和发现这些格式资源的关键。即使存在文本,元数据也会增强和简化这些信息。它可以描述不能立即被观察到的内容,如视频的长度、主题或相关研究领域,或者资助者的名字。

    (2)可访问

    一旦被发现,研究成果就需要元数据来指出资源的访问方式,以及可能的身份验证和授权方式。有关资源许可、资源语言和任何使用限制的元数据对于共享研究至关重要。

    (3)可互操作

    元数据使研究成果能够与其他资源和系统集成。在许多情况下,OSF公共内容的索引会自动发生,因为OSF有一个公共API,并向Datacite和Crossref注册持久标识符 (Persistent Identifiers,PIDs)。除了OSF项目、预印本和登记项目的DOI外,OSF还能够利用人(ORCID iDs)、地点(OSF机构成员隶属关系的ROR IDs和资助者的Crossref Funder IDs)和事物(将数据、出版物和资源的DOI与OSF登记项目、预印本进行关联)标识符。OSF内容页面还使用元标记,以便被其他服务(如Google学术搜索和数据集发现、Web of Science和其他工具)获取,以提高研究的可发现性和影响力。

    (4)可重用

    为了最大限度地增加对研究的资助,元数据能够确保它们可发现、可互操作和可理解,以进一步推进知识发现和创新,从而重用研究成果。元数据可以告诉其他人数据或资源的结构、资源中使用的语言或本体、他们是如何收集或生成的,以及应该如何被读取或使用。如果元数据中没有这些重要信息,研究就只能是一次性的。

    OSF推出新的FAIR元数据功能,将使用户能够满足资助者的要求,并添加更多关于研究材料性质的信息,使资助者或合作者更容易找到、访问和利用研究成果。这些变化将使 OSF的可检索数据变得更加丰富,同时也符合新的数据政策。

    2 OSF 元数据

    元数据已经是OSF的一部分。OSF新推出的元数据增强功能能够使研究生产者和消费者能够以多种关键方式存储和共享元数据,如图1所示。为了进一步增强OSF内容的FAIR属性,目前正在为以下内容添加元数据字段:

    ●资源类型,描述您共享的研究材料类型(数据集、论文、图像等)

    ●所用语言

    ●资助或支持研究的资助者的姓名

    ●具体奖项名称

    ●奖项的标识符

    由我们现有的标题、描述、贡献者、许可协议、发布/修改日期的元数据作为补充。

    此外,目前只能在登记项目和预印本上找到的学科或学科领域将在未来几周内添加到项目中。

    另一个主要变化是新的元数据在文件级别可用,如图2所示。例如,虽然您可能想要描述项目或登记项目的总主题或资助者,但您现在可以将有关材料类型或语言的信息添加到特定文件中。这意味着如果您想要专门查找或共享数据集,您可以将该资源类型添加到那些特定文件中。

    3 社区元数据工具

    作为社区驱动的开源工具,OSF一直努力利用其他社区开发的开放标准和工具。OSF上的元数据旨在支持越来越多的社区开发的元数据模式和本体,已经实现了Datacite的元数据模式。这使得OSF与其他通用资源库保持一致,这也是我们在NIH通用资源库生态系统倡议(Generalist Repository Ecosystem Initiative, GREI)中合作开发一套通用元数据的一部分。OSF继续建立在重要的学术社区基础设施之上,如DOIs、ORCID iDs、ROR IDs、资助者IDs 以及内容和数据发现服务,以使OSF内容从研究计划一直到结果报告都尽可能FAIR化。开放科学中心(Center for Open Science, COS)也直接参与全球元数据工作组和委员会的工作,包括Datacite、Crossref和欧洲开放科学云(European Open Science Cloud, EOSC)。随着时间的推移,更多的元数据模式、本体和标准可以很容易地集成到OSF内容的元数据工作流中。计划纳入CEDAR等工具以支持更多特定领域的元数据,并纳入CREDiT等标准以使研究实践与激励措施保持一致,并希望能与期刊和其他平台合作,在各平台间拉动元数据,以提高研究人员的效率。

    未来的元数据工作将包括改进OSF中的搜索和发现、创建具有更多字段的自定义元数据模板以及简化元数据创建工作流程。通过将这些新字段添加到OSF项目、登记项目和文件中,可以满足资助者的要求并提高研究的可发现性。

相关报告
  • 《PLOS发布探索开放科学指标的首个数据集》

    • 来源专题:科技期刊发展智库
    • 编译者:刘晶晶
    • 发布时间:2023-01-28
    •   PLOS根据FAIR原则制定了一个衡量开放科学实践的框架,并与DataSeer合作开发了一套与已发表研究文章中可观察到的特定开放科学特征和行为相关联的数值“指标”。2022年12月12日,第一个数据集可以在Figshare上下载。该数据集专注于三个开放科学实践:数据共享、代码共享和预印本发布。 ●开放科学指标和数据集建立的背景   开放科学正在崛起。这可以从开放获取出版选项的扩展中推断出这一点;bioRxiv发文量稳步上升;新的国家、机构或资助者的政策不断推出等。   但我们对开放科学实践的日常现实究竟了解多少?标准是什么?它们在不同的研究领域和地区有什么不同?开放科学实践是否会随着时间而改变?下一个机会在哪里?采用开放科学的障碍在哪里?   为了开始探索这些问题和其他类似的问题,需要就如何定义和衡量开放科学实践达成共识。此外,还需要了解当前开放科学的采用状态,以便随着时间的推移跟踪进展。这就是开放科学指标项目的切入点。 ●如何使用此数据集?   开放科学指标是一种工具,对研究交流中的许多不同情况和问题具有广泛的潜在应用。这些指标可以补充和支持教科文组织开放科学监测框架工作组的目标,并满足希望更好地了解开放科学实践的组织的需求。它们还可以用于评估政策变化的影响,就像最近的OSTP备忘录中所述的那样,在整个文献中,或者在未来,通过研究学科或主题、机构、地区或时间段进行分析。它们可以告诉我们哪些基础设施最常被使用,以及被谁使用。   PLOS希望更好地理解开放科学工具和实践在今天是如何应用的,可以帮助我们识别障碍,理解社区规范,更好地支持最佳实践,并随着时间的推移跟踪变化。   重要的是,我们的目的不是让这些指标被用作对期刊、作者或机构进行排名的工具。对于研究特征的每一项定量评估,都需要衡量其背景和多样性,来保证这些指标被负责任地使用(例如,The Metric Tide and Leiden Manifesto)。因此,我们认为,这些指标最好用作改进工具。 ●这仅仅是个开始   在未来,我们计划用新的数据点、额外的出版年份和与开放科学实践的其他方面相关的新指标来扩展这个数据集。我们感谢您的反馈,以帮助告知未来的迭代。我们需要知道您对收集的数据字段、我们的开放科学指标定义、确定的开放实践以及我们如何在这第一次结果共享中衡量它们的看法。 ●初步观察   在初始数据集中,我们主要分析了来自PLOS发表的论文和其他一些科学文献中的数据共享和代码共享行为。该数据集还包括对预印本发布的观察。   数据涵盖了PLOS在2019年1月至2022年6月期间发表的约61000篇论文,以及来自PubMed Central的6000篇公开研究论文的比较样本(占PLOS论文样本的10%)。   值得注意的是,此数据集仅测量机器可检测的特征。例如,如果一篇文章的作者共享了一个数据集但没有这样标记,则该数据可能不会被标记为“共享”。数据共享的准确率范围从比较样本的81%到PLOS论文的85%。对于代码共享,准确率范围从比较样本的94%到PLOS论文的97%。比较样本的预印本准确率为96%,PLOS论文为94%。我们的目标是使所有指标和内容来源的准确率至少达到85%。要使开放科学指标大规模发挥作用,必须使流程自动化并将这项工作与其他研究人员的工作进行比较,PLOS正在与DataSeer合作以提高这些准确率,这将在每次数据发布时报告。 ●数据存储库使用   虽然共享数据的方式有很多种,但最佳做法是,将其存放在专门构建的数据存储库中。数据存储库提供的好处包括提升数据的可发现性和元数据、稳定的唯一标识符,以及随着时间的推移保持记录完整性。   开放科学指标数据集提供了两种不同的数据共享方法视图: 1.经认证的数据存储库:数据存储在“已知存储库”中,据保守估计,该存储库基于约130个存储库的受控列表。 2.在线可访问:数据可在可识别的URL上获得。这是一个不太保守的数字,其中包括不常用的存储库、机构存储库,以及其他共享数据的在线方法(例如共享文档、实验室网站等)。   通过任何一种衡量标准,PLOS论文比其他地方发表的同类论文更有可能链接到相关的公共数据集。随着时间的推移,PLOS和比较样本中的论文更有可能在确认存储库使用方面呈现积极趋势。 ●代码共享   PLOS论文和比较样本中的论文之间的代码共享率通常接近。总体而言,任何形式的代码共享都没有数据共享那么普遍,部分原因可能是相关性降低(大多数研究成果会生成数据集,但只有一些研究成果被生成代码)。   除了代码共享率之外,该数据集还追踪了代码是否作为研究成果的一部分,从而为采用率和未来潜在采用提供新的见解。PLOS的目标是在以后的文章中更全面地探索这些数据。 ●预印本发布   数据表明,与其他地方发表的同类文章相比,PLOS论文更有可能拥有相关的预印本。总体而言,21%的PLOS 论文有相关的预印本,而对比数据中这一比例为 19%。 ●“开放科学指标”的下一步是什么?   上述内容探讨了三个指标,但还有许多其他方法可以分析数据集来了解开放科学实践。例如,我们可以深入研究数据和代码共享方法,区分作为支持信息 (SI) 或在存储库中的共享。 图 2 PLOS 和比较样本在数据共享、代码共享、预印本发布方面的论文对比情况 图 3 PLOS 和比较样本中的论文在支持信息之外的数据共享逐年变化图 图4 PLOS和比较样本中的论文在代码共享率的对比情况图 ................................................................................................................................................................................................ *所有数据截至2022年6月30日(上半年末);所有比率均按所有分析文章的百分比计算。
  • 《美国白宫科技政策办公室发布最新开放科学政策指南》

    • 来源专题:科技期刊发展智库
    • 编译者:彭希珺
    • 发布时间:2022-10-14
    •   2022年8月25日,美国白宫科技政策办公室(OSTP)发布最新开放科学政策指南,主题为“免费、立即和公平地获取联邦政府机构资助的研究”。该政策指南的核心内容包括: ① 要求各联邦机构于2024年12月31日前更新公共获取政策,并在不晚于一年内全面实施。由联邦政府资助的研究所产生的出版物及其支撑数据立即开放获取,且没有公共访问限制。 ② 建立一套透明的程序,在公共访问政策中确保科研诚信。 ③ OSTP将与各机构协调,确保公平地提供联邦资助的研究成果和数据。 (1) 关于学术出版物的开放政策 ① 联邦政府资助所产生的学术出版物,应在出版后立即存储到机构指定的存储库中,并向公众免费开放。 ② “学术出版物”的范围不仅包括学术期刊上经同行评议发表的研究论文或最终手稿,还包括经同行评议的书籍章节、社论和会议集。 ③ 学术出版的开放应以机器可读的格式提供,并支持各类辅助设备无障碍访问。 ④ 明确学术出版访问、使用中的权益和限制。 (2) 关于科学数据的开放政策 ① 用于重复验证出版物中研究结论的支撑数据,必须在正式出版时同步向公众开放,除非基于合理的访问限制。 ② 对于受联邦资助,但与学术出版物没有直接关系的科学数据,联邦机构应制定专门的开放共享方法和时间表。 ③ 联邦机构需要向科研人员提供数据存储库的使用指导,以便符合美国国家科学与技术委员会的相关要求。 ④ 联邦机构的研究人员应遵守联邦法律和OMB政策,保护数据安全。   背景介绍:2013年,白宫科技政策办公室(OSTP)颁布《促进联邦资助科研成果获取的备忘录》。所有年度研发经费超过1亿美元的联邦机构均制定和发布关于学术论文与研究数据的强制性公共获取政策。要求受联邦资助的科研论文必须在正式发表后12个月内,向公共提供全文免费获取;为新的科研项目制定数据管理计划,说明该项目所产生的科研数据如何及时且最大限度地向其他研究人员和公众开放,并解决隐私保护、数据安全和知识产权等问题。在该政策的指导下,近十年间美国学术出版物的开放获取获得了快速发展。   为进一步提升美国在开放科学中的地位,OSTP发布新一版开放科学政策指南,对适用性范围和开放时滞全面调整。