《公开共享数据:研究者行动与机构支持在数据生命周期中的错位分析》

  • 来源专题:科技出版市场动态监测
  • 编译者: 崔颖
  • 发布时间:2024-09-09
  • 第一部分:研究背景

    由于联邦政府政策的强制要求(由公众资助的研究成果必须对公众公开可访问),所以受资助的研究人员开始考虑如何将他们的研究数据共享,机构开始探索如何支持研究人员的工作。

    推动研究数据共享的驱动力量包括:期刊和出版商数据可用性政策的不断增加,机构内部研究数据政策的增加,以及科学界对研究数据共享的认知提高。

    研究数据共享的要求在未来将会持续增加,因为美国几乎所有的联邦资助机构都会根据OSTP(科学技术政策办公室)2022年发布的“确保联邦资助研究的免费、即时和平等获取”的要求,实施自己的公共获取或者数据共享政策。这一扩展将影响到所有拥有外部R&D(研究与开发)预算的联邦机构,以及被这些机构资助的院校和研究人员。

    虽然主要由获得资助的研究人员负责其研究数据的管理,但最终还是由所在机构负责遵守资助协议和合同的相关条件。因此,院校通常会提供基础设施,以满足资助方对DMS(数据管理和共享)的要求,也同样满足来自学术出版商或其他利益相关方的DMS要求。为了实现这些支持机制,院校需要在数据共享基础设施的开发和维护上进行大量投资。此外,由于没有一个单独的机构部门或小组对研究数据支持服务负全责,因此对这些服务进行全面评估和协调显得至关重要。

    对支持研究数据管理和共享的院校基础设施进行盘点是评估研究人员收到支持情况的有效方法。如果不进行盘点,院校领导可能无法知道哪些地方存在缺口或重叠,从而无法确定需要战略性投资的领域。此外,了解院校的资助研究人员如何公开其数据,以及他们是否利用了院校内部或外部提供的服务,对于院校来说也很有帮助。通过这些信息,院校可以进一步在数据共享基础设施上做出明智且有效的投资。

    综上所示,完成对研究数据服务和研究人员数据共享活动的机构基础设施盘点,是了解院校研究数据管理和共享工作的重要一步。在ARL(研究型图书馆协会)的RADS(学术数据共享现实)计划里,就把这一盘点过程作为优先事项。RADS计划的第一阶段由美国国家科学基金会(NSF #2135874)资助,有六所院校参与,分别是康奈尔大学、杜克大学、密歇根大学、明尼苏达大学、弗吉尼亚理工大学和圣路易斯华盛顿大学。此报告提供了上述六所院校的数据管理和共享服务调查结果,并重点指出了资助研究人员的需求与院校提供的服务之间可能存在的错位。

    第二部分:研究型图书馆开展的活动

    图1. 六所RADS院校中图书馆支持的数据管理和共享活动

    从图书馆的可视化图表中,可以得知,图书馆在整个研究生命周期的各个阶段以某种形式支持数据共享活动。作为学术机构的关键合作伙伴,图书馆可能会提供有关数据共享的二十多项服务,包括:

    ? 就数据使用协议提供咨询

    ? 支持知识产权问题

    ? 处理版权考虑、管理活跃数据

    ? 提供数据策展和保存服务

    ? 通过技术基础设施(如机构库)广泛提供数据(或就替代存储库提供咨询)。

    相比之下,图书馆在研究生命周期的“结项和合规”阶段提供的支持最少,尽管如此,调查的六所院校中有一所(明尼苏达大学)表示在这一领域也提供了支持。

    第三部分:研究型图书馆的机遇

    研究结果显示,研究型图书馆和信息技术办公室在数据共享活动的服务、基础设施和人员支持方面提供了最广泛的支持。COGR在2023年5月的一项报告也发现,校园图书馆和信息技术办公室在行政层面提供了最大份额的机构支持。

    然而,受访的研究人员表示在数据共享的众多活动中没有依赖于内部或外部支持。在26项活动中,有20项活动,70%或更多的研究人员报告称他们是靠自己或在研究小组内进行这些活动的。尽管研究人员和管理员所涉及的活动几乎相同,但每个群体可能对这些活动有不同的理解。

    研究数据输出因研究项目的不同而不同,有些活动(例如,创建与数据或研究输出相关的文档以及决定共享哪些数据)更适合由研究人员自己或在他们的研究实验室中进行。所以尽管研究型图书馆内存在提供高层次指导的服务,但最终还是由研究人员自己负责这些活动,因为他们最了解自己数据的细微差别和复杂程度。

    从可视化图表1中,可以看到所有六所参与院校的研究型图书馆都提供“选择或申请数据重用许可”的支持,而66%的研究人员报告称他们没有进行这一活动。提供数据重用许可对所有研究人员都很重要,因为这有助于用户理解数据以及应该如何根据数据创作者、机构和可能的资助方的利益来使用。此外,22%的研究人员报告称,当他们选择或申请数据重用许可时,他们会获得机构的帮助,而7%的报告称得到了外部帮助。

    这表明图书馆可以提高研究人员对这些支持服务的认识。此外,图书馆应考虑与研究办公室或提供知识产权支持的中央单位建立合作伙伴关系,来更好地处理与研究数据相关的许可和知识产权问题。

    尽管研究型图书馆已经为一些数据共享活动建立了支持服务,但大多数受访研究人员表示他们通常自己或在研究小组内完成这些活动。例如,六所受访机构中的五个研究图书馆管理员表示,他们提供关于“决定共享或托管哪些数据”和“准备数据共享”的帮助,但这同时也是受访研究人员表示自己完成的前两项数据共享活动。

    研究人员在准备数据管理计划时也可能会受益于图书馆的支持。受访研究人员报告称,他们有85%的情况下是自己准备这些计划的。此外,六所机构中有五个研究图书馆提供帮助,协助选择适当的存储库(或多个存储库),以广泛共享研究数据。大多数研究人员表示,他们自己或通过机构帮助并没有进行这一活动,只有8%的研究人员报告说他们通过外部帮助进行这一活动。

    此外,研究型图书馆通常提供存储库服务,帮助研究人员为其公开数据集获取持久标识符(PID,如DOIs、RORs、ORCIDs)。PID分配是一个关键的数据共享活动,因为PID可以在元数据、出版物、其他研究产品和产出、作者以及机构隶属之间建立链接。当内部存储库未被使用时,图书馆人员可能会为研究人员寻找合适的外部存储库以及提供如何从外部存储库获取PID的咨询。在为共享数据分配PID的研究人员中,仅有20%的人报告称得到内部帮助。这些低比例表明,虽然一些研究人员已经使用了这些服务,但显然还有更多的研究人员未使用。

    图书馆的高级领导应与其他机构研究支持办公室的管理层合作,制定更广泛推广PID在共享研究产品(包括数据)中的应用的策略。

    综上所述,研究型图书馆提供的这些数据共享服务可能未被研究人员充分利用,对此,可以通过以下两种方式改善:

    (1)增加机构资源,以提高研究人员对这些服务的认识;

    (2)加强宣传活动,鼓励研究人员在所在机构寻求这些服务。

    第四部分:结论

    通过对六所院校的研究人员数据共享活动及其机构支持的分析,可以得出结论,研究人员应该进一步利用机构提供的支持来完成许多数据管理和共享活动。对于这些活动,机构支持存在一个或多个部门。具体来说,这些活动包括:

    ? 制定DMPs(数据管理计划)或DMSPs(数据管理和共享计划)

    ? 制定MTAs(材料转让协议)和/或DUAs(数据使用协议)

    ? 确定应包含在资助预算中的数据管理和共享成本

    ? 在适当情况下确保数据安全

    ? 创建质量控制机制或程序

    ? 决定哪些数据可以共享或托管

    ? 创建持久标识符(例如,DOIs)

    ? 选择或应用数据重用许可

    ? 准备数据共享(例如,去识别化、选择、策展、数据清理、验证和质量控制)

    ? 决定如何处理和移除研究数据

    ? 确保满足资助机构的数据共享要求

    近一半的研究人员报告称,他们在制定资助预算的规划阶段没有考虑数据管理和共享成本。但数据共享无疑需要成本,适当的资源分配能够提高有效数据共享的可能性。研究人员自己或在研究小组内完成的部分活动,可以通过机构各部门之间的协调支持获得更多益处。院校应该考虑成立跨机构的研究数据管理工作组或委员会,以协调对公共数据共享的支持。研究型图书馆在引领此类协调活动方面具有良好的优势。

    研究结果显示,研究型图书馆在机构满足研究数据公共访问要求的能力中发挥着重要作用,尤其是在以下三个阶段:

    (1) 项目的规划、设计和启动;

    (2) 数据保留,包括保存、归档和长期访问;

    (3) 广泛提供数据。

    研究型图书馆提供的数据共享服务可能未被充分利用,因此可以通过加强校园宣传以及资助方代表的推动,鼓励研究人员在所在机构寻求这些服务。

    此外,参与此次调查的机构中,有一半的研究所和某些特定中心的管理人员报告显示,他们在整个研究生命周期内提供了对所有27项数据管理和共享活动的支持。研究所和某些特定中心为机构提供了一个试验各种数据共享努力的平台,并在全校范围内推广这些服务之前,评估其成本和影响。

    基于这些见解,我们鼓励其他研究组织进行类似的机构调查,并协调数据共享支持和研究人员的数据共享活动,以提高机构效率。这类研究对于识别关键支持部门、找出机构研究数据管理和共享支持中的服务缺口,以及进行有针对性的宣传非常重要。这些缺口分析不仅提供了当地数据管理和共享支持现状的概览,还为增强跨机构的研究数据管理支持协调奠定了关键基础。

  • 原文来源: https://www.arl.org/resources/publicly-shared-data-a-gap-analysis-of-researcher-actions-and-institutional-support-throughout-the-data-life-cycle/
相关报告
  • 《研究人员和机构支持开放共享数据分析》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2024-07-07
    •     近年来,研究数据管理和共享的格局经历了显著的转变。这一转变在很大程度上受到了2013年白宫科学技术政策办公室(OSTP)霍尔德伦备忘录的影响,并由2022年OSTP尼尔森备忘录进一步强化,它提高了美国学术研究的透明度和可访问性,并导致最大的联邦学术研究资助者强制要求公共获取资助的研究成果。这种转变给机构带来了重大责任,它们现在不仅要管理研究数据,还要确保遵守授予机构内个别研究人员的外部资助的条件。为了满足这些新要求,各机构已投资开发和维护强大的基础设施和服务,用于数据管理和共享。了解研究人员如何管理和共享数据,以及他们是否使用机构服务或外部资源进行这些活动,对于旨在做出明智决策以增强其数据共享基础设施的机构至关重要。     本报告提供了在六所学术机构进行的研究结果,这些研究是美国国家科学基金会(NSF)资助的“完成生命周期:开发基于证据的研究数据共享模型”(#2135874)的一部分,属于研究图书馆协会(ARL)学术数据共享实现(RADS)倡议。对具有输出知识并为研究人员提供数据管理与共享(DMS)支持的单位的管理人员进行了调查,以准确了解他们的单位为实现数据共享提供了哪些服务和活动。同样在这六所机构中,对获得资助的研究人员也进行了调查,了解他们在有或没有机构或外部支持的情况下,为共享研究数据而进行的活动。本报告突出了研究人员需求与机构提供的服务和支持之间可能存在的服务差距。     通过此次分析,我们确定了一些数据管理与共享(DMS)活动,这些活动可能需要通过特定服务提供者或跨机构努力的支持,或者研究人员未充分利用这些活动。我们的主要发现如下:     1. 近一半的研究人员报告指出,在拨款预算的规划阶段没有确定数据管理和分摊成本。公开数据是有代价的,适当规划资源分配会增加生成有据可查和可重复使用的研究数据的机会。     2.研究人员可以从现有机构支持中受益于几个数据管理和共享活动。包括: (1)评估IT办公室的研究数据安全性; (2)确保中央研究办公室满足资助机构对数据共享的要求; (3)从研究图书馆为共享数据集创建持久标识符(PIDs); (4)做出关于取消加入和删除研究数据的决定; (5)通过跨机构努力,来进行数据管理和分担成本的预算。     3.研究人员自己完成了大部分数据管理和共享活动,并在很大程度上不依赖于内外部支持。在被问及的26项数据管理和共享活动中,其中有20项,70%或更多的研究人员报告中指出他们自己或在研究小组内进行了这项活动。     4. 在参与这项调查的机构中,有一半来自研究机构和专业中心的管理人员报告提到,在整个研究生命周期中,他们为被问及的所有27项数据管理和共享活动提供支持。     本次报告的建议如下: 1.以前的报告已经指出了成立机构研究数据管理工作组或委员会的重要性。一旦成立,这些工作组应专注于协调努力,以提高数据共享服务和基础设施效率。 2.研究学院和专业中心可以为机构提供机会,让他们在机构中实施这些服务和基础设施之前,先试行或试验各种数据共享服务和基础设施,以评估成本和影响。 3.研究型图书馆在机构满足公共获取研究数据的要求方面发挥着不可或缺的作用。研究型图书馆提供的数据共享服务可能没有得到充分利用,但可以从增加校园外部服务和资助者代表的信息传递中受益,以便在当地机构寻求这些服务。 完整报告见链接:https://www.arl.org/wp-content/uploads/2024/03/Publicly-Shared-Data-A-Gap-Analysis.pdf
  • 《研究管理开放数据全景报告》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2025-04-07
    •     受Jisc委托,Research Consulting联合SIRIS Academic针对英国研究管理与行政过程中产生的开放数据及其聚合与发布平台展开专项调研。本研究旨在深度解析英国研究管理开放数据的覆盖范围、应用现状及潜在价值,探索通过优化数据开放提升行业效率与洞察力的可行路径。     一、项目范围     本研究聚焦研究全生命周期(从假设提出到影响力评估)中具有开放潜力的管理与行政数据,涵盖研究管理与行政体系各环节。需特别说明: ·研究项目实施过程中产生的科研数据不属于本项目研究范畴 ·所有纳入研究范围的数据均不包含个人隐私、商业秘密及其他敏感或可识别信息 ·数据可能呈现为多源聚合、匿名化处理或关联数据形态,确保组合使用时不涉及敏感信息     本项目属于基础性研究,旨在为后续深入探索建立框架基础。虽然未提出具体的基础设施建设方案或互操作性机制,但通过全景扫描揭示了现存挑战与改进机遇。研究重点聚焦于以下两个方面: ·开放数据现状中面临的挑战 ·挑战下的提升策略 不涉及对数据采集方法或途径、更新频率、数据质量(开放标准、元数据及API等系统性指标除外)或数据应用场景适配性的评估。     本次研究呈现了当前开放数据生态的阶段性特征,为后续系统性发展提供基准参考。     二、核心研究发现 1.可用数据全面,许多领域实践出色     开放数据研究所(The Open Data Institute)将开放数据定义为“可供任何人自由访问、使用或共享的数据资源”。     围绕研究管理与行政领域的数据生态体系呈现完整架构,其作为分析洞察研究创新系统的重要基础资源具有关键价值。    在研究管理与行政流程中产生了大量多元化数据资产,其中既包含已实现开放共享的现有资源,也蕴含着具备开放潜力的待开发数据。     具体表现为三个层级: ·已建立完善管理体系,可通过开放许可协议获取 ·虽具备可及性但未实现标准化开放访问 ·具有开放可行性但尚未启动共享机制 2.研究管理和行政数据的主要参与者     英国研究数据生态的核心参与主体包括: ·资助机构:英国研究与创新署(UKRI)、苏格兰资助委员会 ·执行机构:高等教育机构(HEIs)、国家卫生与护理研究院(NIHR)等研究委托方 ·投资主体:科研基础设施投资机构 ·组织类型:公共部门、独立及私营研究机构、商业实体 ·行业组织:英国大学联盟(UUK)、GuildHE、百万加联盟等会员机构 ·专业团体:研究管理协会(ARMA) ·第三方机构:惠康基金会、Jisc、高等教育统计局(HESA)等慈善领域机构 3.复杂全景 (1)数据生产呈现多维交叉特征: 研究基础设施投资、公共部门和独立及私人研究组织、成员机构、专业团体和商业组织及慈善机构在独立产生数据的同时,可以与政府、资助者和高等教育机构交叉产生数据。 英国四个构成区域(英格兰、苏格兰、威尔士、北爱尔兰)实行差异化科研管理流程。 (2)系统冗余 ·存在可重复利用或需整合的现有数据资源 ·数据采集活动与服务平台存在功能重叠 ·跨系统数据交叉现象加剧管理复杂度与行政负担 (3)技术实现困境 ·数据访问路径多样化影响数据质量与系统互操作性 ·元数据完整性与数据源对齐程度呈现碎片化特征 ·API接口存在标准不统一、规范不明确等问题,制约程序化分析效能 (4)采用Jisc制定的六层分类框架评估数据开放程度: ? 完全开放数据:符合开放数据标准,部分满足FAIR原则(可查找、可访问、可互操作、可重用) ? 部分开放数据:未完全达到开放数据标准 ? 公开可用数据:以嵌入式形态存在于个人网页或专有平台 ? 报告/平台介导数据:数据可能作为报告中的表格,或受限于平台下载权限 ? 受控访问数据:需要订阅或注册流程获取 ? 内部专有数据:当前仅限于生成机构内部使用,但具备开放潜力 (4)实施障碍 项目参与者普遍认同数据开放价值,纷纷表示“有意愿可持续地使更多关于研究管理和行政的数据开放”,但指出以下转型阻碍: ·部门内多套系统并行 ·研究管理和行政固有流程的复杂性 ·包括财政限制在内的基础保障不足等 4.数据来源和平台     本次项目识别了118个具有某些可访问性的数据集,并根据数据源的开放性对其中76个数据集特征进行了分类。     这些数据源的展示说明了关于研究管理和行政的开放(或潜在开放)数据全景的复杂性和碎片化性质。     本次报告展示开放政府数据与开放科学政策对于数据开放形成差异化驱动以及研究生命周期各阶段存在数据衔接缺口。 5.创新发展机遇     有机遇扩展研究管理和行政开放数据,以降低成本,更好地进行洞察和分析,提升创新潜力。 机遇包括: (1)展示潜在和范围内的数据 ? 构建有利于研究管理和行政开放数据的叙事体系,拓展商业机构与公共部门参与,推动开放数据向完全开放转型,释放数据潜力。 ? 对潜在目标数据开展系统性盘查,评估开放数据路径可行性,梳理现有访问权限与许可路径(明确覆盖范围)。 ? 编制研究管理行政数据源基准清单,重点标注具备完全开放潜力的数据资产(确认输出成果)。 (2)数字和技术赋能 ● 实施成本评估:开展选型数据服务平台持续运营资源评估,涵盖技术投入与维护、数据治理、数据源聚合增强、故障排查及查询管理等全要素(成本测算)。 ● 组合数据开放策略:通过数据发布计划或信息资产登记制度(IARs),将传统以聚合形态提供的数据源转为开放数据。在确保可持续访问以支撑效率创新的同时,减少研究生态圈内互操作性缺失的复杂独立平台建设需求(破除行政壁垒)。 ● 渐进式开放框架:制定报告/平台中介型公开数据的渐进开放许可路径,建立轻量化元数据标准与通用API规范,实现多元API与开放数据的互操作共存(实现互操作性)。 (3)通过现有的开放数据政策和基础设施进行优化 ● 政策协同:对接英国相关政府部门,研判与公共部门数据开放既有政策框架(如data.gov.uk)的协同潜力(依托既有政策基础)。 ● 最佳实践推广:拓展高校与公共部门数据发布计划应用,可通过信息资产登记制度(IARs)建立跨机构重点领域协作机制,以便关键行动者能高效且可持续地共享生成的数据和信息。 ● 统计体系融合策略:评估具备官方统计属性的开放数据扩展潜力,系统性审查需纳入官方数据记录的补充内容(制定统计目录补充方案)。