随着学术交流迅速适应开放科学、技术和文化的巨大变化,元数据和持久性标识符(PIDs)重新受到关注,这些标识符是关于人、地方和对象的必要组成部分,是行业活力的重要组成部分。仅在美国政策层面,利用元数据加速行业转型是尼尔森备忘录和最近来自NIH和交通部的信息请求的共同主题。
学术研究是复杂且相互关联的,一个领域的变化可能会引发整个生态系统的改善或恶化。举例来说,考虑PIDs在开放获取(OA)资金拨款方面的作用。OA 管理平台依赖于元数据元素,特别是来自上游提交和同行评审系统的组织 PIDs,来自动匹配稿件与潜在资金来源。这通常发生在文章接受时,并且越来越多地发生在提交时,消除了对作者的手动管理,并支持出版商、机构、联盟和资助者大规模实现OA。
为了对组织ID进行健康检查,我们在2021年审查了我们的科学传播OA工作流平台RightsLink中跨出版商的机构从属和/或资助者数据记录。我们发现,82%的已接受稿件包含了这些数据,这比前几年有所改善。然而,这些统计数据掩盖了一个丑陋的事实:在许多情况下,这些稿件使用机构电子邮件域名作为资助或折扣资格的代理而不是使用PID。在没有PID的18%的稿件中,错过的资助机会会给作者、机构和出版商带来不必要的工作(和费用),以便事后进行调和。
即使美国版权结算中心(Copyright Clearance Center,CCC)——无论是单独还是与其合作伙伴和出版商合作——能够在稿件接受时关闭这些元数据差距,这也是后期的过程,而PIDs在研究生命周期早期的优势将会丧失。在上游记录系统中解决元数据差距会更有效,这样就不会颠倒大局。这正是我们鼓励NIH将资助申请过程视为早期机会来强制实施PIDs并向支撑研究生命周期的其他系统(例如,当前研究信息系统)进行级联的原因。
但是从哪里开始呢?PID是一个不稳定的话题,我们需要与那些对ISNI和Ringgold的复杂性不感兴趣的人进行沟通。但如果这些人知道缺乏PID会导致缺乏资金,他们就会关心。为了解决这个问题,我们最近与数十个利益相关者进行了交谈,并通过OA映射了一系列元数据挑战。我们建立在现有工作的基础上,以可视化分散的元数据供应链的连锁反应。结果是一个研究生命周期的交互式报告,旨在让每个人更深入地了解2023年学术元数据的状态。尽管问题很多,但它们并非不可克服,而且存在许多支持变革的基础设施。
我们与Media Growth Strategies合作,采访了来自机构、出版商、资助者、研究人员、服务提供商、PID提供商和行业协会的代表,以了解整个生态系统中元数据和PID的现状(见图1)。我们问了以下问题:
●谁应该创建和维护元数据?它应该起源于哪里?
●您投入了哪些资源来创建、管理或维护各种类型的元数据?
●当涉及到元数据管理和/或使用PID时,您面临的最大挑战是什么?
●最关键的元数据元素是什么?
●如果这些元素不能在学术交流中持续存在,那又会有什么危险呢?
●谁应该拥有元数据的质量和控制?
以下是有关元数据断链和复杂性在研究生命周期中造成影响的相关人士的观点:
研究人员:各方利益相关者普遍认为,研究人员承担着重要的行政负担,以断言或重新断言数据(例如机构隶属、资助者ID),最终干扰和延迟科学发现。
机构:由于研究生命周期中的元数据不一致性,机构需要采用耗费人力的解决方法手动调解资助资格和APC账单,并将非结构化的数据标准化,以进行综合分析。
资助者:缺失元数据(例如注册的授予DOI、机构隶属)使资助机构难以链接资助和研究成果,可能导致开放获取的采用率低、问题性的影响跟踪以及不完整的分析,进而影响资助决策。
出版商:元数据断链干扰业务转型计划,导致高昂的运营和机会成本,并使履行开放获取协议条款和分析交易绩效以便为未来决策提供参考更加复杂。
许多利益相关者认识到,新的元数据策略、包容性政策和一个强大的互操作系统框架对于现代化学术交流的这一要素至关重要。同时,整个生态系统致力于提高所有团体的数据质量将有助于推动向开放的转变,同时有助于保护研究诚信、扩大可发现性和改善影响度量。如果整个行业共同努力通过重新审视元数据政策和实践来缩小这些差距,利益相关者无疑将感受到更少的痛苦。