图书馆在推动开放数据的采集和利用方面发挥着重要作用,并且越来越注重了解数据集的使用和影响力。这些信息对于机构了解科研人员贡献的多样化研究成果至关重要,并且有助于机构制定研究数据管理战略。图书馆员依据数据使用情况来推动数据宣传工作,展示和支持数据工作人员的专业能力,并加强对数据贡献的认可和奖励。
尽管这些见解非常重要,但数据的传播和影响力评估往往对学术图书馆来说是一个挑战,因为识别数据集与其他成果之间的联系需要资源,而且这些信息通常被模糊、不完整或孤立分散在不同的平台和系统中。解决此需求的一种方案是利用数据引用作为数据集使用情况的指标,如果能大规模获取数据引用,图书馆在报告科研机构的数据贡献能力方面的权威性将得到提升。
为了展示数据引用分析可以为机构提供的价值,我们与美国科罗拉多大学博尔德分校大学(University of Colorado Boulder)图书馆的Jamie Wittenberg和美国西北大学费因伯格医学院(Northwestern University Feinberg School of Medicine)、盖尔特健康科学图书馆和学习中心(Galter Health Sciences Library and Learning Center)的Kristi Holmes合作,基于Data Citation Corpus等开放聚合平台的数据引用信息,分析了来自西北大学和科罗拉多大学博尔德分校的数据集的使用情况。分析涵盖Data Citation Corpus现有引用库中两所机构的数据引用,以及欧洲PubMed Central(Europe PMC)上至少含有一项两校署名文章的关联数据引用。
Jamie和Kristi在近期的2025年ACRL(Association of College & Research Libraries)会议上展示了这一分析,以下分享核心见解:
(1)数据使用时序趋势
两所机构的数据引用量在2020-2023年间显著增长,2021年达到峰值(4,000次),见图1。高频使用的三大数据仓储库为dbSNP Reference SNP、Protein Data Bank及European Nucleotide Archive。这反映了结构生物学和基因组学等领域的高水平数据使用,但也反映了欧洲PMC专注于生物医学领域,该领域也是目前数据引文语料库中有重要代表的领域。
图1 2013-2024年数据仓储库时序引用分布
(2)数据密集型研究领域
通过分析引用数据集的期刊及数据集所属仓储库的研究学科,可识别各机构的数据密集型研究方向,见图2。西北大学高使用率数据集集中于医学研究(如癌症、免疫学、传染病)、生物化学与分子生物学及神经科学领域。这亦体现数据集主要关联生命科学与生物医学期刊及跨学科期刊。科罗拉多大学博尔德分校的数据密集型研究则聚焦环境科学(如微生物生态学、极地研究)、分子生物学与遗传学及植物科学,其数据使用多关联环境与地球科学领域的专业期刊。
图2 两校数据引用关联学科领域分布
(3)推进数据评估以支撑机构数据战略
上述分析揭示了数据引用可为图书馆提供的现有的洞察价值。为满足机构对数据成果的更深层评估需求,我们将持续完善Data Citation Corpus建设,整合多源数据引用信息,探索丰富数据引用元数据(如机构署名信息)的路径。
数据引用分析工具需与机构数据贡献评估机制协同发展。为此,“Make Data Count”项目正与HELIOS Open合作成立“机构数据评估实施”工作组,开发支持机构数据评估流程的资源,并展示数据评估和对学术界的影响的示例。