《探索 Web of Science、Scopus 和 Dimensions 中的出版物元数据字段:科学计量分析的可能性与便利性》

  • 编译者: 程冰
  • 发布时间:2025-07-23
  • 摘要:近几十年来,大量研究论文的发表推动了学术数据库的创建,用于索引出版物和记录引用。学术数据库中的出版物元数据字段现在被用于各种目的,从信息搜索和检索到研究评估。传统上,WOS和Scopus一直是主要使用的数据库来源。然而,随着Dimensions等新数据库的创建,选择范围进一步扩大。以前许多研究都比较过主要数据库的覆盖范围和引文数据。然而,目前尚无关于学术数据库提供的元数据字段及其对文献计量研究影响的比较研究。本文试图通过比较从三个主要学术数据库——WOS、Scopus和Dimensions——基于用户界面(UI)搜索下载数据中包含的元数据字段来弥合这一研究空白。探讨了数据库中元数据字段的存在或缺失对文献计量分析的可能性和易用性的影响。研究结果对文献计量研究人员、实践者和数据库管理者具有重要意义。

    关键字:维度、元数据、学术数据库、科学计量学、Scopus、Web of Science(WOS)

    Singh, P., Singh, V. K., & Kanaujia, A. (2024). Exploring the Publication Metadata Fields in Web of Science, Scopus and Dimensions: Possibilities and Ease of doing Scientometric Analysis. Journal of Scientometric Research, 13(3), 715–731. https://doi.org/10.5530/jscires.20041144

相关报告
  • 《PLOS发布探索开放科学指标的首个数据集》

    • 来源专题:科技期刊发展智库
    • 编译者:刘晶晶
    • 发布时间:2023-01-28
    •   PLOS根据FAIR原则制定了一个衡量开放科学实践的框架,并与DataSeer合作开发了一套与已发表研究文章中可观察到的特定开放科学特征和行为相关联的数值“指标”。2022年12月12日,第一个数据集可以在Figshare上下载。该数据集专注于三个开放科学实践:数据共享、代码共享和预印本发布。 ●开放科学指标和数据集建立的背景   开放科学正在崛起。这可以从开放获取出版选项的扩展中推断出这一点;bioRxiv发文量稳步上升;新的国家、机构或资助者的政策不断推出等。   但我们对开放科学实践的日常现实究竟了解多少?标准是什么?它们在不同的研究领域和地区有什么不同?开放科学实践是否会随着时间而改变?下一个机会在哪里?采用开放科学的障碍在哪里?   为了开始探索这些问题和其他类似的问题,需要就如何定义和衡量开放科学实践达成共识。此外,还需要了解当前开放科学的采用状态,以便随着时间的推移跟踪进展。这就是开放科学指标项目的切入点。 ●如何使用此数据集?   开放科学指标是一种工具,对研究交流中的许多不同情况和问题具有广泛的潜在应用。这些指标可以补充和支持教科文组织开放科学监测框架工作组的目标,并满足希望更好地了解开放科学实践的组织的需求。它们还可以用于评估政策变化的影响,就像最近的OSTP备忘录中所述的那样,在整个文献中,或者在未来,通过研究学科或主题、机构、地区或时间段进行分析。它们可以告诉我们哪些基础设施最常被使用,以及被谁使用。   PLOS希望更好地理解开放科学工具和实践在今天是如何应用的,可以帮助我们识别障碍,理解社区规范,更好地支持最佳实践,并随着时间的推移跟踪变化。   重要的是,我们的目的不是让这些指标被用作对期刊、作者或机构进行排名的工具。对于研究特征的每一项定量评估,都需要衡量其背景和多样性,来保证这些指标被负责任地使用(例如,The Metric Tide and Leiden Manifesto)。因此,我们认为,这些指标最好用作改进工具。 ●这仅仅是个开始   在未来,我们计划用新的数据点、额外的出版年份和与开放科学实践的其他方面相关的新指标来扩展这个数据集。我们感谢您的反馈,以帮助告知未来的迭代。我们需要知道您对收集的数据字段、我们的开放科学指标定义、确定的开放实践以及我们如何在这第一次结果共享中衡量它们的看法。 ●初步观察   在初始数据集中,我们主要分析了来自PLOS发表的论文和其他一些科学文献中的数据共享和代码共享行为。该数据集还包括对预印本发布的观察。   数据涵盖了PLOS在2019年1月至2022年6月期间发表的约61000篇论文,以及来自PubMed Central的6000篇公开研究论文的比较样本(占PLOS论文样本的10%)。   值得注意的是,此数据集仅测量机器可检测的特征。例如,如果一篇文章的作者共享了一个数据集但没有这样标记,则该数据可能不会被标记为“共享”。数据共享的准确率范围从比较样本的81%到PLOS论文的85%。对于代码共享,准确率范围从比较样本的94%到PLOS论文的97%。比较样本的预印本准确率为96%,PLOS论文为94%。我们的目标是使所有指标和内容来源的准确率至少达到85%。要使开放科学指标大规模发挥作用,必须使流程自动化并将这项工作与其他研究人员的工作进行比较,PLOS正在与DataSeer合作以提高这些准确率,这将在每次数据发布时报告。 ●数据存储库使用   虽然共享数据的方式有很多种,但最佳做法是,将其存放在专门构建的数据存储库中。数据存储库提供的好处包括提升数据的可发现性和元数据、稳定的唯一标识符,以及随着时间的推移保持记录完整性。   开放科学指标数据集提供了两种不同的数据共享方法视图: 1.经认证的数据存储库:数据存储在“已知存储库”中,据保守估计,该存储库基于约130个存储库的受控列表。 2.在线可访问:数据可在可识别的URL上获得。这是一个不太保守的数字,其中包括不常用的存储库、机构存储库,以及其他共享数据的在线方法(例如共享文档、实验室网站等)。   通过任何一种衡量标准,PLOS论文比其他地方发表的同类论文更有可能链接到相关的公共数据集。随着时间的推移,PLOS和比较样本中的论文更有可能在确认存储库使用方面呈现积极趋势。 ●代码共享   PLOS论文和比较样本中的论文之间的代码共享率通常接近。总体而言,任何形式的代码共享都没有数据共享那么普遍,部分原因可能是相关性降低(大多数研究成果会生成数据集,但只有一些研究成果被生成代码)。   除了代码共享率之外,该数据集还追踪了代码是否作为研究成果的一部分,从而为采用率和未来潜在采用提供新的见解。PLOS的目标是在以后的文章中更全面地探索这些数据。 ●预印本发布   数据表明,与其他地方发表的同类文章相比,PLOS论文更有可能拥有相关的预印本。总体而言,21%的PLOS 论文有相关的预印本,而对比数据中这一比例为 19%。 ●“开放科学指标”的下一步是什么?   上述内容探讨了三个指标,但还有许多其他方法可以分析数据集来了解开放科学实践。例如,我们可以深入研究数据和代码共享方法,区分作为支持信息 (SI) 或在存储库中的共享。 图 2 PLOS 和比较样本在数据共享、代码共享、预印本发布方面的论文对比情况 图 3 PLOS 和比较样本中的论文在支持信息之外的数据共享逐年变化图 图4 PLOS和比较样本中的论文在代码共享率的对比情况图 ................................................................................................................................................................................................ *所有数据截至2022年6月30日(上半年末);所有比率均按所有分析文章的百分比计算。
  • 《转基因作物的利益冲突与科学出版物》

    • 来源专题:农业科技前沿与政策咨询快报
    • 编译者:郝心宁
    • 发布时间:2017-11-28
    • 2016年12月15日《PLOS ONE》杂志发表了由法国国家农业研究院(INRA)3名研究人员撰写的Bt转基因基础研究与生物技术产业间潜在利益关系的文章 。文章分析了与Bt转基因植物功效和持久性研究相关的学术文献,研究结果表明,40%的文献存在利益冲突(Conflicts of Interest, COI),即研究人员依首要利益(primary interest)所做的专业判断或是行动会受到次要利益(secondary interest)的不当影响。更为重要的是,这些文献的研究结论存在利益冲突时,会更有利于种子产业的发展。 3名研究人员对转基因作物基础研究和商业化转基因作物的主要企业,例如孟山都(Monsanto)、先正达(Syngenta)、陶氏益农(Dow AgroSciences)以及杜邦先锋(DuPont Pioneer)等,之间的联系进行了研究。他们总共分析了672篇文献,时间跨度从1991年至2015年,涉及到玉米、棉花和大豆等转基因作物。这些转基因作物能从苏云金芽孢杆菌(Bacillus thuringiensis, Bt)的细菌中提取出一种蛋白质,这种蛋白质对寄生在作物中的昆虫有毒,此类作物被称为Bt作物。Bt作物的功效和持久性定义为作物分泌Bt毒素所产生或作物自身所产生的害虫防治水平和防治时间上的持续性。 公众期待研究人员的科研成果公正透明,特别是涉及道德、经济、健康等对社会有重大影响的研究课题。转基因作物的利用研究就是这样一类课题,在欧盟地区具有很大影响。但是,本次研究结果表明,40%的文献出现利益冲突,这些文献全部或部分由研发并销售此类作物的生物技术公司开展或资助。更为重要的是,这些文献的研究结论在存在利益冲突时更有利于种子产业的发展。这种趋势也体现在研究人员中,同一研究人员发表的文献,其研究成果存在利益冲突时同样更有利于生物科技产业的发展。 利益冲突与科学出版物间的连锁效应已经体现在烟草、能源、药物学等领域,但仍有其他未知因素可能会导致利益冲突或对转基因作物科学出版物更有利。因此本次研究无法仅通过数据分析得出利益冲突更有利于生物技术行业利益的结论。INRA的3名研究人员鼓励学术杂志明确指出科学研究中所存在的经济利益冲突,他们同时还建议,为避免此类冲突,可建立一个由行业财政支持但具有独立性的研究基金,自由选择所要资助的研究。 (编译 郝心宁)