《数据出版拥有当今科研中最高的投资回报率 ——来自FigShare CEO及创始人Mark Hahnel的观点》

  • 来源专题:科技期刊发展智库
  • 编译者: 孟美任
  • 发布时间:2023-04-26
  •   2023年国际“爱数据周”(2月13日-17日)的主题是“数据:变革的推动者”。创办Figshare的十年间,我认为最大的变革是“鼓励研究人员将数据放到互联网上”。而未来十年是让这些数据对机器可用。这也为资助者和学术界降低了风险,在下一个研究范式中得到回报。

      通过公开可用的数据,并链接到经过同行评审的出版物,将会增加研究的透明度和可重复性。然而,要在发现新知识方面实现真正的突破,研究需要利用人工智能技术对大量具有同质元数据的可重现研究数据进行处理。Deepmind于2020年推出的Alphafold是第一个范例。

      “AlphaFold以令人难以置信的速度和精度预测蛋白质结构。这一飞跃式发展展示了计算方法已为颠覆生物学研究做好准备,并为加速药物发现进程带来希望。”Arthur D. Levinson 博士,Calico创始人兼首席执行官,Genentech前董事长兼首席执行官认为。

      引导世界关注重点领域是联合国可持续发展目标 (Sustainable Development Goals,SDG)。17个可持续发展目标的核心是呼吁所有国家(发达国家和发展中国家)在全球伙伴关系中采取行动。他们认识到,消除贫困和其他剥夺必须与改善健康和教育、减少不平等和刺激经济增长的战略同步进行,同时应对气候变化并努力保护我们的海洋和森林。Creative Commons是试图解决这一问题的参与者之一。他们最近获得了一项为期四年、耗资400万美元的开放气候运动的资金资助,与SPARC合作通过开放知识应对气候和生物多样性方面的挑战。

      2021年11月23日,教科文组织大会第四十一届会议期间,193个会员国通过了教科文组织关于开放科学的建议。“该建议书概述了国际层面关于开放科学的共同定义、共同价值观、原则和标准,并提出了一系列有助于个人、机构、国家、区域和国际上所有人公平公正地进行开放科学的行动。”认识到迫切需要解决人类和地球面临的复杂且相互关联的环境、社会和经济挑战,包括贫困,健康问题,受教育机会,日益加剧的不平等和机会差距,日益扩大的科学、技术和创新差距,自然资源枯竭,生物多样性丧失,土地退化,气候变化,自然灾害和人为灾害,以及不断升级的冲突和相关的人道主义危机。

      在北美,联邦机构将2023年定为开放科学年,这是一项跨联邦政府的多机构倡议,旨在通过推动采用开放、公平和安全科学活动激发开放科学的参与和变革。在open.science.gov上显示,这已经得到了NASA、NIH、NEH和其他5个机构的支持。

      我们如何找到需要重点关注的领域?

      通用存储库为每个数据集提供保存环境——无论研究领域或资金情况如何。当然,学科专业存储库可以基于元数据提供特殊服务。Re3data在全球范围内列出了2,316个学科知识库,但其中还包含一些冗余的存储库。通用存储库的可持续性模型似乎比学科专业存储库更简单。现在已有方法可以确定哪些研究领域缺乏工具,允许以可操作的方式定义特定主题的元数据标准。

      我们可以使用Dimensions.ai查看DataCite收录的所有数据集的SDG分类,能够说明SDG中哪些类别在数据出版方面具有良好的覆盖率。下图显示了论文和数据集的结果类似,其中健康、气候和能源占主导地位,这似乎符合最紧迫的可持续发展目标。根据定义它们都是很紧迫的,因为没有足够的研究资金用于解决贫困、清洁水和性别平等等问题。

      深入研究Dimensions数据集,我们还发现通用存储库在为所有研究人员提供发布数据集途径的同时,也可能引导研究人员走上“阻力最小的道路”。如,与世界气候数据中心相比,Zenodo拥有更多可归类为对“气候行动”可持续发展目标有用的数据集。我敢肯定,我在 Zenodo的同事更希望这些数据集最终出现在专业学科主题存储库中,该存储库比通用存储库(如 Figshare、Zenodo)更具可互操作性和可重用性。

      作为通用存储库,我们的责任是确保我们构建的平台能够支持FAIR(可发现、可获取、可互操作、可重用)数据。我们知道 FAIR的I(可互操作)和R(可重用)需要更多的组织和管理。我们对此的解决方案依赖专业人士,如图书馆员和数据管理员可以完善并丰富研究数据和相关元数据。机构数据库通常比通用存储库高一个级别,因为它们多了一层所谓的数据治理。我们的“开放数据现状”报告强调,当研究人员需要发布数据时,学术出版商是他们的首选。因此,出版商和协会有很大的机会在学科层级定义元数据模式。

      在存储库方面,学术界和所有后续利益相关者应该认识到:

      (1)作为一个主体,同意并开始使用一致的主题元数据;

      (2)使用计算机或人工管理、提高元数据质量

      我认为未来十年就是让这些数据对机器可用。我意识到学术领域激励机制的重要性,试图推动研究人员做正确的事。当涉及到研究完整性时,我们必须让研究人员承担责任。科研领域的文化环境变革需要时间。然而,研究人员适应数据出版的速度很快。我们应该并将继续支持这一行动以及那些参与其中的人。数据发布是当今研究中最大的投资回报率。它确实是变革的推动者,我很高兴我们已经做到了这一点。现在资助者已经强制要求发布大量数据,我对未来感到兴奋。

相关报告
  • 《测试学术图书馆的建议投资回报率》

    • 来源专题:图书情报
    • 编译者:luoluo
    • 发布时间:2022-12-08
    • 2022年5月,《Library Hi Tech News》期刊出版了一篇名为“Testing a proposed ROI for academic libraries ”的文章,其具体摘要如下:。 目的:本研究的主要目的是测试和验证为阿拉伯国家学术图书馆提出的投资回报率(ROI)模型。该研究评估了AAU数字图书馆资源的价值,并确定了数字图书馆在支持资助研究项目方面的价值。 设计/方法/方法:拟议的ROI模型基于两个阶段和两个不同的数据。在第一阶段,作者根据全文的总下载量计算投资回报率,以确定2019-2020学年数据库订阅成本的总财务回报。在第二阶段,作者检查了Scopus数据库中对2019年工程学院30个资助研究项目样本的引用。 发现:尽管所提出的模型的应用存在一些挑战,但它与衡量阿拉伯国家学术图书馆的投资回报率有关。第一阶段的研究结果显示,AAU在订阅在线数据库上每花费1美元,就获得了0.95美元。对于第 2 阶段,调查结果显示,在 IEEE 数据库的图书馆订阅上每花费 1 美元,投资回报率为-0.70美元。 研究局限性/意义:这是一个基于阿拉伯联合酋长国(阿联酋)艾恩大学收集数据的案例研究。因此,研究结果可能无法一概而论,如果使用更多的样本和数据,其他研究可能会发现不同的结果。 原创性/价值:尽管所提出的模型已被Scopus数据库,Web of Science,Google Scholar,Crossref和ResearchGate索引的研究论文引用,但这些论文都没有测试或验证建议的ROI模型。这项研究可能是第一个测试建议模型的研究。研究结果可能有助于ROI模型在阿拉伯国家,特别是阿拉伯世界的学术图书馆的应用。
  • 《Aries Systems 和Figshare合作促进数据开放共享》

    • 来源专题:科技期刊发展智库
    • 编译者:唐果媛
    • 发布时间:2022-10-14
    •   学术出版领域工作流解决方案提供商Aries Systems Corporation与可配置的研究数据共享平台Figshare合作,推动和促进学术论文数据的开放共享。   Figshare作为Digital Science的一部分,已与Aries的编辑管理器®(EM)实现集成,支持作者在EM中提交手稿时向Figshare提交数据集。利用Aries存储库API,允许作者预览数据集文件、编辑元数据,并在EM中添加其他文件。当文章正式出版时,数据集将在发布者的Figshare门户中发布,并分配数字对象标识符(DOI)以供引用和重用。   这种整合可供所有采用Editory Manager和Figshare的出版商使用,使出版商和作者在不中断工作流程的情况下更快速轻松地发布开放数据。   Figshare的创始人兼首席执行官Mark Hahnel表示,Figshare将创造性地支持出版商的需求。对出版商来说,最重要的是确保作者的数据集和补充信息作为研究的重要部分,并让作者在提交过程中尽可能容易地共享数据。   相关背景:Aries Systems致力于提供高度可定制、灵活和创新的工作流解决方案,旨在帮助增强人类知识的发现和传播。使用Aries系统,发布速度更快,发布更智能。Figshare提供了一个高度可配置的存储库解决方案,可通过专用存储库门户访问数据集、出版物和所有研究产品,旨在满足安全性、可访问性和全球存储库标准的要求,如保存、持久性、元数据和可发现性。Digital Science是一家致力于提高研究效率的技术公司。其投资、培育和支持创新企业和技术,使研究全过程更加开放和有效。其产品组合包括备受推崇的品牌,如Altmetric、Dimensions、Figshare、ReadCube、Symplectic、IFI CLAIMS、GRID、Backleaf、Ripeta和Writefull。