《数据要素视角下的科学数据非正式引用识别研究》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-07-22
  • 【目的/意义】科学数据作为科学研究成果的表现形式之一,多以非正式引用的形式隐藏于学术论文之中。 从学术论文中自动识别数据引用信息从而提取数据要素,为科学数据要素的组织提供了新思路。【方法/过程】为提高正例文本占比进而提升数据引用句的识别效果,基于生物信息学领域论文全文数据,采用篇章结构识别和数据增强、随机欠采样、特征词筛选3种不平衡语料采样方法构建语料集,再分别结合5种文本分类模型构建数据引用识别流程。【结果/结论】研究发现,从学术论文中识别数据引用句是细化数据要素组织的有效环节;篇章结构识别 和不平衡语料采样方法可以有效提升数据引用句的识别性能;较之传统的机器学习模型,BERT类深度学习模型在数据引用文本分类中性能更优。【创新/局限】从学术论文中识别非正式数据引用句为数据要素组织带来新的视角, 是收集高价值数据要素的高效方法。然而,由于论文中数据引用不规范且数量稀疏,分类精确率仍有提升空间。
  • 原文来源:https://journal12.magtechjournal.com/jwk3_qbkx/CN/Y2025/V43/I3/146
相关报告
  • 《基于ELM模型的开放科学数据重用信任评估要素研究》

    • 来源专题:数智化图书情报
    • 编译者:张源枝
    • 发布时间:2025-09-30
    • [目的/意义] 信任在开放科学数据重用中扮演着重要的驱动作用,从信息加工理论视角探索开放科学存储库数据重用信任评估要素,可以对国内陆续建设的开放数据存储库管理以及提升数据的重用率起到借鉴和推进作用。[方法/过程] 基于信息加工理论的精细加工可能性模型(ELM)构建开放科学数据重用信任评估模型,以目前科研数据聚集速度和重用最为活跃的kaggle平台的实际数据进行剖析和验证,并选择线性核函数的支持向量回归(SVR)分析和比较不同变量对开放科学数据重用信任的影响。[结果/结论] 来源特征信息和内容特征信息整体上与数据集下载量和数据集引用量存在显著正相关关系,但具体因素对两者的影响存在差异。基于分析结果,提出提升数据集质量、加强数据透明度和可追溯性、鼓励用户参与和评价、推动数据共享和交流以及建立信任评估体系等措施。
  • 《《论数据要素市场》:建设数据要素大市场 》

    • 来源专题:数智化图书情报
    • 编译者:程冰
    • 发布时间:2023-06-20
    • 当前,数据要素市场建设已成为业界高频讨论的现象级重大课题。从战略思考到制度建设,从政策设计到技术供给,从场景拓展到商业模式,从市场导向到国家权利等等诸多领域不一而足,都不乏诸多研究者参与者。各位看到的这本专著,最基本的特色则是前瞻性、体系化和实践性。 我与作者即国家信息中心大数据部主任于施洋博士和另外两位博士已认识多年了,知道他们持续地深度参与研究并体验关于数据要素流通制度建设预研、数据交易所(中心)设计及创新实验等重要工作,坚持将完成主管部门交办(或地方政府委托任务)和超前开展前沿课题研究有机结合起来,逐步在数据要素市场领域形成了体系化的理论思考和实践总结。对作者们的不懈努力和专业水平以及责任担当我都比较熟悉,故欣然接受邀请写下这份序言。 细读此书总的体会主要有两点。 第一点是观念观点体现科学创新。如作者提出,将数据要素纳入收入分配体系,就如同改革开放以来每一次确立新的生产要素并纳入收入分配体系类似,如土地进入市场拍卖、劳动力商品化、建立资本市场等,都是一场牵涉经济社会发展方方面面的全局性改革。这就是把握数据要素市场发展大趋势的一个新的视角,就是必将催生和发展新的生产力,同时必将调整和完善生产关系。 再如,文中讨论数据要素与其它生产要素关系时,明确指出全要素数字化的过程,是重构原有产业的资源配置状态,实现互联网等数字化新技术与实体经济协同发展充分融合,推动形成智能化的数字经济体系的过程。这就启示我们,加速推进数字化新技术的研发与成果转化并壮大数字经济进程,必须与加速推动工业、农业和服务业现代化,以及社会治理现代化进程互为条件、有机融合。 再如,作者讨论数据要素问题时,提出应基于数据“动态本体论”分析框架,建立政企融合的全国一体化数据要素市场的基本思路,并据此率先提出“所商分离”“数据商”“数据资产入表”等一系列模式和理念,对指导实际工作具有较强实用性可操作性。 第二点是着力构建逻辑自洽体系。数据要素市场化是一个领域新、任务重、困难多、耗时长的事情,应该允许在局部地区、部分环节先行先试。同时,更需要在总体思路和基本路线图上提出一些“先知先觉”的基本思考。 我认为,作者着力论证的包括数据要素的产权体系、供给体系、流通体系、定价体系、核算体系、分配体系和跨境体系,就是谋求理论创新体系化的一大贡献。同时,所论七大体系之间以及各体系内各节之间,都在内容上既有明确界定,又显示相互关联;既有利于研究和实践工作者专注重点领域重点专业发展,又有利于主管部门在基本制度建设及总体政策设计时统筹及统一各方面内在逻辑关系。 当然,无论国内国际,对于数据要素市场都有许多待解问题,希望本专著作者们还要继续“论”下去。就我而言,也一直在寻求对一些问题的答疑解惑。比如,数据要素纳入生产和收入分配体系是必然趋势,这就必须厘清数据资源要素化、资产化和资本化的内涵与外延以及紧密关联的权责利关系,理论上搞清楚十分重要。 又如,数据这一新型要素的复用性极强,特别是可通过交易来持续增加使用价值实现场景和价值,这正是数据资源纳入要素的核心和魅力。但现在全国数十个数据交易场都采取的挂牌或协议交易方式,是无法实现数据要素市场化配置本质要求的,应认真讨论是否需要建立具有金融属性的数据要素资本市场?路径是什么? 再如,数据流通交易过程中,我认为最难的问题不是数据保护,而是数据权益界定(包括再交易过程)基础上形成市场定价体系,可否研究实施利用成熟技术手段(如区块链和数据资产图谱体系)来建立合规合法合理的价格形成机制?(本文来源于人民出版社出版的《论数据要素市场》。本文作者系国家信息中心原党委书记、常务副主任。)