《全文本视角下的核心引文测度:概念界定、指标体系与识别模型》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2024-12-26
  • 识别施引文献中的核心引文是深入开展科技成果评价的重要基础。为此,本文探讨了全文本视角下的核心引文测度,包括概念界定、指标体系构建及识别模型的优化,从而提供一个更为精准的科学评价工具。首先,明确核心引文的定义,构建包含题录信息和引用信息2个维度、8个子维度及33个引文特征指标的核心引文识别指标体系。其次,通过多种机器学习模型(如随机森林、支持向量机、逻辑回归)对引文特征指标进行遴选与优化,分析其相关性及信息增益,保留21个重要的引文特征指标,并验证识别模型的有效性。研究结果表明,基于引用信息的引文特征指标在识别核心引文时具有更高的重要性和贡献度。机器学习模型在核心引文识别中的表现优异,特别是随机森林、支持向量机、逻辑回归等模型,其ROC(receiver operating characteristic)曲线的AUC(area under curve)值均大于0.85,证明了模型的高效性和鲁棒性。核心引文测度方法及识别模型不仅为科学评价体系提供了更精准的工具,也为深入研究引文分析奠定了坚实的基础。
  • 原文来源:https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2024.10.006,https://qbxb.istic.ac.cn/CN/Y2024/V43/I10/1199
相关报告
  • 《《通用大模型评测体系2.0》发布》

    • 来源专题:数智化图书情报
    • 编译者:程冰
    • 发布时间:2025-07-29
    • 6月24日,认知智能全国重点实验室牵头,联合中国科学院文献情报中心、中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟发布了《通用大模型评测体系2.0》(以下简称“评测体系2.0”)。 这是该评测体系自2023年6月发布以来的首次重大升级。“评测体系2.0”以技术迭代与产业需求为导向,在评测维度扩展、专项能力深化、评测方法优化等方面实现全面突破,为中国大模型产业发展提供更加科学的标准化支撑。 评测任务扩展至1186项全模态覆盖引领行业前沿,相比1.0版本的7大能力维度、71类任务类型、481个细分任务,“评测体系2.0”实现了全方位升级。 在任务规模上,“评测体系2.0”涵盖8大类、1186项细分任务,任务规模扩大至近2.5倍;在模态能力方面,从原有的文本/图片单一模态扩展至文本、图片、语音、视频全模态覆盖,新增了多模理解、多模生成、语音交互等能力评测;在语言支持上,从中文为主扩展至中英文并重,支持多语言评测,基础通用认知能力全面支持中英文双语评测。
  • 《基于特征测度和PhraseLDA模型的领域学科交叉主题识别研究——以纳米技术的农业环境应用领域为例 》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-04
    • 摘要:【目的】基于特征测度方法和PhraseLDA模型,对领域学科交叉主题进行识别。【方法】通过主题的学科交叉特征分析,构建学科交叉主题测度指标体系,结合PhraseLDA模型识别领域学科交叉主题,最后在纳米技术的农业环境应用领域进行实证研究。【结果】客观识别出纳米技术的农业环境应用领域包括催化剂制备、土壤生物修复等交叉主题24个,相较于传统识别方法,交叉主题识别率提升71.40%,细粒度主题识别率提升42.86%。【局限】PhraseLDA主题模型的主题数量和学科交叉主题识别指标等阈值是经过反复计算调试而设定,因此,本文方法对相关阈值设定的合理性存在一定依赖性。【结论】本文方法可有效识别领域中的学科交叉主题,为相关领域开展科学决策和科技创新研究提供辅助参考。 关键词:学科交叉主题;主题识别;学科交叉特征;PhraseLDA模型;