《科技期刊论文插图识别与向量库构建方法研究》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-07-22
  • [目的/意义] 在科技文献中,插图与文本作为两种常见且互补的信息呈现方式,共同构成知识传播的重要组成部分。通过识别文献中的插图及其关联文本,实现多模态信息的整合与利用,进而提升科技文献的知识挖掘与检索效率,对科技文献资源建设以及多模态知识服务发展具有重要意义。[方法/过程] 提出一个针对科技文献中插图知识单元构建向量库的方法,从插图知识单元识别的准确性、完整性和关联性3个维度设计模型;在此基础上,设计向量表征和存储方式进一步构建插图向量库;最终,基于所构建的论文插图向量库,搭建论文插图检索系统,实现科技文献的多模态知识服务。[结果/结论] 基于提出的方法,插图知识单元识别的F1值为84.1%,论文插图和关联文本片段识别的F1值分别为99.5%、89.0%,并成功抽取化学化工领域的120万篇科技论文,构建百万级论文插图检索系统,为多模态知识挖掘及知识服务提供基础支撑。
  • 原文来源:https://www.lis.ac.cn/CN/10.13266/j.issn.0252-3116.2025.13.003
相关报告
  • 《打造世界一流科技期刊,中国底气在哪里?》

    • 来源专题:数智化图书情报
    • 编译者:于彰淇
    • 发布时间:2023-12-01
    • 不负“一流”使命,在关注世界一流科技成果上闯出科技期刊中国道路◎ 科技日报记者 王学武 刘莉 刘若涵 王烁一部科技期刊史,见证壮阔科技史。自1665年英国皇家学会创办世界上第一本科技期刊《哲学汇刊》以来,科技期刊便成为科技大事件的重要推手,世界一流科技期刊更直接体现国家科技竞争力和文化软实力。 正因为如此,着力打造世界一流科技期刊,被置于创新型国家建设的突出位置。 习近平总书记在二十届中央政治局第三次集体学习时强调,要加快培育世界一流科技期刊,建设具有国际影响力的科技文献和数据平台,发起高水平国际学术会议,鼓励重大基础研究成果率先在我国期刊、平台上发表和开发利用。这为我国打造世界一流科技期刊建设指明了方向。 建设世界一流科技期刊,引领我国科技期刊由大向强,我们的“底子”如何,“底气”何在,具备怎样的“底蕴“,又该如何加固“底层”?科技日报记者为此进行了深入采访。第十八届中国科技期刊发展论坛优秀期刊展示现场。科技日报记者 刘莉 摄 1底子:世界科技期刊前列增添许多中国身影“我国已成为期刊大国,但缺乏有影响力的世界一流科技期刊。”这是2019年中国科协、中宣部、教育部、科技部联合印发的《关于深化改革 培育世界一流科技期刊的意见》(以下简称《意见》)在开篇语里作出的判断。随着几年来的实践,人们已经发现,世界科技期刊前列增添了许多中国身影。数据分析公司科睿唯安2023年公布的《期刊引证报告》(JCR)显示,中国期刊《细胞研究》影响因子达到44.1,蝉联世界影响因子百强期刊。《电化学能源评论》《分子植物》《园艺研究》《先进陶瓷》等多个中国科技期刊位居本学科领域影响因子全球第一。近几年SCI收录的期刊总量增长了不到4%,而中国进入SCI期刊数量增长了25%。受访者供图然而,这是不是意味着我们离建设世界一流科技期刊已经不远了呢?“世界一流期刊必须是能够持续、集中地刊登某一个学科或多个学科的具有世界一流水准的科研成果的载体,其论文必须对学术、技术、产业等某个方面或某几个方面产生重大影响,能够引领某个领域,甚至对人类的进步、社会的发展产生较大影响。”凝聚态物理学家、中国科学院院士朱邦芬曾对世界一流期刊的内涵和外延作出这样的表述。就客观情况看,我国的科技期刊在“重大影响”和“较大影响”方面还有不小的差距。据《中国科技期刊发展蓝皮书(2023)》(以下简称《蓝皮书》)统计,2022年中国作者发表SCI论文总数,是中国SCI期刊发表论文数的19倍多。这意味着大量中国作者的成果发表需要依靠海外科技期刊,我国科技期刊对一流成果的承载能力还远远不够。同时,《蓝皮书》也显示了当前我国科技期刊出版“小而散”的处境。截至2022年底,中国科技期刊总量为5163种,分属于3218个主办单位。77.13%的主办单位仅主办1种科技期刊。这些飘散四处的星星之火,尚需汇聚以成燎原之力。如今,在国际上,科技期刊向大型出版机构集中已成明显趋势。为了提升市场占有率,国际大型出版机构不断强化集群化发展。以施普林格·自然集团为例,截至2022年,其旗下的《自然》子刊就有65种,几乎覆盖了所有的学科领域,同时还以每年3种子刊的速度扩张。近年来,我国科技期刊的集群发展在平台加持下已显加速之势。截至2023年,中国科学院主管主办期刊已达到400余种,自有的SciEngine平台技术建设和资源集聚初具规模,包含近450种期刊、39万余篇论文,总下载量超过3800万次。中华医学杂志社搭建运营的“中国临床案例成果数据库”已覆盖来自全球30余个国家的读者。受访者供图建设世界一流科技期刊群,还期待更多“高原”的崛起,教育部科技委学风建设与科学传播专门委员会委员、中国高校科技期刊研究会理事长张铁明说:“目前国内的科技期刊建设滞后于高水平科技自立自强,期刊对于国家科技创新的支撑和服务作用还有很大差距,这也是期刊人正在努力改变的现状。”2底气:中国已经具有国际一流的稿件源和作者群2022年,我国全社会研发经费支出首次突破3万亿元,研发投入强度首次突破2.5%,基础研究投入比重连续4年超过6%。夸父探日、青藏科考、微纳卫星、量子传输、质子治疗等一批重大创新成果竞相涌现……如今我国不仅是国际前沿科技创新的重要参与者,也是共同解决全球性问题的重要贡献者。 “夸父一号”示意图。卫星研制团队供图,新华社发“中国已经具有国际一流的科技稿件源,这将为建设世界一流的学术期刊提供稿件源和作者群基础。”中国科学院院士、世界一流科技期刊建设专家委员会主任杨卫对此充满信心。中国科学技术信息研究所发布的《2023年中国科技论文统计报告》显示,2023年,我国各学科最具影响力期刊论文数量首次升至世界第一,高水平国际期刊论文数量及被引用次数均排在世界第一。这表明,我国科技论文质量已经发生跃升。面向世界科技前沿,有可裸眼观察遗传转化的植物通用性便捷报告系统;面向经济主战场,有智能网联汽车关键技术;面向国家重大需求,有降低电磁污染的新型导热屏蔽复合材料;面向人民生命健康,有针对抗新冠病毒候选药物筛选实验性研究成果……我国科技期刊正在快速抓住这些一流成果评鉴和记录的主动权。 受访者供图国家对科技期刊的政策支持,带动和引导了一批科技期刊的高质量发展。进入21世纪以来,国家相关部门先后推出“精品科技期刊工程项目”“中国科技期刊国际影响力提升计划”“中国科技期刊卓越行动计划”等一系列专项财政支持项目。中国科协科学技术创新部部长刘兴平在2023年中国期刊高质量发展论坛上指出,2018至2022年,经过五年的发展,我国国际学科排名进入Q1区(前25%)的期刊增加了99种,学科排名居于前5%的增加了45种,排名学科前三的增加了28种。其中,15种期刊学科排名位居第一,4种期刊影响因子超过30,进入全球百强。曾经“借船”出海的期刊,也在探索归国自主“造船”之路。2022年12月,多次蝉联本领域影响因子世界第一的《先进陶瓷》,结束了与施普林格·自然集团长达11年的合作,转为依托清华大学出版社自主研发的学术期刊数字化国际出版平台SciOpen。“要办就办世界一流!不是关起门来办一流,而是到世界上争一流,这是我们共同践行的办刊理念。”清华大学出版社副总编兼期刊中心主任石磊告诉记者:“清华大学科技期刊群目前有45种期刊,出版内容已覆盖清华大学60%的‘双一流’学科,在信息科学、纳米科学等领域已经形成一定的出版规模、品牌特色和国际影响力。我们要把内容集群化和平台智能化结合起来,努力为国家高水平基础科学支撑平台和开放创新生态体系建设作出更多贡献。”一流学科、一流期刊和一流科学家,正在形成协同发展的纽带关系。“中国海洋大学拥有12个ESI前1%的学科,每个学科领域在我校海洋特色学术期刊群中,都有至少2种学术期刊提供学术支撑,形成了特色优势学科与学术期刊融合发展、相互支撑的关系。”中国海洋大学期刊社社长杨立敏介绍道,正是这样的“通力合作”,才使得创办《海洋生命科学与技术(英文)》4年来,影响因子就达到5.7,在海洋与淡水生物学领域全球排名第五。来自湘江两岸的例子也可以成为印证。中南大学拥有世界上最完备的“地采选冶材”有色金属学科体系链。翻开其《中国有色金属学报》的红色封面,一页长长的编委名单映入眼帘。“创刊至今的32年时间里,这份名单中已经产生很多院士。现在,我国有色金属行业的院士几乎都在这份名单上。世界一流的学科群和科学家,给了我们建设世界一流科技期刊的底气。”中南大学出版社副社长杨保华说。3底蕴:中国科技期刊正处于科技回答时代之问的重要时期1898年,居里夫妇发现了新元素钋,两人合写了论文《论沥青铀矿中所含的放射性新物质》。他们在投给法国科学院《论文汇编》发表之前,就已经把原稿寄回祖国,用波兰文发表在华沙的画报月刊《斯维阿特罗》上,让她的同胞能第一时间看到成果。1926年,清华国学研究院和美国弗利尔艺术馆,就李济、袁复礼主持的山西夏县西阴村田野考古发掘达成协议,约定论文要用中英文撰写并在中美两国学术刊物上发表,这在当时难能可贵。科学家对祖国的热爱深深地投射在世界一流科技成果上,科学家精神深嵌在科技期刊的骨子里,今天依然在赓续。港珠澳大桥已开通5年,不仅为粤港澳大湾区的互联互通奠定基础,更创造出世界工程技术领域多个第一。“聚焦高铁、桥梁等‘中国超级工程’的学术论文,或许引用率不是很高,但它记载了我国一线科技工作者的创新成果和研究进展,解决了一些世界性难题,国际上是非常关注的。”杨保华告诉记者。港珠澳大桥。新华社记者 陈晔华 摄“立足国情、面向世界,提升质量、超越一流。”翻开《意见》,第一部分写着这样16个字。当科技发展正在回答时代之问,科技期刊又该怎样呈现?科技期刊能否从成果发布交流平台升级为支撑国家科技创新的基础性平台?近年来,中国科学院分子植物科学卓越创新中心主办的《分子植物》正在尝试把中国的科研成果和中国元素共同制作成杂志封面,推动中国的科研成果和文化同时走向世界。《中国科学院院刊》作为中国科学院高端智库的“名片”,为中国科学院的发展、国家宏观战略与决策的制定发挥了导向和支撑作用。《航空学报》走进一线科研机构,围绕“卡脖子”技术策划出版“大飞机专刊”“空间机器人专刊”等几十个重磅专刊或专栏,获得业界高度认可。《清华大学学报(自然科学版)》组织了“港珠澳大桥”“智能建造——白鹤滩、乌东德水电站”“天眼(FAST)运行维护中的关键技术”等专题或专刊,探索高校学报“开门办刊”之路。《煤炭科学技术》走进国家能源集团、山东能源集团等生产一线,开展煤炭科技大讲堂、科技论文写作培训活动100余次,助力生产一线科技成果产出…… 受访者供图世界一流科技期刊建设的中国道路正在慢慢铺就,也牵动着更多思考。中国科学院院士、古鸟类学家周忠和研究员在《科学通报》刊文指出,在比较长的一段时间内,中文、英文期刊各自承载不同功能,应当明确自身定位,并充分考虑哪些具体研究具有区域、文化的独特性。杨保华认为,科研工作坚持“四个面向”,我国科学家解决的很多本土问题都是世界性难题。期刊核心竞争力应该由其发表论文的原创性、创新性、前沿性决定,而不是由语种和国别决定,这是我国中文和英文科技期刊都应该保持的态度和定力。中国科学院自然科学期刊编辑研究会秘书长刘筱敏告诉记者,开放、交流是科学与生俱来的本质属性和文化基因。数字技术的发展提供了更多方法可以跨越语言障碍。我国中文和英文期刊都需要进一步增强对国内外学者的吸附能力,汇聚更多优秀科研成果,健全自主可控的学术交流渠道,进行全球范围的传播,让科研成果惠及全球发展。“我国的科技期刊已经取得了很大成绩,但比起我们所肩负的历史使命、时代使命、科学使命、国家使命,还是任重而道远。”在2023上海科技期刊高质量发展大会院士圆桌会议上,中国科学院院士、《细胞研究》前主编裴钢谈道。4底层:同向发力不断夯实建设世界一流科技期刊的基础记者在采访时,多位期刊界人士谈了自己的体会:建设世界一流科技期刊,当务之急是提高期刊的编辑素养和编辑的科技专业水平;基础是一流人才支撑和动能激励机制;关键是创新前沿关注和选题视野;重心是科学表达和平台传播;要害是评价的专业性和影响力;本质是创新成果的引领力和论文发表的吸附力。第十八届中国科技期刊发展论坛优秀期刊展示现场。科技日报记者 刘莉 摄中国科协学会服务中心提供的数据显示,2022年,我国442种英文科技期刊中,403种依赖海外平台出版。“单刊与国际出版集团合作,大多处于依附地位,在研发、销售等高附加值环节没有主动权,难以获得规模化发展效益。”有科期刊出版(北京)有限公司董事长钱九红坦言。“单纯靠逐步创办新刊来增加办刊数量的方式效率低、成本高,难以实现快速规模化发展的目的。”她建议,“加强顶层设计,从国家层面推动科技期刊的集团化、集约化发展,加大对出版单位集群化、集团化发展的政策支持,鼓励跨地域、跨部门办刊,支持期刊出版单位找准定位,探索构建资源深度融合发展的创新模式。”“好的机制创新,就会让道路走得更宽阔一些。”《园艺研究》主编程宗明建议,一流科技期刊培养编辑人才不仅需要期刊发挥能动性,更重要的是健全的激励机制和广阔的成长空间,让期刊编辑人员更有归属感。同时,中国科技期刊要兼顾学术声誉和商业价值。此外,他期待能够提高我国科技期刊在科研成果评价中的应用。《园艺研究》自2018年起,开始尝试利用社交媒体建设学术社区,打造建立在高质量期刊基础上的学术生态圈。5年后的今天,该期刊已经建成一批成熟的学术交流社群,通过学术交流社群招募云实习编辑等举措,探索逐步引导科研人员从“读者—作者—协同工作人员”的身份转变和流动。 受访者供图 “我们编辑部6个人,做着3本刊物。人手紧张,我们就创新机制,吸引大家自建自治。”程宗明介绍。中华医学会杂志社社长魏均民一语道破当前的发展瓶颈:“优秀的期刊出版人才,尤其是复合型期刊出版人才、优秀英文编辑相对不足。”据《蓝皮书》分析,我国刊均从业人数集中在4—7人区间的期刊占45%。我国期刊编辑往往不仅要做前端的选题策划,还要兼顾后期的宣传,从头做到尾。杨保华指出,“没有专业化的人才分工、完善的人才体系,编辑个人的专长优势就很难发挥出来”。人才是基础问题,中国科技期刊要面临的考验还很多。在11月23日公示的2023年度卓越行动计划优秀人才案例遴选汇编项目拟入选案例中,优秀主编人选不乏梅宏、饶子和、王恩哥等中国科学院院士,记者还欣喜地看到《科学通报》《森林生态系统》《工程》等期刊的优秀管理人。卓越项目孵化的期刊人才底层架构渐成体系。中流击水时更需“弄潮”。新时代科研范式的变革,更需期刊人从整体、开放和系统的维度共同营造期刊生态。中国高校科技期刊研究会秘书长张昕认为,加快建设世界一流科技期刊,是文化自信尤其是创新文化自信的体现,而创新文化自信正是创新型国家建设的“精气神”。据了解,于11月29日在南京召开的第十八届中国科技期刊发展论坛,将围绕“开放 信任 合作——科技期刊助力高水平科技自立自强”主题,进行深入探讨。不负“一流”使命,在关注世界一流科技成果上闯出科技期刊中国道路。把论文写在祖国大地上,中国的科技期刊正朝着世界一流科技期刊目标蝶变。(刊载于2023年11月29日《科技日报》第5版“深瞳”)
  • 《科技期刊文本与数据挖掘人工智能应用的研究进展》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-28
    • 摘 要 【目的】对国内外科技期刊文本与数据挖掘智能化研究进展进行阐述,为科技期刊文本与数据挖掘智能化发展探 寻对策方案。【方法】采用文献分析法,检索2019—2023年英文数据库WebofScience(SCIE、SSCI、ESI)、ScienceDirect、 Elsevier及中国知网数据库中的科技期刊文本与数据挖掘智能化研究,梳理科技期刊文本与数据挖掘智能化的不同方向,并 为科技期刊文本与数据挖掘智能化发展提供对策建议。【结果】目前国外科技期刊文本与数据挖掘智能化研究在选题策 划、预印本、文献评估、同行评议以及模型探索和方法学等方面取得一定进展,我国中文科技期刊在文本与数据挖掘的智能 化方面尚存在技术融合能力不足、出版实践不足、文本数据抓取不精准、智能算法和逻辑不完善等问题。应加强文本与数据 挖掘基础布局,促进融合发展;鼓励出版实践研究,开展文本与数据深度挖掘;进一步构建完整的科技期刊文本与数据挖掘 规则等。【结论】科技期刊文本与数据挖掘智能化发展可帮助科研工作者更快捷、更准确地获取大量的科技文献信息,为科 研工作者提供更深入的思考和研究方向,但其技术应用方案仍需进一步研究探索。 对策建议 1. 加强文本与数据挖掘基础布局,促进融合发展 加强文本与数据挖掘基础布局,促进融合发展, 如:采用自然语言处理技术对科技期刊文本与数据 进行处理和分析,实现对文本的语义理解、情感分析 等功能,提高对文本的理解和处理能力;采用机器学 习技术对科技期刊文本进行分类、聚类、推荐等,实 现对文本的自动化处理和管理,提高信息检索和知 识发现的效率和准确性;采用数据可视化技术将处 理后的数据呈现为直观易懂的图形,帮助期刊更好 地理解和分析数据,发现其中规律和趋势;采用智能 推荐技术将分析的结果反馈给编辑、读者或作者,帮 助他们发现更多有价值的信息和研究成果,提高其 工作效率和科研能力。 2. 鼓励应用文本与数据挖掘人工智能的出版实践 鼓励文本与数据挖掘平台或工具的构建,以通 过智能技术对科技文献进行深度挖掘,发现其中信 息和关联,从而促进科技创新和产业发展。鉴于当 前常用的挖掘方法各有优缺点,应鼓励大量根据不 同挖掘目的开展的出版实践,并总结经验。开发优 于现状的新模式、整合优势的智能网络平台也是未 来需要探索的方向。 3. 提高关键词抓取精准度 提高关键词抓取精准度,提高高维空间的文本 相似度,提高术语(或词汇)语义相关性,避免“维数 灾难”,深度研究科技期刊语言文字术语的精细标 准[29-30],进一步完善行业标准,促进文本与数据挖 掘的智能化发展。特征选择和降维等方法也可用于 进一步优化特征向量的表示。  4. 非结构化文本的归类探索 科技期刊具有学科交叉性,文本与数据多样。 应借鉴现有经验,探索非结构化文本的特征向量转 换和算法优化方法,如在确定特征向量时,可以综合 使用词袋模型、TF-IDF模型、Word2Vec模型、LDA 模型、N-Gram模型等,选取适合文本任务和数据集 的特征向量表示方式。算法模型也需要根据研究目 的进行优化,如:在使用深度学习模型卷积神经网络 进行文本处理时,应对长文本进行截断或填充以避 免模型无法处理或丢失关键信息,用迁移学习、预训 练模型提高训练速度,采用正则化技术(如L1、L2 正则化)降低模型复杂度和过拟合风险,结合注意 力机制或空洞卷积(DilatedConvolution)提升模型对 全局上下文的感知能力等。在采用循环神经网络 (RecurrentNeuralNetworks,RNN)进行文本处理时, 可采用门控循环单元(GatedRecurrentUnits,GRU)、 长短时记忆网络(LongShort-TermMemory,LSTM) 或预训练的词嵌入模型(如BERT、GPT等)解决长 期依赖性问题,使用注意力机制(Attention Mechanism)使模型能够更好地处理长序列,利用 Transformer模型并行处理整个序列,对序列进行截 断或采样以减少参数数量和计算量,使用批处理和 GPU加速等技术提高计算效率等。