《科技文献大模型:方法、框架与应用》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2024-12-26
  • 大语言模型的出现深刻改变了知识生产方式和用户获取知识及情报的方式,对科技文献的分析和服务工作也产生重要影响。本文在系统梳理专业领域大模型研究进展的基础上,总结专业领域大模型的技术路径和应用场景,分析科技文献大模型的现实需求和应用价值,研究设计科技文献大模型的技术体系框架,解决科技文献语料库规范化建设与多轮增量微调训练两大关键问题,预训练科技文献大模型,并基于科技文献大模型研发“星火科研助手”智能知识服务平台。本研究探索科技文献语料库的构建方法,即利用大规模科技文献原始数据资源,从全文段落文本、语步句子、阅读理解问答对等层次构建科技文献内容研读的预训练语料及微调指令数据集,实现科技文献大模型的预训练与微调;基于科技文献大模型研发“星火科研助手”智能知识服务平台,验证了科技文献大模型在文献综述、文献知识提取、文献阅读理解、学术写作润色、多语种翻译、论文校对及全文智能预审等多种典型科研场景中的有效性,展示其跨领域的知识理解能力,为构建智慧科研环境体系提供技术与场景参考。
  • 原文来源:https://www.jlis.cn/jtlsc/ch/reader/create_pdf.aspx?file_no=20240604&flag=1&journal_id=jtlsc&year_id=2024
相关报告
  • 《海洋大语言模型“瀚海智语”正式发布》

    • 来源专题:中国科学院文献情报系统—海洋科技情报网
    • 编译者:熊萍
    • 发布时间:2025-04-29
    • 国家海洋环境预报中心联合海洋出版社有限公司和三六零数字安全科技集团有限公司,以360智脑13B和Deepseek-R1-70B大模型为基座成功开发了海洋垂直领域大语言模型——“瀚海智语”(英文名称OceanDS)。“瀚海智语”已顺利通过专家评审,得到与会多位院士和行业专家的高度肯定,于近日正式发布。“瀚海智语”的正式发布,标志着我国在海洋领域人工智能技术应用方面迈出了重要一步,将为海洋行业的智慧化转型提供强有力的技术支撑。 相比通用大语言模型,“瀚海智语”在海洋领域理论知识、专业术语和行业应用等方面的表现更为出色。 一是“智语精准”,海洋专业测试成绩排名第一。该模型是海洋领域首个业务化垂域大模型,具备高度专业化的AI能力,能够准确高效地完成本领域内容生成、知识问答、信息检索、政策分析、科普宣传等任务;在专业领域试题回答的第三方测试中,“瀚海智语”的成绩较司南榜单排名前三的开源通用大模型相比分别高7.15%、18.22%和25.30%。 二是“学富瀚海”,具备全球内容最丰富的海洋专业中文知识。该模型基于增量式向量数据库技术构建了内容丰富的海洋领域专业知识库,其中包含精选专业图书、专业科技文献以及巨量的公告、标准和政策文件,词元总量超过18亿,为海洋领域形成了一笔宝贵的数字资产;数据库采用元数据加密技术,能够有力保证专业知识的信息安全。 三是“安全易用”,“瀚海智语”注重保护知识产权和人工智能安全,在使用便利性方面做了特别优化。大模型服务系统采用业界领先的风险检测模型内容安全框架搭建,具有成熟稳健、运行稳定、接入形式多样等优势,可为海洋科研、教育、业务和管理等用户提供价值正面、安全合规、灵活易用的专业AI服务。 目前,“瀚海智语”已在多家海洋业务机构、高校和科研单位开展试用并获得高度评价。未来,研究团队将持续推动大模型技术向自然资源相关领域拓展,适时推出面向自然资源各行业的以中文内容为特色的专业大模型,进一步推动行业智慧化转型。