科技文献大模型:方法、框架与应用

《科技文献大模型:方法、框架与应用》

来源专题：数智化图书情报
编译者： 程冰
发布时间：2024-12-26
大语言模型的出现深刻改变了知识生产方式和用户获取知识及情报的方式,对科技文献的分析和服务工作也产生重要影响。本文在系统梳理专业领域大模型研究进展的基础上,总结专业领域大模型的技术路径和应用场景,分析科技文献大模型的现实需求和应用价值,研究设计科技文献大模型的技术体系框架,解决科技文献语料库规范化建设与多轮增量微调训练两大关键问题,预训练科技文献大模型,并基于科技文献大模型研发“星火科研助手”智能知识服务平台。本研究探索科技文献语料库的构建方法,即利用大规模科技文献原始数据资源,从全文段落文本、语步句子、阅读理解问答对等层次构建科技文献内容研读的预训练语料及微调指令数据集,实现科技文献大模型的预训练与微调；基于科技文献大模型研发“星火科研助手”智能知识服务平台,验证了科技文献大模型在文献综述、文献知识提取、文献阅读理解、学术写作润色、多语种翻译、论文校对及全文智能预审等多种典型科研场景中的有效性,展示其跨领域的知识理解能力,为构建智慧科研环境体系提供技术与场景参考。

展开更多
原文来源：https://www.jlis.cn/jtlsc/ch/reader/create_pdf.aspx?file_no=20240604&flag=1&journal_id=jtlsc&year_id=2024

188浏览量

0点赞

原文链接

相关报告

《星火融文献科研新纪元——科技文献大模型发布暨科技文献内容智能分析与应用学术研讨会》
- 来源专题：数智化图书情报
- 编译者：闫亚飞
- 发布时间：2023-10-19
159浏览量

0点赞

收藏

原文链接
《大语言模型如何打破科研文献的“信息孤岛”》
- 来源专题：科技出版市场动态监测
- 编译者：崔颖
- 发布时间：2025-09-30
- 一、现有大语言模型的局限 LLMs尚不能真正处理大多数同行评审研究文章。因为大部分内容被付费墙阻隔，无法获取。如果LLMs是未来信息发现的方向，那么学术出版商传播的有价值研究成果就可能被抛在身后，除非我们在权威研究与智能检索之间架起一座桥梁。出于多种原因，许多出版商不愿与大型AI公司合作。有些认为AI公司侵犯了其版权，有些担心这会严重威胁自身业务，还有些则在观望同行的行动。出版商与AI及AI公司的互动呈现出不同态势：一端是抵制并与AI公司对抗的群体，另一端则是宣布达成大型许可协议并建立直接合作关系的群体（例如威立近期宣布与Anthropic达成合作）。由于困惑、威胁以及技术的不断变化，最新AI技术与网络上最具权威性的内容——研究论文之间存在鸿沟。虽然这看似是一个新挑战，但这让人想起互联网初期，当时海量信息网页以前所未有的规模涌现。正如Sergey Brin和Larry Page在其开创性论文中指出，“网页的激增缺乏质量控制”，“一条关于IBM计算机某个冷门问题的随机存档留言，与IBM官网页面截然不同”。这与LLMs和聊天机器人的情况非常相似：由于ChatGPT等服务使用便捷且价值易见，它成了史上增长最快的产品。然而，我们很难判断ChatGPT生成的内容是权威信息还是“虚拟”内容。与网络发展初期类似，AI公司正在寻找更好的方法，为用户提供可验证的准确信息。ChatGPT最初没有参考来源。现在它通过一个称为检索增强生成（Retrieval Augmented Generation，RAG）的过程，引用网页甚至科学论文中的来源（尽管仅限于开放获取的文章）。 AI系统的质量取决于其训练数据或所能交互的内容质量。这通常导致生成虚假或不完整的内容。就像网络初期一样，科学出版可能成为解决方案的一部分，例如引文。区分可信网页与不太可信网页的挑战，很大程度上通过PageRank算法得到了解决，而该算法直接受到了引文分析和科学出版的启发。Brin和Page在他们那篇开创性的文章中指出，PageRank“提供了一种更复杂的进行引文计数的方法”，科学引文索引的创建者Eugene Garfield甚至被Brin和Page引用。因此，引文有助于使网络更加可信和有用。我认为引文可以对LLMs起到同样的作用。二、引文与大语言模型在过去的十年里，我一直在深入思考引文。在科学领域，引文在很大程度上被用作一种“货币”、衡量成败的指标，也是研究人员和期刊所渴求的东西。我最喜欢的一篇论文的标题很好地抓住了这一点，《C.R.E.A.M：引文主宰我的一切》。尽管对引文有着热烈的兴趣，但自其诞生以来，它们的呈现方式几乎从未改变，即引用该文章的一系列论文列表。传统引文并不显示一篇文章是如何或为何被引用，仅仅表明它被引用了。然而，研究表明，引用一篇文章有几十种原因。 Scite一直在努力改进引文，通过呈现引用文章中实际的文内引述语句，标明这些语句在文档中的位置，并指出被引观点是得到支持还是被反驳。这些增强的片段，我们称之为“智能引文”（Smart Citations），能够系统性地为研究问题提供可验证的答案。图1 Scite.ai智能引文的示例图1展示了引用文章中的文本内引述语句、这些语句在文档中的位置，以及被引述观点是得到支持还是遭到反驳。关键在于，我们构建下一代引文的工作是在与出版商直接签订的索引协议下进行的。我认为，AI公司与出版商之间可以构建一种合作机制，以既能保护研究人员和出版商，又能将全球最强大的LLMs与权威内容连接起来的方式。三、智能引文智能引用（或类似形式）可以作为一种模型，向LLMs许可研究文章，供其在检索增强生成（RAG）中使用。一个跨出版商的统一带注释引文数据集可以进行许可，且使用情况可追踪（甚至可与COUNTER标准兼容）。这是一种负责任地填补AI/LLMs与科学出版商之间差距的新方式。这种模式能带来诸多明确的益处： ·归属权（Attribution）：如果LLMs无法交互某篇文章，就无法引用它。通过受控方式直接许可内容，能让内容更有可能在聊天机器人中被呈现和引用。 ·可靠性（Reliability）：LLMs难以令人信服。通过将LLMs与权威内容关联，其输出会更可信、更全面。引述片段可以被呈现，方便终端用户验证，同时又不会削弱正式版本的价值。 ·可发现性（Discovery）：类似于摘要有助于内容在网络上被更多人发现但又不会泄露全文一样，引述片段既能保留正式版本，又能为研究人员和出版商带来流量。 ·补偿（Compensation）：出版商的正式版本在发现环境中被使用时，能获得报酬。LLMs与某篇文章的交互次数越多，内容的付费次数就越多。可以将“人工智能读取量”视为新的阅读量和下载量。这种方法可以扩展，不仅为研究领域构建下一代引文，还能为大型语言模型打造专用引文。聊天机器人正在被有真实问题的真实的人使用，有时答案会以非常严肃的方式直接影响他们的生活。作为一个群体，我们应当思考如何确保社会和世界能获得尽可能优质的信息。我认为出版商现在比以往任何时候都更加重要。
  
  展开更多
4浏览量

0点赞

收藏

原文链接

《科技文献大模型:方法、框架与应用》

《星火融文献 科研新纪元——科技文献大模型发布暨科技文献内容智能分析与应用学术研讨会》

《大语言模型如何打破科研文献的“信息孤岛”》

《星火融文献科研新纪元——科技文献大模型发布暨科技文献内容智能分析与应用学术研讨会》