《共建AI4S基础设施(三):替代文献的数据库与知识库》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-10-10
  • 无论哪一个学科,文献对于科研工作都是必不可少的,它可以帮助科研人员了解前沿动态和最新成果,学习相关知识和技术,激发创新和灵感,验证理论和实验,同时也是促进学术交流的载体。然而,科研文献更新速度快,数量呈现出爆炸式的增长,如何有效地管理和利用海量的文献资源,成为了科研人员面临的一个迫切的问题。据美国国家科学基金会统计,科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%。

    近年来信息技术的飞跃,带来了各种文献搜索引擎如 Google Scholar、CNKI ,学术社交网络 ResearchGate、Academia.edu 等平台可以帮助用户快速找到相关领域的专家和研究成果,EndNote、Zotero 等可以帮助用户管理学术文献,GPT问答式检索的出现翻开文献查找新篇章。即便如此,已有工具仍存在功能单一或不完善、难以与其他的软件或平台进行对接集成,操作方式不简便,需要学习教程等问题。

    构建AI for Science基础设施的目标之一就是集中力量解决共性问题,文献是支撑各学科科研工作者研究决策的知识体系,为提升创新效能,有机地将科学家们的集体智慧充分提取出来,构建易用性强、准确率高的替代文献的数据库与知识库,成为AI for Science基础设施建设方向之一。

    对于自然科学研究来说,虽然GPT的出现在一定程度上增加了文献查阅的便捷性,但不完全适用于学术性问答的交互,存在局限性。科学文献大多为非结构化数据,且专业属性极强,各个领域的文献更新速度快。由于大模型的结构特点,每一次重新训练的成本都是非常高昂的,怎样让最新的数据高效的覆盖进来也是目前面临的重大问题。

    将大语言模型与数据库相结合,可以通过对大量文本数据进行训练来生成语言模型,然后可以将这个模型与数据库结合使用,以便对数据库中的文本数据进行自然语言处理和语义分析。这种结合可以帮助提高数据库的查询和分析能力,从而更好地满足用户的需求。例如,可以使用大语言模型来自动化生成数据库查询语句,或者使用大语言模型来识别和提取数据库中的实体、关系和事件等信息,以便给用户更加智能化和个性化的查询分析服务。

    类似这样的场景已经逐步实现:科研人员通过自然语言方式询问“我想知道最近一个月内被提及最多次的技术是什么”,“我想知道最近一个月内人工智能领域发表的论文中出现频率最高的技术是什么”,“删除最近一个月内指标低于 XX 的实验数据”,平台以对话形式返回结果或对数据进行相应操作,极大提高了数据管理的效率。

    此外,还可以构建文献推荐系统,通过学习用户的历史行为和偏好,然后将这些信息用于预测用户可能需要关注的文献,并将这些预测结果与数据库中的数据进行匹配,从而提供用户最符合其需求的推荐结果。大语言模型结合向量数据库的方式,还可以加快大批量论文载入时间,降低数据的运算成本。

    相较于传统检索方法只能返回精确匹配的文献本身,构建替代文献的知识库与平台工具,可实现多模态交互,并同时支持中英文提问回答方式,将为科研人员提供一个强大的知识信息资源和智能助手,轻松进行查找、阅读、对比分析、总结等需求。

    科研数据不仅局限于文献文本,实验方法数据、结果数据、文献中的图表也是重要的数据来源。这也引发了构建实验方法知识库的需求。从海量的科学文献中自动抽取、整理、归纳和表示实验方法的相关信息,包括实验目的、原理、步骤、参数、结果、评价等,实现对实验方法的快速检索、比较、优化和推荐,以及对实验结果的自动分析、评估和总结。比如在合成化学领域,建立合成化学文献的附录,描述已有实验的步骤和结果。通过结构化查询,我们可以将其转化为合成化学实验知识库或数据库,开发人工智能算法进行对比分析,自动给出最佳合成化学路径的建议。利用知识库与实验仪器自动化系统进行对接,来实现对实验仪器的智能控制和调节,以适应不同的实验需求和条件,为实验自动化提供强有力的支撑。

    未来,文献知识库最终的用户可能从现有的人类用户发展到机器用户,借助对话机器人辅助思考,让我们的提问也变得自动化。机器可以拆解我们提出的方向性问题,提出质疑点、设计论据,然后进行实验设计,再搜寻实验结论或者进行实验模拟,通过结果进行问题的反思推导或迭代实验设计方案,通过这样一套流程更进一步地提效,也打通了与另一个AI4S基础设施“高精度、高效率的实验系统”的连接。

    不仅在自然科学,包括金融、资讯、法律在内的知识密集型产业都可以构建文献知识库,以提供强有力且通用性的支撑,让知识检索从面向数据库和检索工具,向下一个自然语言交互的对话时代发展。

    相信,通过建设“替代文献的数据库与知识库”这一重要的AI for Science基础设施,将大大提升文献的检索、阅读、分析及管理效率,进一步助力科研人员提升科研生产力,让科研工作者释放更多的时间精力在解决关键问题与创新思考上。

相关报告
  • 《机构知识库:数字学术的必备基础设施》

    • 来源专题:图书情报
    • 编译者:lixiaoyan
    • 发布时间:2018-12-07
    • 2002年秋季,在持续的网络信息革命中发生了一些非同寻常的事情,机构知识库的发展成为一种新的战略,它允许大学应用严肃的、系统的方式来加速学术和学术交流中发生的变化,支持现有的出版商通过许可法人方式来实现学术出版的现代化,扩大了与特定联盟、伙伴的关系,探索更具革命性的数字媒体的新用途。 许多技术趋势和开发工作汇集在一起,使这一战略成为可能:在线存储成本大幅下降;开放档案元数据收集协议等标准现已出台;基础元数据本身的标准也取得了一些进展。过去五年中对数字保存的思考已经发展到需求得到广泛认可和明确定义,技术方法至少在表面上得到了规划,现在亟需采取行动。 本文谈论机构知识库作为支持使用网络信息推进奖学金的战略的作用和重要性,总结和阐述关于机构知识库的性质和功能及其在转变学术交流中的作用。
  • 《机构知识库与数据知识库比较研究》

    • 来源专题:图书情报
    • 编译者:xuxue
    • 发布时间:2019-12-02
    • 数据已成为驱动科研活动的战略性资源,价值性科研数据存档与保存有助于其在未来研究中被发现与再利用。由于传统机构知识库 (Institutional Repositories,简称 IR) 数据服务不到位、数据保存内容不完整、缺乏嵌入式科研流程服务、数据监护的功能不完善,故需优化传统机构知识库或开发数据知识库来支持数据监护以适应数据密集型科学发展要求,规避价值性数据丢失风险、维护数据质量、提升数据价值、保障数据长期再利用。 文章以基金委员会、出版社、高校或科研机构的数据共享政策以及传统机构知识库数据服务不到位为背景,根据传统机构知识库与数据知识库的特点与内涵,从存储内容、数据监护、嵌入式科研流程服务三个方面比较两者之间的差异,通过对国外高质量数字知识库的服务案例剖析,揭示新型机构知识库或数据知识库如何适应数据要求。