无论哪一个学科,文献对于科研工作都是必不可少的,它可以帮助科研人员了解前沿动态和最新成果,学习相关知识和技术,激发创新和灵感,验证理论和实验,同时也是促进学术交流的载体。然而,科研文献更新速度快,数量呈现出爆炸式的增长,如何有效地管理和利用海量的文献资源,成为了科研人员面临的一个迫切的问题。据美国国家科学基金会统计,科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%。
近年来信息技术的飞跃,带来了各种文献搜索引擎如 Google Scholar、CNKI ,学术社交网络 ResearchGate、Academia.edu 等平台可以帮助用户快速找到相关领域的专家和研究成果,EndNote、Zotero 等可以帮助用户管理学术文献,GPT问答式检索的出现翻开文献查找新篇章。即便如此,已有工具仍存在功能单一或不完善、难以与其他的软件或平台进行对接集成,操作方式不简便,需要学习教程等问题。
构建AI for Science基础设施的目标之一就是集中力量解决共性问题,文献是支撑各学科科研工作者研究决策的知识体系,为提升创新效能,有机地将科学家们的集体智慧充分提取出来,构建易用性强、准确率高的替代文献的数据库与知识库,成为AI for Science基础设施建设方向之一。
对于自然科学研究来说,虽然GPT的出现在一定程度上增加了文献查阅的便捷性,但不完全适用于学术性问答的交互,存在局限性。科学文献大多为非结构化数据,且专业属性极强,各个领域的文献更新速度快。由于大模型的结构特点,每一次重新训练的成本都是非常高昂的,怎样让最新的数据高效的覆盖进来也是目前面临的重大问题。
将大语言模型与数据库相结合,可以通过对大量文本数据进行训练来生成语言模型,然后可以将这个模型与数据库结合使用,以便对数据库中的文本数据进行自然语言处理和语义分析。这种结合可以帮助提高数据库的查询和分析能力,从而更好地满足用户的需求。例如,可以使用大语言模型来自动化生成数据库查询语句,或者使用大语言模型来识别和提取数据库中的实体、关系和事件等信息,以便给用户更加智能化和个性化的查询分析服务。
类似这样的场景已经逐步实现:科研人员通过自然语言方式询问“我想知道最近一个月内被提及最多次的技术是什么”,“我想知道最近一个月内人工智能领域发表的论文中出现频率最高的技术是什么”,“删除最近一个月内指标低于 XX 的实验数据”,平台以对话形式返回结果或对数据进行相应操作,极大提高了数据管理的效率。
此外,还可以构建文献推荐系统,通过学习用户的历史行为和偏好,然后将这些信息用于预测用户可能需要关注的文献,并将这些预测结果与数据库中的数据进行匹配,从而提供用户最符合其需求的推荐结果。大语言模型结合向量数据库的方式,还可以加快大批量论文载入时间,降低数据的运算成本。
相较于传统检索方法只能返回精确匹配的文献本身,构建替代文献的知识库与平台工具,可实现多模态交互,并同时支持中英文提问回答方式,将为科研人员提供一个强大的知识信息资源和智能助手,轻松进行查找、阅读、对比分析、总结等需求。
科研数据不仅局限于文献文本,实验方法数据、结果数据、文献中的图表也是重要的数据来源。这也引发了构建实验方法知识库的需求。从海量的科学文献中自动抽取、整理、归纳和表示实验方法的相关信息,包括实验目的、原理、步骤、参数、结果、评价等,实现对实验方法的快速检索、比较、优化和推荐,以及对实验结果的自动分析、评估和总结。比如在合成化学领域,建立合成化学文献的附录,描述已有实验的步骤和结果。通过结构化查询,我们可以将其转化为合成化学实验知识库或数据库,开发人工智能算法进行对比分析,自动给出最佳合成化学路径的建议。利用知识库与实验仪器自动化系统进行对接,来实现对实验仪器的智能控制和调节,以适应不同的实验需求和条件,为实验自动化提供强有力的支撑。
未来,文献知识库最终的用户可能从现有的人类用户发展到机器用户,借助对话机器人辅助思考,让我们的提问也变得自动化。机器可以拆解我们提出的方向性问题,提出质疑点、设计论据,然后进行实验设计,再搜寻实验结论或者进行实验模拟,通过结果进行问题的反思推导或迭代实验设计方案,通过这样一套流程更进一步地提效,也打通了与另一个AI4S基础设施“高精度、高效率的实验系统”的连接。
不仅在自然科学,包括金融、资讯、法律在内的知识密集型产业都可以构建文献知识库,以提供强有力且通用性的支撑,让知识检索从面向数据库和检索工具,向下一个自然语言交互的对话时代发展。
相信,通过建设“替代文献的数据库与知识库”这一重要的AI for Science基础设施,将大大提升文献的检索、阅读、分析及管理效率,进一步助力科研人员提升科研生产力,让科研工作者释放更多的时间精力在解决关键问题与创新思考上。