Allen人工智能研究所发布Ai2论文查找器,这是一个基于大型语言模型(Large Language Model,LLM)的文献检索系统。
基于人工智能的文献检索应该遵循人类研究人员在寻找相关论文时所采用的研究和思考过程。Ai2论文查找器正是基于这一理念构建的,它擅长找到使用现有搜索工具难以发现的论文。
回顾一下你自己的研究过程以及你是如何搜索论文的。例如,设想你在寻找介绍两个说话者之间无脚本的用英语对话数据集(书面或转录)的论文,并且其中一位说话者的某些属性(如情感、年龄、性别等)有标注。你会如何处理?
你可能会先选择一个工具,比如Semantic Scholar、Google Scholar或普通的Google搜索,或者询问像GPT这样的大型语言模型。然后,根据对领域和所选工具的了解,想出一些搜索词,并看看会出现什么结果。结果可能不完全符合需求,但会是一个不错的起点。从搜索结果中,你的直觉会引导你进行更多的跟进,也许会学到新的词汇,或者被提醒到一个相关概念,从而进行一个新的搜索查询,或者你发现了一个有希望的线索,开始跟踪引用或某个特定作者的作品。这个过程的关键是,文献检索是一个多步骤的过程,涉及到在进行过程中的学习和迭代。
我们将这种思维方式直接融入了Ai2论文查找器。当你输入查询时,你可以看到系统将你的查询分解为相关组件,搜索论文,跟踪引用,评估相关性,根据结果运行后续查询,后续不仅呈现论文,还提供说明为什么这篇论文与你的特定查询相关的简短摘要。
Ai2论文查找器不需要你将查询简化为关键词来执行有效的搜索,就像开始提到的例子一样,我们可以直接将它输入到论文查找器中:“介绍两个说话者之间用英语进行的无脚本的对话数据集(书面或转录)的论文,并且其中一位说话者的某些属性(如情感、年龄、性别等)有标注。”
图1 Ai2论文查找器在搜索查询时进行推理过程的一部分
我们在多大程度上创建一个能够以这种方式有效模仿研究过程的人工智能助手?这个问题既具有实际意义,也具有学术价值。从实际角度来看,这将为研究人员节省无数小时、几天甚至几周的时间,并让我们找到原本可能会错过的线索。从学术角度来看,在学术方面,引发了许多有趣的研究问题,围绕着使用LLM代理对长期过程进行建模、以目标为导向的学习方式的系统、人机交互和交互式计算,以及许多其他复杂的挑战。
一、Ai2论文查找器与其他工具的比较
(1)Ai2论文查找器与其他文献检索解决方案有何不同?首先,我们致力于尽可能开放。我们对开放性所支持的研究问题非常感兴趣,并致力于全面且公开地描述系统的每一个方面。我们还计划公开我们收到的查询流,只要用户选择加入,我们计划挖掘有趣的查询,并将其作为社区范围的基准发布。尽管学术版权问题使我们今天无法开源代码,但我们希望对开放性的承诺能够激励整个社区与我们一起攻克重大研究问题,并且我们计划在未来发布更多的源代码。
(2)Ai2论文查找器在目标和范围上也有所不同。许多其他工具专注于返回一些热门结果,例如Perplexity。论文查找器旨在涵盖更长尾部的更小众发现和难以找到的论文,这需要一个迭代过程,在这个过程中,你将随着获取新信息而指导你的后续行动。我们相信这一范围能够更好地服务领域内的专家人员。
(3)其他努力(包括Ai2 ScholarQA)正在创建研究摘要。摘要基于检索生成,但与论文查找不同。区别不仅在于结果的呈现形式(列表或总结),还在于信息的使用方式。摘要旨在作为概览,并非旨在穷尽,如果你从一个领域中找到一篇突出的论文,忽略其他论文是可以接受的。而在论文查找结果中,我们通常希望结果更加详尽。摘要主要用于了解新主题,而论文查找则帮助你深入挖掘你已经熟悉的领域。
关于工具,最著名的是Undermind,与我们在同一个领域工作,目标是找到关于某个主题的优秀且全面的论文集。我们很高兴看到更广泛的社区共同应对这些挑战,推动该领域的发展。
二、Ai2论文查找器的表现如何
我们在几个内部开发集上进行系统测试,并且在内部使用了一段时间,最初是在论文查找器团队内部使用,后来在更广泛的Ai2内部使用。我们每天都使用,并且总体上对其结果质量与其他工具相比感到满意。目前正在编制一组具有挑战性的查询,计划将其作为基准发布。
我们还在LitSearch上进行了评估,这是普林斯顿大学最近发布的专注于学术文献检索的学术基准,我们发现它的质量很高。评估的设置与论文建议的略有不同,我们不是在LitSearch提供的64,183篇ACL和ICLR论文集中搜索,而是在Semantic Scholar中搜索更大范围的数百万篇论文,这是一项更加艰难的任务。尽管如此,我们发现Ai2论文查找器表现得相当出色,能够为89%的查询找到完全相关的论文(以及其中98%的高度相关的论文)。
三、未来的发展方向
我们发现Ai2论文查找器对我们的日常研究非常有用,鼓励用户在传统搜索引擎(如Semantic Scholar或Google Scholar)效果不佳时使用它,或者当Perplexity给出的结果不如你所愿时。然而,这个项目才刚刚开始,还有很多工作要做:
(1)在元数据(例如,不仅查看内容,还查看作者、年份、出版场所等)上投入不多,涉及元数据的查询仍然有些粗糙。我们意识到这一点,正在积极改进涉及元数据的查询结果。处理元数据的难度可能超出了人们的预期,我们正在快速取得进展。
(2)关于语义查询,尽管我们在LitSearch和Pasa等学术基准测试中取得了优异的成绩,但仍有很多工作要做。特别是已经确定了一些具有挑战性的领域:当用户不知道正确的词汇时的查询、用户输入冗长的段落来描述他们的意图的查询、涉及多个语义标准的查询(其中每个标准都出现在论文的不同部分)以及难以使用索引进行搜索的内容查询(例如,“训练参数超过70亿的模型训练技术”,或者否定语义标准的查询,如“不讨论种族或性别的公平性论文”)。
(3)探索交互性和多轮交互领域。现实世界的搜索并非一次性过程,一旦有了结果,搜索者可能希望细化查询。这种细化可能涉及返回的结果(如,“这些结果很棒,但现在专注于内存效率”或“第三和第四篇很棒,你能找到更多类似的吗?”),我们希望后续查询能够考虑到这一点。这引发了我们正在探索的许多研究、工程和用户体验问题。搜索助手的个性化和主动性也在我们的规划之中。目前,Ai2论文查找器在各种后续查询上表现尚可,但我们希望后续版本能够在更广泛的查询范围内表现得更好。
(4)该系统目前虽然强大但僵化,尽管它受到LLM决策的影响,但流程主要由我们团队的研究人员和工程师塑造。虽然强大且有效,但也具有局限性(以一个几乎微不足道的例子来说,像“bert论文和roberta论文”这样的查询目前处理得不太好,而一个更动态的、由LLM控制的流程可以轻松支持)。未来,我们希望将更多决策委托给LLM,支持更动态和临时的流程。
Ai2论文查找器是我们更大愿景的一部分,即一个代理型科学研究助手。我们的目标是通过支持从论文查找、文献组织和理解,到实验设计、统计分析和实验执行的所有研究需求,来推动科学的进步。