《Allen人工智能研究所推出Ai2论文查找器》

  • 来源专题:科技出版市场动态监测
  • 编译者: 崔颖
  • 发布时间:2025-04-30
  •     Allen人工智能研究所发布Ai2论文查找器,这是一个基于大型语言模型(Large Language Model,LLM)的文献检索系统。

        基于人工智能的文献检索应该遵循人类研究人员在寻找相关论文时所采用的研究和思考过程。Ai2论文查找器正是基于这一理念构建的,它擅长找到使用现有搜索工具难以发现的论文。

        回顾一下你自己的研究过程以及你是如何搜索论文的。例如,设想你在寻找介绍两个说话者之间无脚本的用英语对话数据集(书面或转录)的论文,并且其中一位说话者的某些属性(如情感、年龄、性别等)有标注。你会如何处理?

        你可能会先选择一个工具,比如Semantic Scholar、Google Scholar或普通的Google搜索,或者询问像GPT这样的大型语言模型。然后,根据对领域和所选工具的了解,想出一些搜索词,并看看会出现什么结果。结果可能不完全符合需求,但会是一个不错的起点。从搜索结果中,你的直觉会引导你进行更多的跟进,也许会学到新的词汇,或者被提醒到一个相关概念,从而进行一个新的搜索查询,或者你发现了一个有希望的线索,开始跟踪引用或某个特定作者的作品。这个过程的关键是,文献检索是一个多步骤的过程,涉及到在进行过程中的学习和迭代。

        我们将这种思维方式直接融入了Ai2论文查找器。当你输入查询时,你可以看到系统将你的查询分解为相关组件,搜索论文,跟踪引用,评估相关性,根据结果运行后续查询,后续不仅呈现论文,还提供说明为什么这篇论文与你的特定查询相关的简短摘要。

        Ai2论文查找器不需要你将查询简化为关键词来执行有效的搜索,就像开始提到的例子一样,我们可以直接将它输入到论文查找器中:“介绍两个说话者之间用英语进行的无脚本的对话数据集(书面或转录)的论文,并且其中一位说话者的某些属性(如情感、年龄、性别等)有标注。”

    图1 Ai2论文查找器在搜索查询时进行推理过程的一部分


        我们在多大程度上创建一个能够以这种方式有效模仿研究过程的人工智能助手?这个问题既具有实际意义,也具有学术价值。从实际角度来看,这将为研究人员节省无数小时、几天甚至几周的时间,并让我们找到原本可能会错过的线索。从学术角度来看,在学术方面,引发了许多有趣的研究问题,围绕着使用LLM代理对长期过程进行建模、以目标为导向的学习方式的系统、人机交互和交互式计算,以及许多其他复杂的挑战。

        一、Ai2论文查找器与其他工具的比较

        (1)Ai2论文查找器与其他文献检索解决方案有何不同?首先,我们致力于尽可能开放。我们对开放性所支持的研究问题非常感兴趣,并致力于全面且公开地描述系统的每一个方面。我们还计划公开我们收到的查询流,只要用户选择加入,我们计划挖掘有趣的查询,并将其作为社区范围的基准发布。尽管学术版权问题使我们今天无法开源代码,但我们希望对开放性的承诺能够激励整个社区与我们一起攻克重大研究问题,并且我们计划在未来发布更多的源代码。

        (2)Ai2论文查找器在目标和范围上也有所不同。许多其他工具专注于返回一些热门结果,例如Perplexity。论文查找器旨在涵盖更长尾部的更小众发现和难以找到的论文,这需要一个迭代过程,在这个过程中,你将随着获取新信息而指导你的后续行动。我们相信这一范围能够更好地服务领域内的专家人员。

        (3)其他努力(包括Ai2 ScholarQA)正在创建研究摘要。摘要基于检索生成,但与论文查找不同。区别不仅在于结果的呈现形式(列表或总结),还在于信息的使用方式。摘要旨在作为概览,并非旨在穷尽,如果你从一个领域中找到一篇突出的论文,忽略其他论文是可以接受的。而在论文查找结果中,我们通常希望结果更加详尽。摘要主要用于了解新主题,而论文查找则帮助你深入挖掘你已经熟悉的领域。

        关于工具,最著名的是Undermind,与我们在同一个领域工作,目标是找到关于某个主题的优秀且全面的论文集。我们很高兴看到更广泛的社区共同应对这些挑战,推动该领域的发展。

        二、Ai2论文查找器的表现如何

        我们在几个内部开发集上进行系统测试,并且在内部使用了一段时间,最初是在论文查找器团队内部使用,后来在更广泛的Ai2内部使用。我们每天都使用,并且总体上对其结果质量与其他工具相比感到满意。目前正在编制一组具有挑战性的查询,计划将其作为基准发布。

        我们还在LitSearch上进行了评估,这是普林斯顿大学最近发布的专注于学术文献检索的学术基准,我们发现它的质量很高。评估的设置与论文建议的略有不同,我们不是在LitSearch提供的64,183篇ACL和ICLR论文集中搜索,而是在Semantic Scholar中搜索更大范围的数百万篇论文,这是一项更加艰难的任务。尽管如此,我们发现Ai2论文查找器表现得相当出色,能够为89%的查询找到完全相关的论文(以及其中98%的高度相关的论文)。

        三、未来的发展方向

        我们发现Ai2论文查找器对我们的日常研究非常有用,鼓励用户在传统搜索引擎(如Semantic Scholar或Google Scholar)效果不佳时使用它,或者当Perplexity给出的结果不如你所愿时。然而,这个项目才刚刚开始,还有很多工作要做:

        (1)在元数据(例如,不仅查看内容,还查看作者、年份、出版场所等)上投入不多,涉及元数据的查询仍然有些粗糙。我们意识到这一点,正在积极改进涉及元数据的查询结果。处理元数据的难度可能超出了人们的预期,我们正在快速取得进展。

        (2)关于语义查询,尽管我们在LitSearch和Pasa等学术基准测试中取得了优异的成绩,但仍有很多工作要做。特别是已经确定了一些具有挑战性的领域:当用户不知道正确的词汇时的查询、用户输入冗长的段落来描述他们的意图的查询、涉及多个语义标准的查询(其中每个标准都出现在论文的不同部分)以及难以使用索引进行搜索的内容查询(例如,“训练参数超过70亿的模型训练技术”,或者否定语义标准的查询,如“不讨论种族或性别的公平性论文”)。

        (3)探索交互性和多轮交互领域。现实世界的搜索并非一次性过程,一旦有了结果,搜索者可能希望细化查询。这种细化可能涉及返回的结果(如,“这些结果很棒,但现在专注于内存效率”或“第三和第四篇很棒,你能找到更多类似的吗?”),我们希望后续查询能够考虑到这一点。这引发了我们正在探索的许多研究、工程和用户体验问题。搜索助手的个性化和主动性也在我们的规划之中。目前,Ai2论文查找器在各种后续查询上表现尚可,但我们希望后续版本能够在更广泛的查询范围内表现得更好。

        (4)该系统目前虽然强大但僵化,尽管它受到LLM决策的影响,但流程主要由我们团队的研究人员和工程师塑造。虽然强大且有效,但也具有局限性(以一个几乎微不足道的例子来说,像“bert论文和roberta论文”这样的查询目前处理得不太好,而一个更动态的、由LLM控制的流程可以轻松支持)。未来,我们希望将更多决策委托给LLM,支持更动态和临时的流程。

        Ai2论文查找器是我们更大愿景的一部分,即一个代理型科学研究助手。我们的目标是通过支持从论文查找、文献组织和理解,到实验设计、统计分析和实验执行的所有研究需求,来推动科学的进步。


  • 原文来源:https://www.infodocket.com/2025/03/27/research-tools-allen-institute-for-artificial-intelligence-introduces-ai2-paper-finder/
相关报告
  • 《2月全球人工智能领域新看点》

    • 来源专题:人工智能
    • 编译者:高楠
    • 发布时间:2025-03-05
    • 在刚刚过去的2月,全球人工智能(AI)领域继续呈现强劲的发展势头。   全球数家科技公司竞相发布其AI模型的最新版本,这些新模型将为用户带来更加智能的使用体验,为多个行业注入新动能;人工智能行动峰会在巴黎召开,旨在建立一个包容而高效的AI国际治理框架;AI与其他领域的融合更加紧密,特别是在促进科研创新方面展现出巨大的潜能与前景。   更快更聪明 新AI模型竞相涌现   美国知名企业家埃隆·马斯克旗下的xAI公司2月17日发布最新人工智能模型Grok 3,该模型引入了包括图像分析和问答在内的高级功能,支持社交媒体平台X上各种功能。马斯克称,Grok 3使用了拥有约20万个GPU的大型数据中心训练,其计算能力是上一代版本Grok 2的10倍,被称为“地球上最聪明的人工智能”。   在发布会上的功能演示中,Grok 3模型及Grok 3 mini版本在数学、科学和编程基准测试上超越了现有主流模型。Grok 3于2月23日上线语音模式。   法国米斯特拉尔人工智能公司2月6日发布最新版本的开源人工智能助手Le Chat,可帮助用户获取新闻、管理日常生活、跟踪项目、上传和总结文档等。新版Le Chat增加的数个功能中最引人注目的是“速答”功能。据该公司介绍,新版Le Chat能以每秒1000个单词的速度生成答案。   美国谷歌公司2月5日宣布推出多个“双子座2.0”系列模型的优化版本,其中包括“双子座2.0闪电”模型以及该模型的经济版和实验版,所有这些模型都将提供多模态输入与文本输出。据谷歌官方博客介绍,此次更新进一步增强了“双子座2.0”系列模型在多模态推理、编码性能和处理复杂提示等方面的能力,并提升了成本效益。   更多应用 AI跨界融合新动向   人工智能技术不仅自身在快速发展,而且与其他领域的融合也更加紧密,特别在促进科研创新方面展现出巨大的潜能与前景。   美国弧形研究所2月19日宣布,该研究机构与美国芯片制造商英伟达公司、美国斯坦福大学等机构的科研人员共同开发的AI生物学模型Evo 2正式发布。其发布的公报说,在前一代模型Evo 1的基础上,Evo 2发展成为目前生物学领域规模最大的AI模型。该模型基于超过12.8万个基因组数据开展训练,这些基因组涉及人类、动植物及真核生物,包括了9.3万亿个核苷酸。   据介绍,Evo 2可用于多种任务,它能识别影响蛋白质功能和生物体适应性的基因变化。例如,在针对与乳腺癌相关的BRCA1基因变体的测试中,Evo 2在预测哪些突变是良性突变、哪些是潜在致病突变方面达到了90%以上的准确率。这将有助于节省大量用于细胞或动物实验的时间和研究资金,协助找到人类疾病的遗传原因来加速新药研发。Evo 2还可用于设计新的生物工具或治疗方法。   美国华盛顿大学等机构的研究人员2月13日在美国《科学》杂志上发表论文说,他们利用AI设计出了具有天然酶关键特征、可介导多步反应的全新的酶。业内专家评价其为“酶工程领域的一个里程碑”。   更好造福人类 巴黎峰会推动AI治理   AI不仅是一场技术革命,它还可能深刻改变社会结构,包括知识获取、就业、信息传播方式等。伴随技术的发展,AI在安全和可信度等方面也存在风险。当前,全球AI治理格局分散,难以形成有效的全球规则。在此背景下,加强AI全球治理合作迫在眉睫。2月10日至11日,人工智能行动峰会在法国巴黎召开。峰会旨在建立一个包容而高效的AI国际治理框架。   如何让AI更好地造福人类,实现智能向善,是峰会期间的热门话题。一个主流声音是推动智能向善,确保人工智能发展始终符合人类的根本利益和价值标准,必须共推发展、共护安全、共享成果。   包括法国、中国、印度、欧盟在内的多个国家和国际组织在会上签署了《关于发展包容、可持续的人工智能造福人类与地球的声明》。声明说,峰会凸显了加强人工智能生态系统多样性的重要性,各方确认了一些主要优先事项,包括促进人工智能的可及性以减少数字鸿沟,确保人工智能开放、包容、透明、合乎道德、安全、可靠且值得信赖,鼓励有利于未来劳动力市场和可持续发展的人工智能部署,加强国际协调治理等。   峰会还着重强调推动AI资源开放,降低发展中国家获取AI技术的门槛。在这方面,中国的大语言模型表现突出,以深度求索(DeepSeek)为代表,展现出开源、低能耗、透明的特点,成为普惠全球的新典范。法国《世界报》报道,DeepSeek依靠更少的算力和数据消耗,以及更低的训练成本,表现卓越,足以与美国最新产品相媲美。这对于促进其他国家AI发展,推动AI运用的包容普惠性,具有重要意义。                            新华社北京3月1日电    (责编:赵光霞、胡永秋)
  • 《人工智能驱动 全球知名学术出版机构推出一款科技论文写作助手》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-19
    • 全球知名学术出版机构施普林格·自然(Springer Nature)10月17日对外宣布,新推出一款由其内部研发的人工智能(AI)驱动写作助手Curie,以支持研究人员的科技论文写作,尤其是那些母语非英语的研究人员。 施普林格·自然称,全球研究表明,母语非英语的科学家撰写一篇论文,要多花费51%的时间,这会带来科研上的不平等,限制知识的进步,并影响来自全球各地高质量研究成果的提交。 作为应对之策,最新推出的科技论文写作助手Curie基于学术文献进行专门训练,涵盖超过447研究领域、2000多个特定领域的课题,该训练还基于已发表论文中进行的100多万次编辑,其中包括领先的《自然》系列期刊上的论文。它结合大型语言模型(LLM)的强大功能与内部研发的专门针对科技写作的专业AI数字编辑功能。与通用的AI写作应用程序不同,Curie专注于研究人员在专业写作中的独有痛点,例如,译为英文和英语语言润色,以应对语法错误并改善措辞和选词。 目前,Curie写作助手服务由在《科学报告》(Scientific Reports)和《发现》(Discover)系列期刊上发表文章的中国研究人员进行试用,在67%使用该工具的作者中,有90%的作者发现其稿件随后进入同行评审,试用结束时获得发表的文章增加了14%。 施普林格·自然科研解决方案副总裁尤金妮娅·里根(Eugenie Regan)表示,通过不断推进数字体验以满足所有研究人员的需求并为其提供支持,就可以帮助他们节省时间,使其能够将精力集中于产生最大影响力的领域,也就是那些推动知识进步和促进社会向前发展的突破性研究上。 据介绍,Curie可供施普林格·自然所有的图书和期刊作者使用,并已整合到施普林格刊物的投稿前核对清单中,为论文作者提供一种更顺畅、简便的方式来利用该工具。Curie还可作为插件安装到微软文档(Microsoft Word)中,让论文作者、编辑更方便访问和利用这项增强型服务。同时,Curie是一系列科技写作解决方案的组成部分,该方案将继续扩展以支持科研出版过程的各个阶段。