《人工智能能否审阅科学文献并理解其全部含义?》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-10-19
  • 人工智能有助于科研人员快速总结研究成果,但也伴随着风险。

    在萨姆 · 罗德里克斯(Sam Rodriques)还是一名神经生物学的研究生时,他突然意识到了科学存在一种基本的局限性。他说:“即使研究人员已经得出了理解人类细胞或大脑所需的所有信息,我也不确定我们是否能知晓这件事,因为没有人有能力理解或阅读所有的文献并获得全面的观点。”

    5年后,罗德里克斯说,借助人工智能(AI),他离解决这个问题更近了一步。2024年9月,他和他在美国初创公司未来之家(FutureHouse)的团队宣布,他们开发了一套基于人工智能的系统,可以在几分钟内生成比维基百科页面更准确的科学知识综述。该团队迅速生成了大约17 000个人类基因的维基百科式词条,其中大部分在此前都没有详细的百科页面。

    罗德里克斯并非唯一一个借助人工智能来协助科学总结的人。数十年来,学者们一直试图加快将研究成果汇编成综述的繁重工作。“它们太长了,整理时的工作量大得惊人,而且往往在撰写时已经过时。”英国伦敦国王学院从事研究综合学的伊恩 · 马歇尔(Iain Marshall)表示。不过,随着世界对大语言模型(这些生成式人工智能程序是ChatGPT等工具的基础)的兴趣激增,人们对综述任务自动化产生了新的兴趣。

    某些更为新型的基于人工智能的科学搜索引擎已经可以通过查找、分类和总结出版物来帮助人们撰写陈述性文献综述(对各类研究的书面回顾)。不过,它们还不能自己生成高质量的综述。综述中最艰巨的挑战是被视为“黄金标准”的系统综述,它包含严格的论文搜索和评估程序,通常还需要进行荟萃分析来综合结果。大多数研究人员都认为,这些综述距离完全自动化还有很长的路要走。“我相信我们最终会实现这个目标,”位于澳大利亚黄金海岸市的邦德大学的证据和系统综述专家保罗 · 格拉西乌(Paul Glasziou)表示,“但我没法儿告诉你这要等到10年后还是100年后。”

    然而,与此同时,研究人员也担心人工智能工具可能会催生出更草率、不准确或是误导性的综述,进而污染文献。伦敦大学学院研究证据综合的詹姆斯 · 托马斯(James Thomas)表示:“我们担心的是,几十年来有关如何进行有效证据综合的研究会遭到破坏。”

    计算机辅助综述

    几十年来,计算机软件一直在帮助研究人员搜索和解析研究文献。早在大语言模型出现之前,科学家就已经在使用机器学习和其他算法来帮助识别特定的研究或是快速地从论文中提取发现。但是,ChatGPT等系统的出现引发了人们对于将大语言模型与其他软件相结合来加速这一过程的狂热兴趣。

    研究人员指出,直接要求ChatGPT(或任何其他人工智能聊天机器人)从零开始撰写一篇学术文献综述是过于天真的行为。这些大语言模型通过大量的文本训练来生成内容,但是大多数商业人工智能公司都不会透露这些模型的训练数据。马歇尔表示,如果要求像ChatGPT这样的大语言模型对某一主题的研究做综述,它们可能会采用可信的学术研究、不准确的博客文章以及天知道哪里来的其他信息。“它们无法权衡哪些是最相关、最高质量的文献。”马歇尔说。而且,由于大语言模型的工作原理是通过反复生成统计上“看起来可信的”的词语来响应提问,因此它们会对同一个问题产生不同的回答,还会出现“幻觉”式错误,包括声名狼藉的捏造式学术参考文献。马歇尔表示:“没有一种流程符合研究综述的最佳实践标准。”

    一种更复杂的流程是将一组预选论文的语料库上传到大语言模型,并要求它仅基于这些文献提取见解。这种“检索增强生成”方法似乎可以减少幻觉现象,但无法完全避免。这一过程还可以设置为让大语言模型对其信息来源作引用标注。

    这也是像“共识”(Consensus)和“引导”(Elicit)这样的专业人工智能科学搜索引擎的基础。“引导”总部位于美国加州奥克兰,能够搜索约1.25亿篇论文;位于马萨诸塞州波士顿的“共识”公司则能够搜索超过2亿篇论文。大多数公司并不透露其系统运行的具体细节,但通常会将用户的问题转化为计算机在“语义学者”(Semantic Scholar)和“公共医疗”(PubMed)等学术数据库的搜索,并返回相关度最高的结果。

    然后,大语言模型会对每项研究进行总结,并将其综合为一个注明出处的答案;用户可以通过各种选项来筛选出他们希望包含的研究成果。新加坡管理大学数据服务部门负责人、人工智能工具主题博客作者亚伦 · 郑(Aaron Tay)说:“至少它们引用的内容是完全真实的。”

    丹麦欧登塞南丹麦大学的博士后研究员穆什塔克 · 比拉尔(Mushtaq Bilal)表示,这些工具“肯定可以让你的阅读和写作过程变得更高效”。比拉尔为学者提供人工智能工具方面的培训,并设计了自己的人工智能工具“研究搭档”(Research Kick)。又例如,另一款名为“科学引用”(Scite)的人工智能系统可以快速生成支持或反驳某种主张的论文的详细分类。“引导”等其他系统还可以从论文的不同部分(方法、结论等)提取见解。比拉尔表示:“你可以将大量劳动外包出去。”

    但是,比拉尔说,大多数人工智能科学搜索引擎都无法自动生成准确的文献综述。它们的输出结果更像是“一个本科生熬夜整理出的几篇论文的要点”。他说,研究人员最好将这些工具用于优化综述流程的某些部分。“引导”公司的工程主管詹姆斯 · 布雷迪(James Brady)表示,该公司的用户用该产品扩充综述的各步骤,“效果很好”。

    包括“引导”在内的数款工具的另一个局限是,它们只能搜索开放获取的论文和摘要,而非文章的全文。比拉尔指出,很多研究文献都是付费的,而且搜索全文需要耗费大量的计算资源。“让人工智能应用程序搜索数百万篇文章的全文会耗费大量时间,成本也会高到无法承受。”他说。

    全文搜索

    钱对于罗德里克斯来说不是问题。他手头的资金非常充裕,因为位于加州旧金山的非营利公司“未来之家”得到了谷歌前首席执行官埃里克 · 施密特(Eric Schmidt)和其他投资者的支持。“未来之家”成立于2023年,旨在利用人工智能实现研究任务的自动化。

    2024年9月,罗德里克斯和他的团队发布了未来之家的开源人工智能原型系统“论文问答2”(PaperQA2)。每当“论文问答2”收到一次查询,就会在多个学术数据库中搜索相关论文,并尝试访问开放存取和付费内容的全文。随后,系统会识别和总结相关度最高的要素。他提到,“论文问答2”的运行成本较高,部分原因在于它处理的是论文全文。

    在测试该系统时,未来之家团队用它生成了关于多种单个人类基因的维基百科式文章。随后,他们将这些文章中的几百条由人工智能撰写的陈述语句,以及维基百科上针对同一主题的(人类撰写的)真实文章中的陈述语句,交给一个由博士和博士后生物学家组成的盲评小组。该小组发现,与人工智能工具生成的内容相比,真人撰写的文章中包含的“推理错误”——引用内容未能充分支持论点的情况——是前者的两倍。由于该工具在这方面的表现优于人类,研究小组将其论文命名为“语言智能体实现了科学知识的超人综合”。

    亚伦 · 郑表示,与传统搜索引擎相比,“论文问答2”和另一款名为“潜思”(Undermind)的工具需要更长的时间(几分钟而不是几秒钟)才能返回结果,因为它们进行的是更复杂的搜索,例如利用初始搜索的结果来追踪其他引文和关键短语。他表示:“这一切意味着计算成本非常高,速度也非常慢,但搜索质量却大大提高了。”

    系统综述的挑战

    文献的叙述性综述已经够难写了,但系统综述更难写,后者可能需要花费数月甚至数年的时间才能完成。

    根据格拉西乌团队的分析,完成一份系统综述至少涉及25个细致的步骤。在对文献进行梳理之后,研究人员必须对长名单进行筛选,找出相关性最高的论文,然后提取数据,筛查研究中可能存在的偏差,并对结果进行综合。(其中许多步骤还要由另一名研究人员重复执行,以检查是否存在不一致之处。)这种方法费力且耗时,但因其严格、透明和可重复性,在医学等领域被认为是值得一做的,因为临床医生会依据其结果来指导治疗病人的重要决策。

    2019年,在ChatGPT问世之前,格拉西乌和他的同事们就已尝试创造一项科学领域的世界纪录:在两周内完成一份系统综述。当时,他和马歇尔、托马斯等人已经开发出了一些计算机工具,以减少所需要的时间。当时可用的软件包括“机器人搜索”(RobotSearch),这是一种经过训练的机器学习模型,可以从一系列研究中快速识别随机试验。另一款人工智能系统“机器评议员”(RobotReviewer)则可以帮助评估某项研究是否因未做充分盲法试验等因素而存在偏倚风险。“所有的这些都是减少系统综述写作时间的重要小工具。”格拉西乌表示。

    这一挑战于2019年1月21日周一上午9:30开始计时,在总计9个工作日后,团队在2月1日周五的午餐时间完成了任务。“我可激动了。”当时在邦德大学主持这项研究、现任职于英国牛津大学的流行病学家安娜 · 梅 · 斯科特(Anna Mae Scott)说。众人用蛋糕庆祝了这项成就。此后,团队将这一纪录缩短到了5天。

    这个过程是否还能更快?其他研究人员也一直在努力实现系统综述各个环节的自动化。2015年,格拉西乌成立了“系统综述自动化国际协作组织”,这个小众团体也很符合自身定位,产出了若干篇关于系统综述自动化工具的系统综述。但马歇尔表示,即便如此,“仍然没有多少(工具)被广泛接受。这取决于技术的成熟度”。

    “引导”是声称其工具可帮助完成系统综述,而非仅仅是叙述性综述的公司之一。布雷迪表示,该公司的系统并不能一键生成系统综述,但确实实现了一些步骤的自动化,包括筛选论文以及提取数据和见解。布雷迪指出,大多数使用“引导”撰写系统综述的研究者都上传了他们使用其他搜索技术找到的相关论文。

    系统综述爱好者担心人工智能工具可能无法满足研究的两个基本标准:透明性和可重复性。“如果我看不到它所使用的方法,那么它就不是一篇系统综述,只是一篇普通的综述文章。”贾斯汀 · 克拉克(Justin Clark)表示。他是格拉西乌团队的一员,负责开发综述自动化工具。布雷迪说,研究者上传到“引导”网站上的论文就是“出色、透明的”初始文献记录。“至于可重复性,我们不能保证在重复相同步骤时,结果始终完全一致,但我们致力于在合理的范围内实现这一点。”他补充说,透明性和可重复性会是公司改进系统时的关注重点。

    综述领域的专家表示,希望看到更多关于人工智能文献综述辅助工具系统的准确性和可重复性的公开评估研究。“开发好用的工具和尝试新事物真的很有趣,”克拉克说,“但进行一项严谨的评估研究却是相当艰巨的任务。”

    2024年早些时候,克拉克牵头,对使用生成式人工智能工具辅助做系统综述的研究做了一次系统综述。他和他的团队发现,只有15项已发表的研究对人工智能的表现与人类的表现做了充分的比较。那些尚未发表或尚未经过同行评审的结果表明,这些人工智能系统可以从上传的研究中提取部分数据,并评估临床试验的偏倚风险。“在阅读和评估论文方面,人工智能系统似乎没什么问题,”克拉克表示,“但在其他任务上都表现得非常糟糕,包括设计和执行全面的文献检索。”(现有的计算机软件已经可以通过荟萃分析完成数据综合的最后一步。)

    格拉西乌和他的团队仍在努力通过改进工具来缩短综述产出所需的时间,这些工具可以在他们命名为“证据综述加速器”的网站上找到。“这不会成为一件前无古人后无来者的大事,而是每年都会让综述产出变得越来越快。”格拉西乌预测道。例如,在2022年,该团队发布了一款名为“方法向导”(Methods Wizard)的计算机化工具,该工具会向用户询问一系列有关其研究方法的问题,然后在不使用人工智能的情况下为他们编写一份研究方案。

    匆忙赶制的综述?

    信息综合的自动化也伴随着风险。多年来,研究人员一直清楚,许多系统综述存在冗余或质量差的问题,而人工智能可能会加剧这些问题。部分作者可能在有意或无意中使用人工智能工具快速完成一篇并未遵循严格程序或是包含低质量研究的综述,从而得出误导性的结果。

    格拉西乌说,与此形成对比的是,人工智能也可以鼓励研究人员对以前发表的文献进行快速检查,而原本他们是不会有闲心这么做的。“人工智能可能会提高他们的研究水平。”他说。布雷迪则表示,在未来,人工智能工具可以通过识别诸如P值操纵(一种数据操纵形式)等蛛丝马迹,帮助标记和过滤掉低质量的论文。

    格拉西乌认为这种情况是两种力量的平衡:人工智能工具可以帮助科学家产出高质量的综述,但也可能会助长劣质综述的产生。“我不知道这对已发表文献的总体影响会是如何。”

    有些人认为,综合和理解全球知识的能力不应该完全掌握在不透明、以盈利为目的的公司手中。克拉克希望看到非营利组织开发并仔细测试人工智能工具。近期,英国的两家资助机构宣布将向证据综合系统投资7000多万美元,他和其他研究人员对此表示欢迎。“我们只是希望保持谨慎和小心,”克拉克说,“我们想要确保(技术)辅助提供给我们的答案是正确的。”

  • 原文来源:https://www.nature.com/articles/d41586-024-03676-9
相关报告
  • 《人工智能素养概念的理解》

    • 来源专题:数智化图书情报
    • 编译者:程冰
    • 发布时间:2024-07-25
    • 人工智能素养是人工智能世界中每个人的必备能力,学者从不同角度丰富其含义。Burgsteiner等提出了人工智能素养的概念,指出人们需要具备理解人工智能基本知识和概念的能力。Long等将信息素养定义为一组能力,除了在道德上了解和使用人工智能之外,个人还需能够批判性地评估人工智能技术,与人工智能进行有效沟通和协作。Ng等对人工智能素养概念进行了补充,指出该素养应成为每个人的基本技能,并包含四个视角,即了解和理解、使用和应用、创造和评估及伦理问题。Cetindamar等关注与数字工作场所相关的人工智能素养,并确定了与技术、工作、人机和学习相关的能力。Kong等提供了一个可操作的定义,即理解人工智能概念、使用人工智能概念进行评估的能力,以及使用人工智能的概念理解现实世界。Ng等关注如何帮助用户建立概念理解,培养人工智能素养和赋能,将人工智能应用程序集成到自己的职业中来进行创新并作出贡献。Robinson提出人们需要学习如何明智地使用人工智能技术,具备理性的应用能力,学会区分道德和不道德行为。Steinbauer等提出人们需要具备应用人工智能技术在数字世界中生活、学习和工作的能力。Buder等指出在人工智能的世界中保持工作相关性并支持未来的职业转型需要个人具备高度发展的自我调节学习(SRL-self-regulated learning)技能,并在使用人工智能系统工作的同时保持决策的能力[12]。同时,日常生活和工作所需的知识和技能的相互关联性、复杂性和快速变化已将注意力从以技术为中心的技能转向更广泛的通用能力,如创造力、分析思维、主动自我驱动学习和全球公民意识。 我国对于人工智能相关能力的探讨主题更为广泛且内容更为具象。有研究提出,在人工智能背景下,算法素养是一种需要掌握的技术能力,需要培育人与算法共存的能力。肖恬提出,算法素养是人们面对算法分发信息时的选择、理解、质疑、评估以及思辨的反应能力。吴丹等提出,算法素养即具备感知、理解和使用算法的能力,能够正确使用以算法为驱动力的产品并具备对算法社会的适应能力。王罗娜等认为计算思维的概念认识视角大致可分为计算机科学视角、思维过程视角、问题解决视角三类。郑勤华等从智能知识、智能能力、智能思维、智能应用、智能态度五个维度阐述了智能素养的构成。 参考文献来源:刘邦奇,尹欢欢.人工智能赋能教师数字素养提升:策略、场景与评价反馈机制[J].现代教育技术,2024,34(07):23-31.
  • 《第五届科学文献知识实体提取与评估(EEKE2024)与第四届人工智能+信息计量学(AII2024)联合研讨会》

    • 来源专题:数智化图书情报
    • 编译者:杨小芳
    • 发布时间:2024-01-14
    • 征稿启事 我们诚邀您参加2024年4月22日至26日在中国长春举行的第五届科学文献知识实体提取与评估(EEKE2024)和第四届人工智能+信息计量学(AII2024)联合研讨会 https://eeke-workshop.github.io/2024 研讨会的目的 在大数据时代,海量的信息和数据极大地改变了人类文明。信息的广泛可用性为人们提供了更多的机会,但一个新的挑战正在上升:我们如何从众多信息来源中获取有用的知识。知识实体是特定学科或研究领域中相对独立、完整的知识模块[1]。作为知识传播的重要媒介,包含大量知识实体的科学文献吸引了学者的关注[2]。与此相辅相成的是,信息学,即对信息定量方面的研究,已经从人工智能(AI)中获得了巨大的好处,因为它能够分析非结构化的可扩展数据和流,理解不确定的语义,以及开发强大且可重复的模型。将信息计量学与人工智能技术相结合,在将大数据转化为巨大价值和影响方面取得了巨大成功。例如,深度学习方法启发了模式识别的研究,并进一步利用时间序列来跟踪技术变革。然而,从理论和实践的角度来看,如何有效地整合人工智能和信息计量学的力量来创建跨学科的解决方案仍然难以捉摸。 该研讨会旨在让相关社区参与从科学文献和人工智能+信息中提取和评估知识实体的开放性问题。具体而言,科学文献中的知识实体可能包括方法实体、任务、数据集和指标、软件和工具等[3]。知识实体应用包括知识实体图谱和路线图的构建、知识实体引用的建模功能等。有一些基于知识实体的在线平台,例如SAGE研究方法和“SOTA”项目。同时,本次研讨会还针对人工智能+信息计量学中某些未解决的问题及其广泛的实际场景,包括:将人工智能和信息计量学联系起来,从理论或实践的角度填补跨学科的差距;构建人工智能赋能的信息计量模型,增强鲁棒性、适应性和有效性,利用信息管理中的知识、概念和模型,加强人工智能+信息计量学的可解释性,以适应现实世界案例中的实证需求[4]。 是次联合研讨会将这两个前沿和跨学科的方向命名为:知识实体的提取和评估(EEKE),重点介绍从科学文献中识别知识实体的智能方法的发展,并促进其在广泛的信息研究中的应用。AI + Informetrics (AII),强调通过构建基础理论、开发新方法、将概念知识与实际应用联系起来以及创建实际解决方案来努力实现 AI 和信息计量学的交互。 本次研讨会旨在聚集研究人员和实际用户,在这个前沿场所开设一个协作平台,交流思想、分享试点研究并确定未来方向。 研讨会主题 该研讨会主要面向广泛的信息和图书馆学、科学科学、人工智能领域的学术研究人员,图书馆员、ST&I管理人员和政策制定者以及任何相关部门的从业人员也将对此感兴趣。 我们邀请对包括但不限于知识实体提取方法和知识实体应用等主题进行激励性研究。感兴趣的领域的具体示例包括:科学文献中的任务和方法对科学文档中的实体提取进行建模和算法数据集和指标提到从科学文献中提取从科学文献中提取软件和工具知识实体摘要知识实体的关系抽取知识实体引文的建模功能机器学习(包括深度学习)的信息计量学具有自然语言处理或计算语言学的信息计量学计算机视觉信息计量学信息计量学与其他相关人工智能技术(例如,信息检索)人工智能在科学中的应用面向科学、技术和创新的人工智能人工智能在研究政策和战略管理中的应用知识实体抽取的应用人工智能赋能信息计量学的应用 投稿须知 所有提交的内容必须以英文书写,遵循CEUR-ART风格,并应以PDF文件的形式提交给EasyChair。常规论文:全文10页,短篇论文4页,参考文献不限页数。海报和演示:我们欢迎提交作品,详细说明知识实体提取的原始、早期发现、正在进行的工作和工业应用,以及评估,以参加特别的海报会议,可能会在主要会议中进行2分钟的演示。一些研究方向的论文也将被邀请参加海报轨道,尽管海报和研究轨道提交之间的最终程序没有区别。这些论文应遵循与研究轨道论文相同的格式,但可以更短(海报和演示论文为 2 页)。 所有提交的内容将由至少两名独立评审员进行评审。请注意,每篇论文至少需要一名作者注册参加研讨会并参加研讨会以展示工作。如果没有出现,论文(即使被接受)将从会议记录和程序中删除。 研讨会论文集将在线存放在CEUR研讨会论文集出版服务中。这样一来,论文集将永久可用并可引用(数字持久标识符和长期保存)。 所属专题 被接受的投稿将被邀请提交给我们的技术预测和社会变革特刊。有关本期特刊的更多详细信息,请访问:https://eeke-workshop.github.io/2024/si-eeke-aii.html。 重要日期 所有日期都是地球上的任何地方 (AoE)。 投稿截止日期:2024年2月29日  录用通知:2024年3月20日 准备就绪:2024年3月30日  研讨会:2024年4月22日 引用 1. Chang,X.,Zheng,Q.(2008 年)。基于知识的学习资源组织的知识元素提取。在: Leung, H., Li, F., Lau, R., Li, Q. (eds) Advances in Web Based Learning – ICWL 2007.国际妇女委员会,2007年。计算机科学讲义,第 4823 卷。施普林格,柏林,海德堡。https://doi.org/10.1007/978-3-540-78139-4_10 2. Ying, D., Min, S., Jia, H., Qi, Y., Erjia, Y., Lili, L., Tamy, C. 实体指标:衡量实体的影响。公共科学图书馆一号, 2013, 8(8), e71416. https://doi.org/10.1371/journal.pone.0071416 3. Zhang, C., Mayr, P., Lu, W., & Zhang, Y. (2022).JCDL2022研讨会:从科学文献中提取和评估知识实体(EEKE2022)。在第 22 届 ACM/IEEE 数字图书馆联合会议 (JCDL '22) 的论文集中。美国纽约州纽约市计算机协会,第54条,第1-2条。https://doi.org/10.1145/3529372.3530917 4. Zhang, Y., Zhang, C., Mayr, P., & Suominen, A.《AI+信息学:大数据时代的多学科互动》社论。科学计量学 127, 6503–6507(2022)。https://doi.org/10.1007/s11192-022-04561-w