《科学资助机构拒绝使用人工智能进行同行评审》

  • 来源专题:科技期刊发展智库
  • 编译者: 唐果媛
  • 发布时间:2023-10-08
  • 2023年7月19日,神经科学家格雷格·西格尔(Greg Siegle)在2023年4月初的一次会议上听到了一件他认为“非常可怕”的事情。另一位科学家表示,人工智能(AI)工具ChatGPT(于2022年11月发布)已成为他作为国家卫生研究院(NIH)同行评审专家不可或缺的工具,用来辅助翻阅厚厚的研究提案和起草评审意见。其他听众表示认可,他们认为ChatGPT是一个重要的时间节省工具:起草一份评审意见可能只需要将提案的部分内容(例如摘要、目标和研究战略)粘贴到AI中,并要求其评估信息。

    然而,NIH和其他资助机构正在禁止这种方法。6月23日,NIH禁止使用像ChatGPT这样的在线生成式人工智能工具“进行同行评审评论的分析和制定” - 这可能在一定程度上受到了匹兹堡大学的西格尔及其同事的一封信的影响。会后,他们警告该机构,允许ChatGPT撰写资助评审意见是“危险的先例”。类似地,澳大利亚研究委员会(ARC)在得知评审意见似乎是由ChatGPT撰写后,于7月7日禁止使用生成式人工智能进行同行评审。

    其他机构也在制定应对措施。一位发言人表示,美国国家科学基金会已经成立了一个内部工作组,研究AI是否可以作为论文价值审查过程的一部分,并且是否需要“防范措施”。欧洲研究委员会也预计将讨论关于AI用于撰写和评估提案的问题。

    ChatGPT和其他大型语言模型在庞大的信息数据库上进行训练,以生成看似由人类编写的文本。这些机器人已经促使关注伦理和事实准确性的科学出版商限制其用于撰写论文。包括《科学》杂志在内的一些出版商和期刊也禁止评审员使用它们。

    对于资助机构来说,保密是最令人担忧的问题。当提案的部分内容被输入在线AI工具时,这些信息将成为其训练数据的一部分。NIH在其通知中表示,其担心“数据将来会被发送、保存、查看或用于何处”。

    批评者还担心,由AI撰写的评论可能会出现错误(众做周知,这些机器人会编造虚假信息),由于它们来源于现有信息,可能会对非主流观点有偏见,并且缺乏推动科学创新的创造力。NIH官员在博客上写道:“NIH重视的思维独创性在这一过程中丧失并被同质化,甚至可能构成抄袭。”对于期刊来说,评审员的责任也是一个令人担忧的问题。IOP 出版社的同行评审负责人金·埃格尔顿(Kim Eggleton)表示:“无法保证(评审员)理解或同意他们所提供的内容。”在澳大利亚,一名研究人员运营的匿名Twitter账号(ARC_Tracker)报告称,一些科学家收到了似乎是由ChatGPT撰写的评论,一周后,ARC禁止评审员使用生成式人工智能工具。该账号表示,当他们将提案的部分内容粘贴到ChatGPT中时得到了类似的评价,并且有一个评审甚至包含一个线索,即出现在ChatGPT回应的末尾的“重新生成回应”字样。ScienceInsider确认了账号ARC_Tracker运营人员的身份,但同意其匿名,以便这位科学家和其他人可以自由地批评ARC和政府政策,而无需担心后果。

    ARC_Tracker运营人员表示,科学家可能认为ChatGPT提供了有意义的反馈,但它实质上只是重复了提案内容。不可否认,一些人类评论员也会这样做。但是,该科学家在给ScienceInsider的电子邮件中写道:“适当的评论与仅仅对提案中已有内容进行概述之间有很大的区别,适当的评论应该提供深刻见解、批判、明确的意见和专业评估。”

    然而,一些研究人员表示,AI提供了改进同行评审过程的机会。爱荷华大学的精神遗传学家杰克·迈克尔森(Jake Michaelson)表示,NIH的禁令是对“技术恐惧症对积极变革机会的退缩”。评审员可以使用这些工具检查他们的评论,看看他们是否忽略了提案中的某些内容,帮助他们评估自己领域之外的工作,并修正他们没有意识到的“琐碎甚至是恶意”的语言。迈克尔森补充道:“最终,我认为AI将成为同行评审过程的第一线,人类专家将对第一线的AI评审进行补充...我宁愿让ChatGPT-4审查我的提案,而不是一个懒惰的人类评审员。”

    这个领域可能会随着时间的推移而发生变化。一些科学家在NIH的博客上指出,一些生成式AI模型可以离线工作,不会违反保密性 - 至少消除了这种担忧。NIH回应称,它希望为将“迅速发展的领域”“提供额外的指导”。西北大学的伦理博士后研究员穆罕默德·侯赛因(Mohammad Hosseini)曾撰文讨论过AI在手稿审查中的应用,他认为NIH的禁令是合理的:“考虑到NIH所处理问题和项目的敏感性,以及AI工具的新颖性,采用谨慎和审慎的方法是绝对必要的。”

相关报告
  • 《利用ChatGPT进行同行评审:观点一瞥》

    • 来源专题:科技期刊发展智库
    • 编译者:杨恒
    • 发布时间:2023-09-07
    •   人工智能解决方案已在投稿初审阶段发挥了重要角色,有效筛选出存在明显错误或信息缺失的论文。近期,大型语言模型(LLM)如ChatGPT作为自然语言处理领域的强大工具,引发了对其在学术期刊同行评议中的潜在应用的探讨。本文旨在深入探讨使用LLM进行同行评审报告的各类观点。   在前GPT3时代   一组作者专门开发了一种人工智能工具,通过实验研究来评估该工具在期刊稿件质量评估和同行评审过程中与人类决策的接近程度。Checco等人(2021年)在报告结果时指出:"机器学习技术本质上是保守的,因为它们是用过去的数据训练出来的。"他们进一步提出,将此类工具用于实际的同行评议可能会"导致意想不到的后果,例如构建有偏见的规则,以及对代表性不足的群体或个人的消极待遇。"   利弊分析   Hosseini和Horbach(2023年)对LLM在出版过程中的应用进行了详细研究。他们发现,尽管LLM可以用于总结同行评审报告和草拟编辑决策,但它们也可能"加剧同行评审制度的现有挑战,如虚假同行评审,因为它们使欺诈者能够创建更独特、写得更好的评审。"他们还指出,"LLM目前仍处于早期发展阶段,似乎更适合于改进综述初稿,而不是从头开始撰写综述。"因此,他们强烈建议期刊编辑和同行评审专家在决定是否以及如何在稿件处理过程中使用LLM时,要全面披露。   同行评审中强烈反对大型语言模型的案例   Donker(2023年)在《柳叶刀传染病》杂志上发表的一篇文章中分享了他使用LLM生成同行评议报告的经历。他发现,人工智能生成的同行评审报告包含了许多看似真实但实际与被评审稿件无关的评论。他强烈建议不要在同行评审中使用LLM,称:"编辑应确保审稿报告中的评论与相关稿件有实质性的关联,作者应准备质疑审稿人看似无关的评论,最重要的是,审稿人应避免使用LLM工具。"   期刊和出版商的看法   2023年4月,一位社会科学研究者在其论文的人工智能生成的同行评审中揭示了他在一份未指名的Emerald期刊上发布的文章的作者和论文都是虚构的。一位不愿透露姓名的Emerald出版社发言人在《泰晤士报高等教育》中表示:"Emerald出版社的期刊的审稿人不应使用ChatGPT和其他人工智能工具。与作者身份一样,人工智能工具/LLM不应取代依赖人类学科专业知识和批判性评估的同行评审过程。"   ICCV 2023会议的项目主席在反对同行评审中使用LLM的立场上更加坚定。他们的同行评审指南明确指出:"利用大型语言模型(如ChatGPT)自动生成的非评审者个人意见的评审报告是不道德的。"他们要求每位审稿人确认,他们的每份审稿都反映了他们的原始观点,报告中没有任何部分是自动生成的。   然而,有些期刊仍保持中立立场。2023年4月,《Arthritis Care & Research》和《Arthritis & Rheumatology》期刊同时发表的一篇社论中指出:"虽然我们并不期望用LLM取代人类的同行评审员,但我们将关注这类工具是否能成为一种有用的辅助工具。"   总之,随着学术出版需求的不断发展,将LLM纳入同行评审流程对于提高评审者的效率和生产力具有巨大吸引力。然而,鉴于LLM的当前阶段,出于道德考虑和对人类判断的需求,我们必须谨慎行事。随着更新、更复杂的LLM的开发,它们可能成为同行评审过程中的宝贵助手,充当第二双眼睛,保留人类专业知识的精髓,同时消除重复的写作任务。
  • 《为开放科学服务的同行评审》

    • 来源专题:科技期刊发展智库
    • 编译者:李涵霄
    • 发布时间:2022-10-19
    •   当我们想到开放科学时,会立即想到共享各种各样的研究产品,如数据、代码、方法和试剂。更重要的是,开放科学是关于根据长期确立的准则进行和传播科学的整个过程。开放性是科学事业的核心。科学家们采用开放的做法,允许协作和严格审查,以便为共同利益验证和建立知识。出版过程应该是确保这些规范得到维护的核心要素。PLOS在论文提交和同行评审过程中做出了一些改变,以促进开放科学,探索新的可能性。 1、构建开放进程基础 (1)从预印本开始   PLOS在提交过程中引入了一个新步骤:询问作者是否存储了预印本,如果他们没有,PLOS愿意代表他们这样做。PLOS已经与bioRxiv合作,在对预印本进行筛选后,将其存储起来,以确保它们在主题范围内,并且没有道德问题或敏感信息。   当手稿被提交而不是被发表时,对其进行开放会让研究人员感到谨慎,但确实提供了许多好处。预印本为合作创造了机会,并帮助研究人员在论文发表前展示他们的工作,这对于那些需要展示论文、寻求工作或申请资助的人来说尤为重要。发布预印本会引起同行评议文章的更多关注和引用。目前,PLOS近20%的手稿在提交时有预印本,相比之下,PubMed中只有3%;一些社区特别支持开放科学的这个举措,例如,超过50%的《PLOS计算生物学》(PLOS Computational Biology)提交稿件是预印本。 (2)发布同行评审   同行评议在开放科学所特有的客观批判文化中占有重要地位。作者和审稿人之间的来回交流有助于验证声明并改进他们的报告,这是对作者和读者的一种服务。公开同行评审会增加这种交流的价值。审稿人和编辑为科学界提供了巨大的服务;出版同行评议历史(带有明确引用的DOI)是使这项活动得到认可和同行评议报告被视为一流学术成果的一个步骤。   2019年5月,PLOS推出了一个选项,供作者在发表文章的同时发布完整的同行评议历史。在初步实施中允许评审人保持匿名,并允许作者在同行评审结束时选择接受。实施6个月的结果表明,在所有期刊中平均有40%的作者选择了该方式,在某些学科中的选择率为60%-70%,55%的已发布同行评审包中至少有一位指定的评审人。 2、继续反思同行评审   尽管同行评审具有重要功能,但它仍不完善,面临着新的挑战,如仅靠2到3名审稿人就能评估复杂的跨学科手稿的各个方面。而在实践中,扩大审稿专家数量却很困难。此外,当一份手稿在期刊内经过多轮修订,或者更常见的是在不同期刊上经历连续的提交-评审-修订-拒绝周期时,该过程容易出现延迟和冗余。有了上述思考,PLOS开始尝试新的同行评议计划,如发布预印本和同行评议历史,并持续跟踪三项新举措的进展情况: (1)从支持预印本的同行评审工作流到支持同行评审的预印本工作流   PLOS在稿件提交时提醒作者,当在他们的预印本上发表评论时,PLOS会请处理编辑注意。根据bioRxiv的调查,37%的受访者通过电子邮件收到了对预印本的评论。鉴于他们的评论可能有助于并加速同行评审,评论人将更愿意在bioRxiv上公开这些评论。评论不需要是全面的评论,但可能需要对具体方面的统计数据、方法、代码等进行相关检查。当我们向编辑提出更多样化的评论时,还需要指向twitter、PREView或preLights(两个提供预印本评论的第三方网站)上的评论,PLOS表示其将研究这种多样性对作者和编辑经验的影响。 (2)期刊独立同行评审,减少评审人负担   5家PLOS期刊正在参与评审共享,这是EMBO Press和ASAPbio提供的一项新服务,提供期刊独立同行评审。作者可以更好地选择期刊,所有参与的期刊都承诺使用该服务的评论来加快出版决策。作者还可以决定他们的手稿是否经过充分验证,并使用Review Commons的服务在bioRxiv上发布同行评审。 (3)同行评审实验计划   2020年,PLOS ONE宣布,他们将提供注册报告作为发布假设检验研究的选项。这类文章包括两个阶段的同行评议和后续出版,对于避免出版偏见尤为重要。通过将同行评审分为两个阶段,作者可以在开始调查之前获得对其初始研究计划的早期反馈,以制定一个稳健且可重复的研究设计,并且他们还可以得到保证,只要他们遵守研究方案,其结果就会在期刊上发表。注册报告提高了评估标准的透明度,最大限度地减少了偏见,并通过尽早揭示工作的关键阶段,帮助使整个研究过程更加公开。