2023年7月19日,神经科学家格雷格·西格尔(Greg Siegle)在2023年4月初的一次会议上听到了一件他认为“非常可怕”的事情。另一位科学家表示,人工智能(AI)工具ChatGPT(于2022年11月发布)已成为他作为国家卫生研究院(NIH)同行评审专家不可或缺的工具,用来辅助翻阅厚厚的研究提案和起草评审意见。其他听众表示认可,他们认为ChatGPT是一个重要的时间节省工具:起草一份评审意见可能只需要将提案的部分内容(例如摘要、目标和研究战略)粘贴到AI中,并要求其评估信息。
然而,NIH和其他资助机构正在禁止这种方法。6月23日,NIH禁止使用像ChatGPT这样的在线生成式人工智能工具“进行同行评审评论的分析和制定” - 这可能在一定程度上受到了匹兹堡大学的西格尔及其同事的一封信的影响。会后,他们警告该机构,允许ChatGPT撰写资助评审意见是“危险的先例”。类似地,澳大利亚研究委员会(ARC)在得知评审意见似乎是由ChatGPT撰写后,于7月7日禁止使用生成式人工智能进行同行评审。
其他机构也在制定应对措施。一位发言人表示,美国国家科学基金会已经成立了一个内部工作组,研究AI是否可以作为论文价值审查过程的一部分,并且是否需要“防范措施”。欧洲研究委员会也预计将讨论关于AI用于撰写和评估提案的问题。
ChatGPT和其他大型语言模型在庞大的信息数据库上进行训练,以生成看似由人类编写的文本。这些机器人已经促使关注伦理和事实准确性的科学出版商限制其用于撰写论文。包括《科学》杂志在内的一些出版商和期刊也禁止评审员使用它们。
对于资助机构来说,保密是最令人担忧的问题。当提案的部分内容被输入在线AI工具时,这些信息将成为其训练数据的一部分。NIH在其通知中表示,其担心“数据将来会被发送、保存、查看或用于何处”。
批评者还担心,由AI撰写的评论可能会出现错误(众做周知,这些机器人会编造虚假信息),由于它们来源于现有信息,可能会对非主流观点有偏见,并且缺乏推动科学创新的创造力。NIH官员在博客上写道:“NIH重视的思维独创性在这一过程中丧失并被同质化,甚至可能构成抄袭。”对于期刊来说,评审员的责任也是一个令人担忧的问题。IOP 出版社的同行评审负责人金·埃格尔顿(Kim Eggleton)表示:“无法保证(评审员)理解或同意他们所提供的内容。”在澳大利亚,一名研究人员运营的匿名Twitter账号(ARC_Tracker)报告称,一些科学家收到了似乎是由ChatGPT撰写的评论,一周后,ARC禁止评审员使用生成式人工智能工具。该账号表示,当他们将提案的部分内容粘贴到ChatGPT中时得到了类似的评价,并且有一个评审甚至包含一个线索,即出现在ChatGPT回应的末尾的“重新生成回应”字样。ScienceInsider确认了账号ARC_Tracker运营人员的身份,但同意其匿名,以便这位科学家和其他人可以自由地批评ARC和政府政策,而无需担心后果。
ARC_Tracker运营人员表示,科学家可能认为ChatGPT提供了有意义的反馈,但它实质上只是重复了提案内容。不可否认,一些人类评论员也会这样做。但是,该科学家在给ScienceInsider的电子邮件中写道:“适当的评论与仅仅对提案中已有内容进行概述之间有很大的区别,适当的评论应该提供深刻见解、批判、明确的意见和专业评估。”
然而,一些研究人员表示,AI提供了改进同行评审过程的机会。爱荷华大学的精神遗传学家杰克·迈克尔森(Jake Michaelson)表示,NIH的禁令是对“技术恐惧症对积极变革机会的退缩”。评审员可以使用这些工具检查他们的评论,看看他们是否忽略了提案中的某些内容,帮助他们评估自己领域之外的工作,并修正他们没有意识到的“琐碎甚至是恶意”的语言。迈克尔森补充道:“最终,我认为AI将成为同行评审过程的第一线,人类专家将对第一线的AI评审进行补充...我宁愿让ChatGPT-4审查我的提案,而不是一个懒惰的人类评审员。”
这个领域可能会随着时间的推移而发生变化。一些科学家在NIH的博客上指出,一些生成式AI模型可以离线工作,不会违反保密性 - 至少消除了这种担忧。NIH回应称,它希望为将“迅速发展的领域”“提供额外的指导”。西北大学的伦理博士后研究员穆罕默德·侯赛因(Mohammad Hosseini)曾撰文讨论过AI在手稿审查中的应用,他认为NIH的禁令是合理的:“考虑到NIH所处理问题和项目的敏感性,以及AI工具的新颖性,采用谨慎和审慎的方法是绝对必要的。”