人工智能(Artificial Intelligence,AI)正对包括学术出版在内的多个行业产生巨大影响。今年同行评议周的主题聚焦于“如何在AI时代重新思考同行评议”。PLOS出版商正在仔细考虑,如何在不损害研究诚信的前提下利用AI优化同行评审。
当前学术出版界的通用标准是作者可在稿件准备阶段使用生成式人工智能,但需遵守若干限制条件。然而,同行评议环节对AI的使用却有着严格限制。许多期刊的政策明确规定,编辑与评审人不得将稿件内容上传至生成式人工智能工具;部分期刊,如Science,完全禁止在同行评议中使用生成式人工智能,另有一些期刊,如PLOS、Wiley,则允许特定AI使用场景,例如用AI翻译或编辑自身的评审意见。
为何标准存在差异?限制或禁止在同行评议中使用AI的政策,旨在减轻编辑或审稿人使用生成式人工智能可能带来的风险,如:降低未发表内容和敏感数据的机密性、评估过程缺乏严谨性和针对性、对生成式人工智能输出内容及同行评议贡献者进行欺诈性虚假陈述;助长并加速同行评议操纵行为。
尽管如此,期刊与出版商仍在探索内部AI工具在同行评议中的应用。“内部使用(期刊工作人员使用)”与“外部使用(学术编辑与评审人使用)”的一个关键区别在于,期刊可以在受控的技术环境中部署内部工具以保护数据安全,从而确保机密内容不会被吸收进训练集,进而影响其他用户的输出。
当数据安全措施到位后,AI有助于提高期刊执行其标准和政策的一致性。例如,AI能检测并生成评审报告,对诸如不完整、不可验证或已撤稿的参考文献、有问题的统计分析以及未遵守数据可用性和预注册要求等问题提出质疑。人类审稿人在处理这类直接影响研究诚信和可重复性的问题时,其关注程度往往不一致。
尽管AI在支持同行评议方面有不错的应用场景,但人类在提供严谨的内容评估方面仍然不可或缺。生成式AI检测并汇总已有的内容,而人类则进行创新和评估。我们引入新的思想和视角,带来创造力、好奇心和智慧,并能够基于跨越多个领域的知识进行综合、情境化、解释和批判。简而言之,机器还远未能复制人类的认知,因此人类能够以机器无法做到的方式参与同行评议和科学讨论。实际上,这意味着人类能够识别出机器阅读或算法无法发现的、但对科学有效性和诚信至关重要的问题。
迈向“人机结合”的同行评议模式,仍有望缓解同行评议中已知的痛点,如学术人员承担的繁重评审负担,以及评审周期过长的问题。若AI负责评审中的技术层面工作,或许我们就能减少评审人员数量,让剩余评审人员专注于人类独特执行功能的环节。作为此模式的概念验证,在2025年同行评议大会上的一场演讲讨论了一项由《NEJM AI》提供的“快速通道”同行评议服务,该服务仅基于编辑对稿件的评估和两份AI生成的审稿报告,在投稿后一周内做出决定。
尽管一周内出结果的效率颇具吸引力,但同行评议中至少应纳入2名专家(无论是作为编辑还是评审人),理由如下:作者和文章受益于反映不同视角的评估;通常需要多个人来覆盖进行严格评估所需的主题内容和方法学专业知识;让两个或更多人参与同行评议也能增加识别出任何重大科学和诚信问题的可能性,并能从整体上提升出版物和期刊的可信度;为作者、期刊及更广泛的社群提供了一定程度的保护,使其免受可能损害同行评议的问题影响,例如个人偏见、利益冲突、低质量的评估,以及为个人利益不道德地(滥)用同行评议。
AI时代已然来临,出版商与研究人员将继续探索其应用场景,但在同行评议的每一个环节,都必须保持谨慎并审慎考量。归根结底,AI永远无法取代人类的专业知识与判断。