人工智能解决方案已在投稿初审阶段发挥了重要角色,有效筛选出存在明显错误或信息缺失的论文。近期,大型语言模型(LLM)如ChatGPT作为自然语言处理领域的强大工具,引发了对其在学术期刊同行评议中的潜在应用的探讨。本文旨在深入探讨使用LLM进行同行评审报告的各类观点。
在前GPT3时代
一组作者专门开发了一种人工智能工具,通过实验研究来评估该工具在期刊稿件质量评估和同行评审过程中与人类决策的接近程度。Checco等人(2021年)在报告结果时指出:"机器学习技术本质上是保守的,因为它们是用过去的数据训练出来的。"他们进一步提出,将此类工具用于实际的同行评议可能会"导致意想不到的后果,例如构建有偏见的规则,以及对代表性不足的群体或个人的消极待遇。"
利弊分析
Hosseini和Horbach(2023年)对LLM在出版过程中的应用进行了详细研究。他们发现,尽管LLM可以用于总结同行评审报告和草拟编辑决策,但它们也可能"加剧同行评审制度的现有挑战,如虚假同行评审,因为它们使欺诈者能够创建更独特、写得更好的评审。"他们还指出,"LLM目前仍处于早期发展阶段,似乎更适合于改进综述初稿,而不是从头开始撰写综述。"因此,他们强烈建议期刊编辑和同行评审专家在决定是否以及如何在稿件处理过程中使用LLM时,要全面披露。
同行评审中强烈反对大型语言模型的案例
Donker(2023年)在《柳叶刀传染病》杂志上发表的一篇文章中分享了他使用LLM生成同行评议报告的经历。他发现,人工智能生成的同行评审报告包含了许多看似真实但实际与被评审稿件无关的评论。他强烈建议不要在同行评审中使用LLM,称:"编辑应确保审稿报告中的评论与相关稿件有实质性的关联,作者应准备质疑审稿人看似无关的评论,最重要的是,审稿人应避免使用LLM工具。"
期刊和出版商的看法
2023年4月,一位社会科学研究者在其论文的人工智能生成的同行评审中揭示了他在一份未指名的Emerald期刊上发布的文章的作者和论文都是虚构的。一位不愿透露姓名的Emerald出版社发言人在《泰晤士报高等教育》中表示:"Emerald出版社的期刊的审稿人不应使用ChatGPT和其他人工智能工具。与作者身份一样,人工智能工具/LLM不应取代依赖人类学科专业知识和批判性评估的同行评审过程。"
ICCV 2023会议的项目主席在反对同行评审中使用LLM的立场上更加坚定。他们的同行评审指南明确指出:"利用大型语言模型(如ChatGPT)自动生成的非评审者个人意见的评审报告是不道德的。"他们要求每位审稿人确认,他们的每份审稿都反映了他们的原始观点,报告中没有任何部分是自动生成的。
然而,有些期刊仍保持中立立场。2023年4月,《Arthritis Care & Research》和《Arthritis & Rheumatology》期刊同时发表的一篇社论中指出:"虽然我们并不期望用LLM取代人类的同行评审员,但我们将关注这类工具是否能成为一种有用的辅助工具。"
总之,随着学术出版需求的不断发展,将LLM纳入同行评审流程对于提高评审者的效率和生产力具有巨大吸引力。然而,鉴于LLM的当前阶段,出于道德考虑和对人类判断的需求,我们必须谨慎行事。随着更新、更复杂的LLM的开发,它们可能成为同行评审过程中的宝贵助手,充当第二双眼睛,保留人类专业知识的精髓,同时消除重复的写作任务。