2022年11月底,OpenAI发布了一款聊天机器人:ChatGPT。ChatGPT是一种由人工智能(AI)驱动的工具,可以理解和生成类似人类语言习惯的文本。至今为止,它已经升级到了ChatGPT-4架构,可以用文字方式与用户互动,还可以用于处理相对复杂的工作,并且能够通过强化训练不断学习。
如今,已有研究者利用ChatGPT进行科学论文的撰写,但并不是所有文章都会承认ChatGPT提供的帮助。那么,研究者在论文生成过程里使用ChatGPT,但却不在文章中披露,这一行为会被发现吗?
一篇论文的构成有两位科学家做过一个尝试:在ChatGPT的帮助下,不到一个小时的时间就发表了一篇研究论文,这篇文章流畅,有见地,并以科学论文的预期结构呈现出来。但在该工具真正有用之前,仍然有许多障碍需要克服。
研究人员设计了一个软件包,可以自动向ChatGPT提供提示,并基于其响应随着时间的推移不断改进论文。这种自主数据到论文系统,引导聊天机器人完成了一个反映科学过程的分步过程——从最初的数据探索到编写数据分析代码和解释结果,再到撰写精美的手稿。
为了测试他们的系统,研究人员从美国疾病控制和预防中心的行为风险因素监测系统下载了一个公开的数据集,这是一个与健康相关的电话调查数据库。该数据集包括从25万多人那儿收集到的数据,主要关于其糖尿病状况、水果和蔬菜消费以及身体活动的信息。人工智能聊天机器人ChatGPT一直是制作研究论文的助手。图片来源:Ascannio/Shutterstock
首先,系统要求ChatGPT编写数据探索代码。在第一次尝试时,聊天机器人生成的数据探索代码充满了错误并且不起作用。但当团队的系统检测到这些错误时,它会自动向ChatGPT发送提示,接着ChatGPT会修复代码。
接下来,研究人员的这一系统促使ChatGPT制定一个研究目标。ChatGPT建议探索体力活动和饮食如何影响糖尿病风险。然后,研究人员继续要求ChatGPT创建一个数据分析计划和数据分析代码,并根据该代码的输出给出结果。ChatGPT很好地完成了这一任务,并得到结论:多吃水果和蔬菜以及锻炼与降低患糖尿病的风险有关。
有了结果,系统就进一步指导ChatGPT撰写论文。它打开了两个ChatGPT对话。在其中一个例子中,该工具告诉聊天机器人它是一位科学家,并指示它撰写论文的每个部分。第二个ChatGPT则扮演审阅者的角色,为“科学家”版本的聊天机器人生成的文本提供建设性反馈。
生成式人工智能工具的一个常见问题是它们倾向于通过编造东西来填补空白,这种现象被称为幻觉。为了帮助解决伪造参考文献的可能性,该团队允许ChatGPT访问文献搜索引擎,以便它可以生成具有正确引用的论文。
ChatGPT生成了一份清晰的手稿和可靠的数据分析。但这篇论文并不完美。例如,耶路撒冷希伯来大学计算机科学家Tom Hope表示,该研究“解决了文献中的一个空白”——这句话在论文中很常见,但在本例中并不准确。他说,这一发现“不会让任何医学专家感到惊讶”。
研究人员还担心,此类工具可能会让研究人员更容易从事P-hacking等不诚实行为,即科学家在数据集上测试多个假设,但只报告那些产生显著结果的假设。他补充说,另一个担忧是,使用生成式人工智能工具生成论文的便利性可能会导致期刊充斥着低质量的论文。
尽管该团队的数据到论文方法展示了如何自主生成论文,但它也是专门设计用于创建论文来解释ChatGPT实现这一目标所采取的步骤,这意味着研究人员可以理解、检查和复制这些方法和研究结果。
南澳大利亚大学开发人工智能教育技术的Vitomir Kovanovi?表示,研究论文中需要提高人工智能工具的可见度,否则将很难评估研究结果是否正确。“如果制造假论文如此容易,我们将来可能需要做更多的事情。”
马萨诸塞州剑桥市麻省理工学院和哈佛大学博德研究所的计算生物学家 Shantanu Singh 表示,生成式人工智能工具有潜力通过执行简单但耗时的任务(例如编写摘要和生成代码)来加速研究过程,它们可能用于从数据集生成论文或提出假设。但由于研究人员很难发现幻觉和偏见,Singh 说,“我认为写一整篇论文——至少在可预见的未来——不会有特别好的用途。”
没有披露AI帮助的手稿,正从同行评审员手中溜走8月9日,《Physica Scripta》杂志发表了一篇论文,旨在发现复杂数学方程的新解。这似乎是真的,但科学侦探Guillaume Cabanac在手稿的第三页上发现了一个奇怪的短语:“Regenerate response”。
该短语是ChatGPT上按钮的标签。法国图卢兹大学的计算机科学家Cabanac立即在PubPeer(科学家们讨论已发表研究的网站)上发布了相关页面的屏幕截图。一些研究人员正在使用ChatGPT撰写论文,但没有透露它。图片来源:Jonathan Raa/NurPhoto via Getty
英国布里斯托尔《Physica Scripta》出版商IOP Publishing的同行评审和研究诚信负责人Kim Eggleton表示,作者后来向期刊证实,他们使用ChatGPT来帮助起草手稿。在两个月的同行评审(论文于5月提交,修改版于7月发送)或排版过程中并未发现异常情况。出版商现已决定撤回该论文,因为作者在提交时没有声明他们使用了该工具。
“这违反了我们的道德政策,”Eggleton说。伊斯坦布尔比鲁尼大学和贝鲁特黎巴嫩美国大学联合任职的Abdullahi Yusuf是通讯作者,但目前还没有回应《Nature》杂志的置评请求。
“冰山一角”这并不是ChatGPT协助的手稿未经声明就溜进同行评审期刊的唯一案例。
自4月以来,Cabanac标记了十几篇包含泄露ChatGPT短语“重新生成响应”或“作为人工智能语言模型,我……”的期刊文章,并将它们发布在PubPeer上。今年早些时候,ChatGPT的“重新生成响应”按钮在工具更新中更改为“重新生成”。
包括Elsevier和Springer Nature在内的许多出版商都表示,作者可以使用ChatGPT和其他大型语言模型(LLM)工具来帮助他们制作稿件,只要他们声明即可。(《Nature》杂志的新闻团队在编辑上独立于其出版商Springer Nature。)
搜索关键短语只会发现ChatGPT的原始而未声明的标记,其中作者忘记编辑掉明显的迹象。因此,使用未公开使用了ChatGPT的文章可能要多得多。“这只是冰山一角,”Cabanac说。
Cabanac在Elsevier期刊上发表的一些论文中检测到了典型的ChatGPT短语。最新的一篇论文于8月3日发表在《Resources Policy》上,探讨了电子商务对发展中国家化石燃料效率的影响。Cabanac注意到论文中的一些方程没有意义,但在表格上方的话语暴露出了真相:“请注意,作为人工智能语言模型,我无法生成特定的表格或进行测试……”
Elsevier发言人告诉《Nature》杂志,出版商“意识到了这个问题”并正在调查。该论文的作者分别来自中国沈阳的辽宁大学和北京的中国国际贸易经济合作研究院,他们没有回应《Nature》杂志的置评请求。
令人毛骨悚然的流畅性论文全部或部分由计算机软件撰写,但作者没有披露这一事实,并不是什么新鲜事。
然而,总部位于伦敦的英国研究诚信办公室的研究诚信经理Matt Hodgkinson表示,它们通常包含微妙但可检测的痕迹,例如特定的语言模式或误译的“折磨短语”,这些痕迹将它们与人类书写的对应物区分开来。但Hodgkinson表示,如果研究人员删除了ChatGPT样板短语,那么更复杂的聊天机器人的流畅文本“几乎不可能”被发现。“这本质上是一场军备竞赛,”他说,“骗子与试图将他们拒之门外者之间的较量”。
Cabanac和其他人还在同行评审的会议论文和预印本(未经同行评审的手稿)中发现了ChatGPT的未公开使用。当这些问题在PubPeer上提出时,作者有时承认他们使用了ChatGPT来帮助创作。
加利福尼亚州旧金山的微生物学家兼独立研究诚信顾问Elisabeth Bik表示,ChatGPT和其他生成性人工智能工具的迅速崛起将为论文工厂提供燃料——这些公司为希望提高出版产量的研究人员制作和销售假手稿。“这将使问题变得更糟一百倍,” Bik说,“我非常担心,已经涌入了大量我们甚至不再认识的论文。”
极限拉扯期刊中未公开的法学硕士论文问题指出了一个更深层次的问题:时间紧张的同行评审员通常没有足够时长来彻底检查稿件是否存在危险信号。David Bimler以笔名Smut Clyde发现了假论文。“整个科学生态系统要么出版,要么灭亡,”前新西兰北帕默斯顿梅西大学的退休心理学家Bimler说,“看门人的数量跟不上。”
Hodgkinson表示,ChatGPT和其他LLMs倾向于吐出虚假参考文献,这可能是同行评审员寻找手稿中使用这些工具的一个信号。“如果参考文献不存在,那就是一个危险信号,”他说。例如,Retraction Watch网站报道了使用ChatGPT编写的有关千足虫的预印本;该作品引用的一位研究人员发现了它,并注意到其引用是假的。
哥本哈根国家血清研究所的微生物学家Rune Stensvold遇到了虚假参考文献的问题,当时一名学生向他索要一篇论文的副本,ChatGPT说是Stensvold在2006年与他的一位同事共同撰写的。但实际上根本不存在这篇论文。然后,当该学生要求人工智能聊天机器人推荐有关芽囊菌(一种肠道寄生虫属)的论文,聊天机器人却拼凑了一篇假的、带有Stensvold名字的参考文献。“它看起来很真实,” Stensvold说,“它告诉我,当我要审阅论文时,我可能应该首先查看参考文献部分。”