施普林格·自然(Springer Nature)于2023年1月24日在《自然》发表社论称:“随着研究人员进入先进的人工智能聊天机器人新世界,出版商需要承认它们的合法用途,并制定明确的指导方针以避免滥用。”
社论中指出,近几年来,人工智能(AI)正在获得生成流畅语言的能力,一些科学家已经在使用聊天机器人作为研究助手,帮助组织他们的思维、对他们的工作产生反馈、协助编写代码和总结研究文献。但2022年11月发布的人工智能聊天机器人ChatGPT将大型语言模型(Large Language Models,LLMs)带给了大众,它的开发者——加州旧金山的OpenAI让不具备技术专长的人也能轻松使用。数以百万计的人正在使用它,其结果是有趣的,但有时也是可怕的——写作实验的爆炸性增长,使人们对这些工具越来越感到兴奋和不安。
ChatGPT可以写出可观的学生作文,总结研究论文,很好地回答问题以通过医学考试,并生成有用的计算机代码。它产生的研究摘要足够好,以至于科学家们很难发现其出自AI。对社会来说,令人担忧的是它也可能使垃圾邮件、勒索软件和其他恶意输出更容易产生。尽管OpenAI试图为聊天机器人的行为设置护栏,但用户已经找到了绕过护栏的方法。
研究界最大的担忧是学生和科学家可以欺骗性地把LLM写的文本当作自己的文本,或者以简单化的方式使用LLM(比如进行不完整的文献综述),产生不可靠的工作。有几篇预印本论文和已发表的文章已经将ChatGPT署名为正式作者。
社论指出:“现在是研究人员和出版商制定关于以道德方式使用LLM的基本规则的时候了。”Springer Nature旗下期刊在其作者指南中制定了以下两条原则:
(1)任何LLM工具都不会被接受为研究论文的署名作者。这是因为任何作者的归属都伴随着对工作的责任,而AI工具不能承担这种责任。
(2)使用LLM工具的研究人员应该在方法或致谢部分记录这种使用。如果论文不包括这些部分,可以用引言或其他适当的部分来记录LLM的使用。
目前,ChatGPT的原始输出经仔细检查是可以发现的,特别是当涉及几个段落以上,并且主题与科学工作有关时。这是因为LLMs根据其训练数据中的统计关联和所看到的提示产生单词模式,这意味着其输出可能看起来平淡无奇,或者包含简单的错误。此外,他们还不能引用来源以记录他们的输出。但在未来,AI研究人员可能会解决这些问题,例如,已经有一些实验将聊天机器人与来源引用工具联系起来,还有一些实验在专门的科学文本上训练聊天机器人。
因此,《自然》社论认为,编辑和出版商并不能确保检测出LLM产生的文本。一些工具承诺可以发现LLM产生的输出,Springer Nature也在开发这方面的技术,但是,LLMs将得到改善,而且很快。人们希望LLM的创造者能够以某种方式为其工具的输出内容打上水印,尽管这在技术上可能也不是万无一失。
社论指出,从最早期开始,无论哪种技术流行,科学的运作都是方法和证据的公开和透明。研究人员应该扪心自问,如果他们或他们的同事使用的软件从根本上是不透明的,那么产生知识的过程所依赖的透明度和信任度如何能够得到维持?
这就是《自然》制定上述规则的原因:最终,研究必须有方法的透明度,以及作者的诚信和真实,这毕竟是科学赖以进步的基础。