《学术厨房》(The Scholarly Kitchen)2023年9月14日发表文章指出,人工智能(AI)系统存在误判风险,即完全无辜的学生被指控作弊。机构和出版商需要认真对待这一风险,并认识到检测系统可能并非无懈可击。以下是文章内容:
用AI检测工具能否维护科研诚信
最近,AI技术在写作领域的发展突飞猛进,导致AI检测器在学术界的兴起和普及。这些检测器承诺通过打击抄袭和AI生成的内容,成为学术诚信的守门人。雄心壮志固然崇高,但在实际应用过程中却出现了不少重大缺陷。创建AI检测工具的基本假设似乎是,AI写作应该能够像检测抄袭一样被检测出来。然而,这两者之间有一个关键区别:剽窃只是为了寻找与现有作品完全匹配的作品,这是一个可以识别、测量和复制的客观标准。而AI写作本身就是原创的(即使取材于非原创的来源),不容易追溯其来源。我之所以反对学术出版商依赖检测工具,既有实用主义方面的原因,也有意识形态方面的原因。让我们先来谈谈实用性问题。
(1)假阳性问题
大型语言模型从人类写作输入中学习,其输出结果与人类写作相似。早在ChatGPT推出时,生成式AI就已经可以成功模仿人类写作。量化特定文档中人类和AI各自的成分具有挑战性,而且很多时候作者会将自己的文字与AI工具建议的文字混杂在一起。AI检测器的缺陷越来越明显,因为它们经常会误判真正的人工生成内容。研究表明,错误率高达9%,甚至更高,这个数字实在太高,让人难以接受。一个值得注意的案例是,一个AI工具将美国宪法标记为AI制作的,这一误报凸显了这些检测器的明显缺陷。Turnitin 在最近的一段视频中坦率承认,他们的AI检测软件应该被“谨慎对待”。此外,他们还表示,对于AI所生成的内容,教师需要“做出最终解释”。
这不正是教师们最开始使用这些工具的初衷吗?各大学开始意识到这些使用的影响,并开始采取行动,建议他们的教师不要使用这些工具。在范德堡大学发布的一份指导报告中,他们指出剽窃软件供应商 Turnitin 在推出AI检测工具时,最初声称其AI作品的阳性率为1%,但后来经过更广泛的使用和测试,阳性率提高到了4%。即使这些数字有所提高,但对于居心不良的作者来说,通过将AI输出内容再用软件进行转译,以去除原文痕迹也并非难事。OpenAI 就关闭了一个试图检测自己输出结果的项目!许多大学已经改弦更张,正在寻找替代政策。
(2)错误指控的附带损害
AI检测器的谬误会带来现实世界的后果。分布式AI研究所(DAIR)创始人兼执行董事 Timnit Gebru 最近分享了她收到的一封令人痛心的电子邮件,其中一位作家被不公正地指控使用了AI。此类事件会给研究人员造成不必要的精神痛苦,并有可能玷污其职业声誉。其连锁反应可能导致不信任、怀疑和学术生涯的脱轨,更不用说漫长的法律诉讼了。更糟糕的是,与母语为英语的同行相比,这些检测器更倾向于将英语为第二语言(EAL)的作者的作品标记为AI生成的。任何出版商都不应该冒着进一步嵌入对EAL作者的偏见和歧视的风险。
为什么我们再次要禁止使用AI辅助写作?
学术出版应该谨慎地采用AI检测工具,原因不仅仅是研究完整性。虽然大多数出版商可能不愿意出版明显由ChatGPT生成的研究,但采用AI检查器作为标准的政策也在传达一种教育和价值观,即我们如何看待生成性AI在表达学术成果中的使用。除了在学术写作中拒绝AI工具外,如果我们将它们用作教育工具和为EAL学者创造公平竞争环境的手段呢?耶鲁大学(Yale University)等机构正在开创性地利用AI来强化写作过程。沃顿商学院的Ethan和Lilach Mollick夫妇为课堂设计了一整套在线实用AI课程,包括如何将GPT整合到作业中。这些进步突显了一条可能的道路,即AI在学术写作中的辅助作用而不是阻碍作用。
结论
虽然将AI检测器集成到学术评论中的动机是善意的,但它们所带来的挑战需要采取不同的方法。学术出版业必须保持警惕,权衡潜在的隐患与前景,探索如何将AI和谐地融入学术文献中。