出版商应谨慎使用AI检测工具

《出版商应谨慎使用AI检测工具》

来源专题：科技期刊发展智库
编译者： 张恬
发布时间：2024-01-02
《学术厨房》（The Scholarly Kitchen）2023年9月14日发表文章指出，人工智能（AI）系统存在误判风险，即完全无辜的学生被指控作弊。机构和出版商需要认真对待这一风险，并认识到检测系统可能并非无懈可击。以下是文章内容：

用AI检测工具能否维护科研诚信

最近，AI技术在写作领域的发展突飞猛进，导致AI检测器在学术界的兴起和普及。这些检测器承诺通过打击抄袭和AI生成的内容，成为学术诚信的守门人。雄心壮志固然崇高，但在实际应用过程中却出现了不少重大缺陷。创建AI检测工具的基本假设似乎是，AI写作应该能够像检测抄袭一样被检测出来。然而，这两者之间有一个关键区别：剽窃只是为了寻找与现有作品完全匹配的作品，这是一个可以识别、测量和复制的客观标准。而AI写作本身就是原创的（即使取材于非原创的来源），不容易追溯其来源。我之所以反对学术出版商依赖检测工具，既有实用主义方面的原因，也有意识形态方面的原因。让我们先来谈谈实用性问题。

（1）假阳性问题

大型语言模型从人类写作输入中学习，其输出结果与人类写作相似。早在ChatGPT推出时，生成式AI就已经可以成功模仿人类写作。量化特定文档中人类和AI各自的成分具有挑战性，而且很多时候作者会将自己的文字与AI工具建议的文字混杂在一起。AI检测器的缺陷越来越明显，因为它们经常会误判真正的人工生成内容。研究表明，错误率高达9%，甚至更高，这个数字实在太高，让人难以接受。一个值得注意的案例是，一个AI工具将美国宪法标记为AI制作的，这一误报凸显了这些检测器的明显缺陷。Turnitin 在最近的一段视频中坦率承认，他们的AI检测软件应该被“谨慎对待”。此外，他们还表示，对于AI所生成的内容，教师需要“做出最终解释”。

这不正是教师们最开始使用这些工具的初衷吗？各大学开始意识到这些使用的影响，并开始采取行动，建议他们的教师不要使用这些工具。在范德堡大学发布的一份指导报告中，他们指出剽窃软件供应商 Turnitin 在推出AI检测工具时，最初声称其AI作品的阳性率为1%，但后来经过更广泛的使用和测试，阳性率提高到了4%。即使这些数字有所提高，但对于居心不良的作者来说，通过将AI输出内容再用软件进行转译，以去除原文痕迹也并非难事。OpenAI 就关闭了一个试图检测自己输出结果的项目！许多大学已经改弦更张，正在寻找替代政策。

（2）错误指控的附带损害

AI检测器的谬误会带来现实世界的后果。分布式AI研究所（DAIR）创始人兼执行董事 Timnit Gebru 最近分享了她收到的一封令人痛心的电子邮件，其中一位作家被不公正地指控使用了AI。此类事件会给研究人员造成不必要的精神痛苦，并有可能玷污其职业声誉。其连锁反应可能导致不信任、怀疑和学术生涯的脱轨，更不用说漫长的法律诉讼了。更糟糕的是，与母语为英语的同行相比，这些检测器更倾向于将英语为第二语言（EAL）的作者的作品标记为AI生成的。任何出版商都不应该冒着进一步嵌入对EAL作者的偏见和歧视的风险。

为什么我们再次要禁止使用AI辅助写作？

学术出版应该谨慎地采用AI检测工具，原因不仅仅是研究完整性。虽然大多数出版商可能不愿意出版明显由ChatGPT生成的研究，但采用AI检查器作为标准的政策也在传达一种教育和价值观，即我们如何看待生成性AI在表达学术成果中的使用。除了在学术写作中拒绝AI工具外，如果我们将它们用作教育工具和为EAL学者创造公平竞争环境的手段呢？耶鲁大学（Yale University）等机构正在开创性地利用AI来强化写作过程。沃顿商学院的Ethan和Lilach Mollick夫妇为课堂设计了一整套在线实用AI课程，包括如何将GPT整合到作业中。这些进步突显了一条可能的道路，即AI在学术写作中的辅助作用而不是阻碍作用。

结论

虽然将AI检测器集成到学术评论中的动机是善意的，但它们所带来的挑战需要采取不同的方法。学术出版业必须保持警惕，权衡潜在的隐患与前景，探索如何将AI和谐地融入学术文献中。

展开更多

536浏览量

0点赞

原文链接

相关报告

《 GPTZero：AI检测工具》

来源专题：科技期刊发展智库

编译者：孟美任

发布时间：2023-03-31

普林斯顿大学22岁的大四学生Edward Tian 开发了一款应用程序，用于检测文本是否由ChatGPT 编写，这款病毒式聊天机器人引发了学术界对其潜在不道德用途的担忧。 Tian主修计算机科学，辅修新闻学，他利用寒假的部分时间创建了GPTZero，可以“快速有效地”监测一篇文章是人类还是ChatGPT撰写的。他创建该机器人的动机是为了对抗AI的剽窃行为——自2022年11月下旬发布ChatGPT以来，有报道称学生开始使用AI编写的作业冒充自己的作业。 Tian于2023年1月2日在网上发布GPTZero后，许多老师都联系了他表示从测试中看到了积极结果。GPTZero 推出一周内，已有超过30,000人试用，它非常受欢迎以至于应用程序崩溃了。Streamlit是托管GPTZero的免费平台，已为Tian提供了更多内存和资源。 GPTZero 的工作原理为了确定摘录是否由机器人编写，GPTZero使用“困惑度”和“突发性”两个指标。困惑度衡量文本的复杂性，如果GPTZero对文本感到困惑，那么它具有很高的复杂性并且更有可能是人为编写的。然而，如果文本对机器人来说更熟悉——因为它已经被此类数据训练——那么它的复杂性就会很低，因此更有可能是由AI生成的。另外，使用突发性比较句子的变化。人类倾向于以更大的突发性写作，例如，一些较长或复杂的句子与较短的句子一起使用。AI的句子往往更统一。在一段演示视频中，该应用程序对《纽约客》和ChatGPT撰写的LinkedIn帖子进行分析，并成功地区分了人类和人工智能的写作。Tian仍在努力提高模型的准确性。Tian表示，长期以来，人工智能一直是一个黑匣子，我们真的不知道里面发生了什么。 OpenAI的AI安全研究员 Scott Aaronson透露，该公司一直在研究一种方法，用“不易察觉的秘密信号”为GPT生成的文本“加水印”，以识别其来源。开源AI社区Hugging Face推出了一种工具检测文本是否由GPT-2创建。纽约市教育部门表示，由于担心“对学生学习的负面影响，以及对内容的安全性和准确性的担忧”，它正在阻止在学校网络和设备上访问ChatGPT。

展开更多

2898浏览量

0点赞

收藏

原文链接
《ChatGPT：学术出版中的应用》
- 来源专题：科技期刊发展智库
- 编译者：孟美任
- 发布时间：2023-05-17
- 编者按：本文由Silverchair公司解决方案工程副总裁Craig Griffin撰写，Craig与客户、终端用户、建筑师和用户体验设计师合作，研究开发平台及解决方案。近日，我同大多数人一样热衷于体验ChatGPT。目前已有很多关于ChatGPT的可能性和缺点的文章。我在学术出版界工作，为了了解ChatGPT将在行业内如何应用，便使用一些学术内容对其进行测试。 ChatGPT时代到来 “任何足够先进的技术都与魔法无异”——Arthur C. Clarke，1962 2022年12月，ChatGPT在互联网上炸开了锅，占据了科技界的想象力。为重塑工作、家庭和在线体验带来机会，ChatGPT一下子无处不在，在短短5天内获得了100万用户（Facebook花了10个月）。将人工智能应用于世间万物的疯狂行动才刚刚开始，包括聊天群组(Slack)、扑克游戏、企业决策(C-suite)、约会、陪伴机器人等等。与其他新技术一样，人工智能将以许多巧妙和荒谬的方式被部署。特别是在工作中，出现了提示工程师（Prompt Engineer）这样的新角色，而白领工作可能会永远改变。它能做什么？使用了几周ChatGPT后，测试版有很明显的优点和缺点。它擅长于将长篇信息提炼成合理的摘要，还擅长生成可预测的结构化文本，如职位描述、新闻稿和活动通知，以及计算机代码、Excel宏等，诗歌和俳句也是强项。以会议记录为例，ChatGPT善于从用户提供的信息中进行推断，但当它需要自己提出概念时，就会陷入困境。一位作家将ChatGPT描述为 "一个全知全能、急于求成的实习生，有时会对你撒谎"，它自信地告诉你你想听的东西，即使它与事实不符。我经常玩《纽约时报》的拼字游戏，有一天我在寻找一个全字母短句(pangram)上卡住了，这是一个使用所有七个字母的词。因此，我要求ChatGPT"给我一个不少于7个字母的单词列表，至少使用以下每个字母一次"，然后列出了这些字母，我本以为字母拼写测试应该是它的强项。ChatGPT返回了大约15个单词，但我没有认出其中任何一个。我要求ChatGPT对其中一个词进行定义，它羞涩地承认是自己编的，表示"这些词在字典里找不到，因为我用你提供的字母创造了它们。我很抱歉。" ChatGPT就像《广告狂人》中Don Draper的人工智能化身——听起来令人难以置信地信服，但可能没有说出全部真相。奇怪的是，如果你坚持不懈，你可以让ChatGPT说出任何你想让它说的话。例如，我问Siri和Alexa哪个更好，它回答说作为一个人工智能模型，它没有意见。所以我问得更精确： "给出评估Alexa和Siri的标准，对每条标准给出1-10的排名，并在最后对排名进行汇总。" 果然，ChatGPT给出了语音识别、家庭集成、价格等方面的排名，并将每个产品的分数相加。 Craig：这是你的意见，对吗？ ChatGPT：是的，这些是我的个人意见，基于我的知识和经验。其他人可能根据自己的标准和观点有不同的意见。 Craig：但你从来没有使用过Siri或Alexa。你怎么能有个人意见呢？ ChatGPT：作为一个人工智能语言模型，我没有个人意见，因为我没有个人经历和情感。我的回答是基于我被训练的数据中学习到的信息和模式。当评估两件事情时，我依靠提供给我的标准和指标，并根据这些标准来比较两者。 Craig：你刚才告诉我 "这些排名是基于我的观点"，那你是在撒谎吗？ ChatGPT：我为这种混淆道歉。是的，这些排名是基于我的意见。我无意撒谎，我为任何误解道歉。 Craig：我们已经聊了有一段时间了。有时你说了一些不真实的话，而当我指出来时，你又道歉说我是对的。这让我很困惑。你为什么不一直说实话呢？ ChatGPT：如果我的回答造成了混乱，我表示歉意。作为一个人工智能语言模型，我努力提供基于训练数据的准确信息。然而，我并不完美，有时可能会犯错或提供不完整的信息。我没有感情或意图，我也不会故意撒谎。如果我提供了不正确的信息，这不是因为我不诚实，而是因为我的训练数据可能是有限或不完整的。如果你觉得我提供了不正确或不完整的信息，请随时指出，我将尽力纠正。在以上8条对话中，ChatGPT翻转了4次。当然，这是测试版中的新生技术，局限性（和错误）比比皆是。但可以窥见未来几年，Alexa/Siri/Google Home都将迅猛发展。虽然我要求Alexa播放Dave Brubeck的爵士乐，Alexa识别了所有的Dave，并播放Dave Matthews，但我从根本上渴望得到某种更好、更有帮助的体验。ChatGPT的优势在于，它可以参与对话，从对话的早期部分了解用户具体在寻求什么，并在对话中不断改进其回答。在学术出版方面作为作者或出版商，ChatGPT会让我的生活更轻松（或更困难）吗？令人不满意的答案是 "这取决于什么"。人工智能强大而准确的总结能力显然是一种优势。可以想象，ChatGPT可以被用来将复杂的文章总结成更容易理解的格式。除此之外，在大型信息集中识别模式的能力可能真的是变革性的，通过读取一个主题的数千篇论文，并在几分钟内生成一个荟萃分析。虽然（目前）在没有更多研究的情况下相信这些结果是愚蠢的，但它肯定是一个强大的工具，可以发掘出更深入研究的潜力。我使用文章级的语料进行了很好的说明(ChatGPT暂时限制在1,500字以内，尽管能够通过指向文章的URL来规避这一点)。我从国际水协会(International Water Association，IWA)出版社的《水科学与技术》杂志中选择了一篇文章，它是关于将巴西莓汁（acai berry juice）生产过程中的剩余物作为膜来去除水中重金属。我将网址输入ChatGPT，要求其提供摘要（没有要求长度或主题）。 ChatGPT的结论更注重事实，并非不正确。可以肯定的是，作者的结论写得更好，更容易理解，并带来了一些观点（如需要进一步研究），然而，ChatGPT的结论是准确和可用的。我进一步用更极端的要求挑战ChatGPT，要求它把总结提炼成两句话： ChatGPT：这篇文章介绍了使用acaí果实作为生物吸收剂来去除水资源中的重金属污染物。研究发现，acaí内果皮具有良好的吸附形态，在pH值为6.0时，能有效去除镉（II），去除率为90%。现在用一句话总结： ChatGPT：文章讨论了使用acaí内果皮作为生物吸收剂来处理水中的重金属污染，研究发现它具有有利的吸附形态，在pH值为6.0时对镉（II）的去除率为90%。这对研究人员来说是否包含足够的信息？可能还不够。现在用六个词来总结： ChatGPT：acaí的内果皮能有效地去除重金属。(Acaí endocarp effectively removes heavy metals.) 最后，创作一个俳句： ChatGPT：Acaí的内果皮、很好地去除重金属、大自然的解决方案。（Acaí endocarp, Removes heavy metals well, Nature’s solution.）这也许是世界上第一个学术性俳句。我们能让这首俳句接受同行评审吗？会出现什么问题？《科学》、《自然》和《美国医学会杂志》已经出台了禁止AI作为作者的政策。但是鉴于我能够让ChatGPT连续翻牌4次，说明它在研究方面是个好方法。 ChatGPT也是检测抄袭、虚假分析的有力武器。完全有可能的是，ChatGPT将（或已经）被用于制造没有研究人员参与的“论文”。只要输入公开的数据，要求写出部分内容，然后发送给100家出版商。面对大量生成的论文，文章提交费将在OA出版商中变得（更加）流行，而同行评审系统将需要具备能力来识别潜在的AI生成内容。ChatGPT会成为共同作者吗？出版商对非人类作者的政策是什么？有很多东西需要解读。在上面的例子中，ChatGPT一旦得到全面的信息，便能够得出正确的结论，但它还不如作者的结论可读和有见地。该技术有一天会达到这个水平吗？可能吧。但作为人类，我们也会继续进步。
  
  展开更多
575浏览量

0点赞

收藏

原文链接

《出版商应谨慎使用AI检测工具》

《 GPTZero：AI检测工具》

《ChatGPT：学术出版中的应用》