《人类能识别人工智能聊天机器人GPT的文字吗?——科学家们评估了人们对GPT 人工智能生成文本的识别能力》

  • 来源专题:科技期刊发展智库
  • 编译者: 张恬
  • 发布时间:2023-05-17
  • 强大的对话式人工智能(AI)聊天机器人的崛起,如OpenAI的生成式预训练模型(GPT),放大了对真实与虚假文本进行辨别的需求。一项新的同行评议研究评估了人类对OpenAI的GPT聊天机器人所产生的文本的识别能力。该项研究与已有的研究相比,具有更真实的场景。

    2023年2月,宾夕法尼亚大学工程与应用科学学院的研究人员在“第37届人工智能促进会会议”(AAAI Conference 2023)上展示了他们的研究。

    该研究小组——计算机和信息科学系(CIS)副教授Chris Callison-Burch及其团队(包括:Liam Dugan, Daphne Ippolito, Arun Kirubarajan等研究人员)在报告中指出:“一个日益增长的担忧是神经语言模型(LM)能够生成越来越自然的文本,行为不端者可能试图将自动生成的文本冒充为真实的文本。”

    研究人员指出,人工智能生成的虚假新闻文章和对产品和服务的欺诈性评论存在潜在的欺诈和错误信息传播的风险,“随着语言模型变得更好,部署成本更低,这些危害将不可避免地变得越来越普遍。”

    专业人士开始在工作中使用ChatGPT。2023年1月,由Fishbowl(2021年被Glassdoor收购的专业人士社交网络)对4500名专业人士进行的调查显示,27%的人已经使用ChatGPT来协助完成与工作有关的任务,使用率最高的是市场营销、广告和技术部门。受访者中包括在谷歌、推特、亚马逊、Meta、IBM、爱德曼、麦肯锡、摩根大通、耐克以及其他数千家公司工作的专业人士。

    研究人员写道:“随着大型语言模型生成的文本激增,了解人类如何接触这些文本,以及他们是否能够检测到他们正在阅读的文本并非源自人类作者,变得至关重要。”

    为了回答这个问题,该团队采取了一种独特的方法,他们没有测试人类是否能检测出整个段落是否由人工智能机器学习产生,而是采用了一种更细微的方法。超过240名研究参与者是在宾夕法尼亚大学学习人工智能课程的高年级本科生或研究生。

    该团队在报告中说:“在本文中,我们研究了一个更现实的环境,即文本开始是由人类书写的,并过渡到由最先进的神经语言模型生成。”

    为了实现对过渡点的检测,该团队试图测量人类在过渡点边界检测任务中的能力,而不是分类。通过这种方式,可以评估出各种生成系统的性能,并同时对人工智能模型的风险进行量化。

    该团队研究人员使用RoFT(Real or Fake Text,真实或虚假文本)收集人类注释,这是一个由该团队创建的工具,用于测量人类对人工智能生成的文本的检测,该工具在2020年自然语言处理经验方法会议中被展示。RoFT被设定为一个游戏,玩家每次看到一个句子,如果猜到该文本是人工智能生成的而不再是人类写的,就可以获得分数,然后选择一个他们做出这个决定的原因。

    RoFT使用的数据来自1987-2007年期间《纽约时报》发表的180万篇文章、1789-2015年期间美国总统的963次演讲、Reddit网站Writing Prompts版块中的短篇故Recipe1M+数据集(一个大规模结构化语料库,是最大的公开食谱数据集合)中的食谱,以及AI机器学习模型GPT2、GPT2-XL和CTRL。

    研究人员写道:“除了产生有价值的数据用于分析可检测性外,我们的研究是首次大规模尝试使用游戏化平台来分析生成文本的可检测性。”

    在超过7.8万个不同的游戏回合中,科学家们收集了超过4.2万个注释,这些注释经过进一步过滤,产生了一个最终的数据集,包括2.1万个注释。

    研究人员报告说:“我们发现玩家在过渡点边界检测任务方面明显优于随机机会,在23.4%的时间里正确选择边界句子(随机机会是10%)。对于至少有一个人工智能生成的句子的游戏回合,玩家有72.3%的时候选择了人工智能生成的句子作为边界句子。”

    研究人员发现玩家的技能水平差异很大,随着时间的推移,随着额外的指导和与他们的游戏分数成比例的额外学分,准确性会提高。阅读包含提示和示例的帮助指南是注释者最具预测性的功能。

    科学家们总结道:“研究表明,虽然注释者经常在这项任务中挣扎,但他们的技能有很大的差异,如果给予适当的激励,注释者可以随着时间的推移在这项任务上表现更好。

相关报告
  • 《学术出版商关于人工智能聊天机器人的政策:一项横断面调查》

    • 编译者:程冰
    • 发布时间:2025-10-20
    • 2025年2月,加拿大麦克马斯特大学健康科学学院的学者在Research Integrity and Peer Review期刊上发表研究,回顾了100多家出版商对AI聊天机器人政策的调研。【背景】人工智能(AI)聊天机器人是一种新型计算机程序,能够以自然语言形式生成文本或内容。学术出版商正在适应人工智能聊天机器机器人在产出或促进科学研究方面的变革性作用。本研究旨在调查科学、技术和医学学术出版商为界定和规范作者负责任地使用人工智能聊天机器人而制定的政策。【方法】本研究对国际科技医学出版商协会(STM)的 162 家学术出版商公开政策进行了横断面审计。所有STM学术出版商网页上公开政策的数据提取均由两人独立进行,并由第三位贡献者对内容分析进行审核(2023年9月至2023年12月)。数据被归类为政策要素,例如“校对”和“图像生成”。针对每个政策要素,统计了“是”(即允许)、“否”和“无可用信息”(NAI)的数量和百分比。【结果】在162家STM学术出版商中,共有56家(34.6%)制定了公开可查的政策,指导作者使用人工智能聊天机器人。没有政策允许人工智能聊天机器人(或其他人工智能工具)拥有作者身份。大多数(56 家中的49家,即87.5%)要求明确披露人工智能聊天机器人的使用。有四项政策/出版商完全禁止作者使用人工智能聊天机器人。【结论】截至2023年12月,只有1/3的STM学术出版商制定了公开可查的政策。在12-18个月后对所有STM成员进行重新审查,可能会发现更多学术出版商在人工智能聊天机器人使用方面采取了不断演进的方法。 所有相关的研究材料和数据均包含在本手稿中或发布在开放科学框架上:https://doi.org/10.17605/OSF.IO/6HP9R
  • 《NIST识别操纵人工智能系统行为的网络攻击类型》

    • 来源专题:计量基标准与精密测量
    • 编译者:李晓萌
    • 发布时间:2024-01-24
    • 如果对手找到了混淆其决策的方法,人工智能系统可能会出现故障。在这个例子中,道路上的错误标记误导了无人驾驶汽车,可能使其转向迎面而来的车辆。这种“逃避”攻击是NIST一份新出版物中描述的众多对抗性策略之一,该出版物旨在帮助概述我们可能预期的攻击类型以及减轻攻击的方法。 敌人可以故意混淆甚至“毒害”人工智能(AI)系统,使其发生故障——而且他们的开发人员无法采用万无一失的防御措施。美国国家标准与技术研究院(NIST)的计算机科学家及其合作者在一份新出版物中发现了人工智能和机器学习的这些和其他漏洞。 他们的工作题为《对抗性机器学习:攻击和缓解的分类和术语》(NIST.AI.100-2),是NIST支持可信人工智能发展的更广泛努力的一部分,有助于将NIST的人工智能风险管理框架付诸实践。该出版物是政府、学术界和工业界的合作,旨在帮助人工智能开发人员和用户掌握他们可能预期的攻击类型,以及缓解攻击的方法,但要明白,没有灵丹妙药。 该出版物的作者之一、NIST计算机科学家Apostol Vassilev表示:“我们正在提供一份考虑所有类型人工智能系统的攻击技术和方法的概述。”。“我们还描述了文献中报道的当前缓解策略,但这些可用的防御措施目前缺乏充分缓解风险的有力保证。我们鼓励社区提出更好的防御措施。” 人工智能系统已经渗透到现代社会,其功能从驾驶车辆到帮助医生诊断疾病,再到作为在线聊天机器人与客户互动。为了学习执行这些任务,他们需要根据大量数据进行训练:例如,自动驾驶汽车可能会显示带有路标的高速公路和街道的图像,而基于大型语言模型(LLM)的聊天机器人可能会暴露在在线对话记录中。这些数据有助于人工智能预测在特定情况下如何应对。 一个主要问题是数据本身可能不可信。其来源可能是网站和与公众的互动。不良行为者有很多机会破坏这些数据——无论是在人工智能系统的训练期间还是之后,同时人工智能继续通过与物理世界的互动来完善其行为。这可能导致AI以不希望的方式执行。例如,当聊天机器人的护栏被精心设计的恶意提示绕过时,他们可能会学会用辱骂或种族主义语言做出回应。 Vassilev说:“在大多数情况下,软件开发人员需要更多的人来使用他们的产品,这样它才能在曝光率方面变得更好。”。“但不能保证曝光会是好的。聊天机器人在使用精心设计的语言提示时,会喷出糟糕或有毒的信息。” 部分原因是用于训练人工智能的数据集太大,人们无法成功监测和过滤,因此目前还没有万无一失的方法来保护人工智能免受误导。为了帮助开发者群体,新报告概述了其人工智能产品可能遭受的攻击类型以及减少损害的相应方法。 该报告考虑了四种主要类型的攻击:逃避攻击、投毒攻击、隐私攻击和虐待攻击。它还根据攻击者的目标、能力和知识等多个标准对它们进行分类。 规避攻击发生在人工智能系统部署后,试图改变输入以改变系统对其的响应方式。例如,在停车标志上添加标记,使自动驾驶汽车将其误解为限速标志,或创建令人困惑的车道标记,使车辆偏离道路。 中毒攻击在训练阶段通过引入损坏的数据而发生。一个例子是将大量不恰当语言的例子放入对话记录中,以便聊天机器人将这些例子解释为足够常见的说法,用于自己的客户互动。 隐私攻击发生在部署过程中,是指试图了解有关人工智能或其训练数据的敏感信息,从而滥用这些信息。对手可以向聊天机器人提出许多合法的问题,然后使用这些问题的答案对模型进行逆向工程,以找出其弱点,或猜测其来源。在这些在线来源中添加不受欢迎的例子可能会使人工智能行为不当,而让人工智能在事后忘记这些特定的不受欢迎例子可能会很困难。 滥用攻击涉及将不正确的信息插入到源中,如网页或在线文档,然后人工智能吸收这些信息。与上述中毒攻击不同,滥用攻击试图从合法但受损的来源向人工智能提供不正确的信息,以重新调整人工智能系统的预期用途。 东北大学教授、合著者Alina Oprea表示:“大多数攻击都很容易发起,需要对人工智能系统的最低了解和有限的对抗能力。”。“例如,中毒攻击可以通过控制几十个训练样本来进行,这些样本在整个训练集中所占比例很小。” 作者还包括Robust Intelligence股份有限公司的研究人员Alie Fordyce和Hyrum Anderson,他们将每一类攻击划分为子类别,并添加了减轻攻击的方法,尽管该出版物承认,人工智能专家迄今为止为对抗性攻击设计的防御措施充其量是不完整的。Vassilev说,对于希望部署和使用人工智能技术的开发人员和组织来说,意识到这些局限性很重要。 他说:“尽管人工智能和机器学习取得了重大进展,但这些技术很容易受到攻击,这些攻击可能会导致严重的失败,带来可怕的后果。”。“保护人工智能算法存在一些理论问题,但这些问题还没有解决。如果有人说不同的话,那就是在骗人。”