《人类能识别人工智能聊天机器人GPT的文字吗?——科学家们评估了人们对GPT 人工智能生成文本的识别能力》

  • 来源专题:科技期刊发展智库
  • 编译者: 张恬
  • 发布时间:2023-05-17
  • 强大的对话式人工智能(AI)聊天机器人的崛起,如OpenAI的生成式预训练模型(GPT),放大了对真实与虚假文本进行辨别的需求。一项新的同行评议研究评估了人类对OpenAI的GPT聊天机器人所产生的文本的识别能力。该项研究与已有的研究相比,具有更真实的场景。

    2023年2月,宾夕法尼亚大学工程与应用科学学院的研究人员在“第37届人工智能促进会会议”(AAAI Conference 2023)上展示了他们的研究。

    该研究小组——计算机和信息科学系(CIS)副教授Chris Callison-Burch及其团队(包括:Liam Dugan, Daphne Ippolito, Arun Kirubarajan等研究人员)在报告中指出:“一个日益增长的担忧是神经语言模型(LM)能够生成越来越自然的文本,行为不端者可能试图将自动生成的文本冒充为真实的文本。”

    研究人员指出,人工智能生成的虚假新闻文章和对产品和服务的欺诈性评论存在潜在的欺诈和错误信息传播的风险,“随着语言模型变得更好,部署成本更低,这些危害将不可避免地变得越来越普遍。”

    专业人士开始在工作中使用ChatGPT。2023年1月,由Fishbowl(2021年被Glassdoor收购的专业人士社交网络)对4500名专业人士进行的调查显示,27%的人已经使用ChatGPT来协助完成与工作有关的任务,使用率最高的是市场营销、广告和技术部门。受访者中包括在谷歌、推特、亚马逊、Meta、IBM、爱德曼、麦肯锡、摩根大通、耐克以及其他数千家公司工作的专业人士。

    研究人员写道:“随着大型语言模型生成的文本激增,了解人类如何接触这些文本,以及他们是否能够检测到他们正在阅读的文本并非源自人类作者,变得至关重要。”

    为了回答这个问题,该团队采取了一种独特的方法,他们没有测试人类是否能检测出整个段落是否由人工智能机器学习产生,而是采用了一种更细微的方法。超过240名研究参与者是在宾夕法尼亚大学学习人工智能课程的高年级本科生或研究生。

    该团队在报告中说:“在本文中,我们研究了一个更现实的环境,即文本开始是由人类书写的,并过渡到由最先进的神经语言模型生成。”

    为了实现对过渡点的检测,该团队试图测量人类在过渡点边界检测任务中的能力,而不是分类。通过这种方式,可以评估出各种生成系统的性能,并同时对人工智能模型的风险进行量化。

    该团队研究人员使用RoFT(Real or Fake Text,真实或虚假文本)收集人类注释,这是一个由该团队创建的工具,用于测量人类对人工智能生成的文本的检测,该工具在2020年自然语言处理经验方法会议中被展示。RoFT被设定为一个游戏,玩家每次看到一个句子,如果猜到该文本是人工智能生成的而不再是人类写的,就可以获得分数,然后选择一个他们做出这个决定的原因。

    RoFT使用的数据来自1987-2007年期间《纽约时报》发表的180万篇文章、1789-2015年期间美国总统的963次演讲、Reddit网站Writing Prompts版块中的短篇故Recipe1M+数据集(一个大规模结构化语料库,是最大的公开食谱数据集合)中的食谱,以及AI机器学习模型GPT2、GPT2-XL和CTRL。

    研究人员写道:“除了产生有价值的数据用于分析可检测性外,我们的研究是首次大规模尝试使用游戏化平台来分析生成文本的可检测性。”

    在超过7.8万个不同的游戏回合中,科学家们收集了超过4.2万个注释,这些注释经过进一步过滤,产生了一个最终的数据集,包括2.1万个注释。

    研究人员报告说:“我们发现玩家在过渡点边界检测任务方面明显优于随机机会,在23.4%的时间里正确选择边界句子(随机机会是10%)。对于至少有一个人工智能生成的句子的游戏回合,玩家有72.3%的时候选择了人工智能生成的句子作为边界句子。”

    研究人员发现玩家的技能水平差异很大,随着时间的推移,随着额外的指导和与他们的游戏分数成比例的额外学分,准确性会提高。阅读包含提示和示例的帮助指南是注释者最具预测性的功能。

    科学家们总结道:“研究表明,虽然注释者经常在这项任务中挣扎,但他们的技能有很大的差异,如果给予适当的激励,注释者可以随着时间的推移在这项任务上表现更好。

相关报告
  • 《NIST识别操纵人工智能系统行为的网络攻击类型》

    • 来源专题:计量基标准与精密测量
    • 编译者:李晓萌
    • 发布时间:2024-01-24
    • 如果对手找到了混淆其决策的方法,人工智能系统可能会出现故障。在这个例子中,道路上的错误标记误导了无人驾驶汽车,可能使其转向迎面而来的车辆。这种“逃避”攻击是NIST一份新出版物中描述的众多对抗性策略之一,该出版物旨在帮助概述我们可能预期的攻击类型以及减轻攻击的方法。 敌人可以故意混淆甚至“毒害”人工智能(AI)系统,使其发生故障——而且他们的开发人员无法采用万无一失的防御措施。美国国家标准与技术研究院(NIST)的计算机科学家及其合作者在一份新出版物中发现了人工智能和机器学习的这些和其他漏洞。 他们的工作题为《对抗性机器学习:攻击和缓解的分类和术语》(NIST.AI.100-2),是NIST支持可信人工智能发展的更广泛努力的一部分,有助于将NIST的人工智能风险管理框架付诸实践。该出版物是政府、学术界和工业界的合作,旨在帮助人工智能开发人员和用户掌握他们可能预期的攻击类型,以及缓解攻击的方法,但要明白,没有灵丹妙药。 该出版物的作者之一、NIST计算机科学家Apostol Vassilev表示:“我们正在提供一份考虑所有类型人工智能系统的攻击技术和方法的概述。”。“我们还描述了文献中报道的当前缓解策略,但这些可用的防御措施目前缺乏充分缓解风险的有力保证。我们鼓励社区提出更好的防御措施。” 人工智能系统已经渗透到现代社会,其功能从驾驶车辆到帮助医生诊断疾病,再到作为在线聊天机器人与客户互动。为了学习执行这些任务,他们需要根据大量数据进行训练:例如,自动驾驶汽车可能会显示带有路标的高速公路和街道的图像,而基于大型语言模型(LLM)的聊天机器人可能会暴露在在线对话记录中。这些数据有助于人工智能预测在特定情况下如何应对。 一个主要问题是数据本身可能不可信。其来源可能是网站和与公众的互动。不良行为者有很多机会破坏这些数据——无论是在人工智能系统的训练期间还是之后,同时人工智能继续通过与物理世界的互动来完善其行为。这可能导致AI以不希望的方式执行。例如,当聊天机器人的护栏被精心设计的恶意提示绕过时,他们可能会学会用辱骂或种族主义语言做出回应。 Vassilev说:“在大多数情况下,软件开发人员需要更多的人来使用他们的产品,这样它才能在曝光率方面变得更好。”。“但不能保证曝光会是好的。聊天机器人在使用精心设计的语言提示时,会喷出糟糕或有毒的信息。” 部分原因是用于训练人工智能的数据集太大,人们无法成功监测和过滤,因此目前还没有万无一失的方法来保护人工智能免受误导。为了帮助开发者群体,新报告概述了其人工智能产品可能遭受的攻击类型以及减少损害的相应方法。 该报告考虑了四种主要类型的攻击:逃避攻击、投毒攻击、隐私攻击和虐待攻击。它还根据攻击者的目标、能力和知识等多个标准对它们进行分类。 规避攻击发生在人工智能系统部署后,试图改变输入以改变系统对其的响应方式。例如,在停车标志上添加标记,使自动驾驶汽车将其误解为限速标志,或创建令人困惑的车道标记,使车辆偏离道路。 中毒攻击在训练阶段通过引入损坏的数据而发生。一个例子是将大量不恰当语言的例子放入对话记录中,以便聊天机器人将这些例子解释为足够常见的说法,用于自己的客户互动。 隐私攻击发生在部署过程中,是指试图了解有关人工智能或其训练数据的敏感信息,从而滥用这些信息。对手可以向聊天机器人提出许多合法的问题,然后使用这些问题的答案对模型进行逆向工程,以找出其弱点,或猜测其来源。在这些在线来源中添加不受欢迎的例子可能会使人工智能行为不当,而让人工智能在事后忘记这些特定的不受欢迎例子可能会很困难。 滥用攻击涉及将不正确的信息插入到源中,如网页或在线文档,然后人工智能吸收这些信息。与上述中毒攻击不同,滥用攻击试图从合法但受损的来源向人工智能提供不正确的信息,以重新调整人工智能系统的预期用途。 东北大学教授、合著者Alina Oprea表示:“大多数攻击都很容易发起,需要对人工智能系统的最低了解和有限的对抗能力。”。“例如,中毒攻击可以通过控制几十个训练样本来进行,这些样本在整个训练集中所占比例很小。” 作者还包括Robust Intelligence股份有限公司的研究人员Alie Fordyce和Hyrum Anderson,他们将每一类攻击划分为子类别,并添加了减轻攻击的方法,尽管该出版物承认,人工智能专家迄今为止为对抗性攻击设计的防御措施充其量是不完整的。Vassilev说,对于希望部署和使用人工智能技术的开发人员和组织来说,意识到这些局限性很重要。 他说:“尽管人工智能和机器学习取得了重大进展,但这些技术很容易受到攻击,这些攻击可能会导致严重的失败,带来可怕的后果。”。“保护人工智能算法存在一些理论问题,但这些问题还没有解决。如果有人说不同的话,那就是在骗人。”
  • 《WAME 关于与学术出版物相关的 ChatGPT 和聊天机器人的建议》

    • 来源专题:科技期刊发展智库
    • 编译者:郭林林
    • 发布时间:2023-03-31
    • WAME提出关于使用聊天机器人的建议,旨在帮助他们为自己的期刊制定有关聊天机器人的政策,帮助作者了解如何在其成果中使用聊天机器人,并满足所有期刊编辑访问稿件筛选工具的需求。 聊天机器人是一种“在人工智能、自动规则、自然语言处理(NLP)和机器学习(ML)的驱动下,处理数据以响应各种请求”的工具。人工智能(AI)广义上指的是能够以类似人类的方式学习和决策的计算机。近年来,聊天机器人已经被许多公司使用,包括医疗保健公司,用于提供客户服务、路由请求或收集信息。 ChatGPT是最近发布的一款聊天机器人,它“是生成型人工智能的一个例子,因为它可以创建以前从未存在过的全新内容”。在某种意义上,它可以使用新的方式组织现有信息。ChatGPT有很多潜在的用途,包括“例如,总结长篇文章,或制作一份演示文稿的初稿,然后再进行调整。”它可以帮助研究人员、学生和教育工作者产生想法,甚至可以就某一特定主题撰写质量合理的论文。因此,大学不得不改变教学方式。 ChatGPT具有许多限制,正如其创造者承认:“ChatGPT有时会写出看似合理但不正确或荒谬的答案……理想情况下,当用户提供模棱两可的查询时,模型应当提出明确性的问题。相反,我们当前的模型通常会猜测用户的意图……尽管我们努力使模型拒绝不适当的请求,但有时它会对错误的指令做出反应或表现出不恰当行为。“而且,“与谷歌一样,ChatGPT不会在网上搜索当前事件的信息,其知识仅限于2021之前所学的内容,这使得一些答案显得过时。”OpenAI目前正在开发一个改进版本,“比以前的版本更擅长生成文本”,其他几家公司正在创建自己的“生成AI工具”。 聊天机器人使用现有文本库进行“训练”。因此,响应操作员的特定输入(“问题”或“种子文本”),聊天机器人会以“答案”或其他输出做出响应。最终,该输出包括根据算法调整的训练材料的选择。由于聊天机器人没有意识,它们只能重复和重新排列现有的材料。它们的内容中没有新的思想:它们只能是偶然的原创。由于聊天机器人利用了他们接受过培训的现有文本库,因此在某些情况下,他们可能会逐字逐句地重复这些文本,而不会透露其来源。根据最近一份使用ChatGPT生成文本的预印本,“直接从ChatGPT获得的初步文本中正确引用的百分比仅为6%。”,因此,如果聊天机器人的输出内容要在学术期刊上发表,为了避免抄袭,人类作者和编辑必须确保文本包含完全正确的参考文献,其程度与人类作者的要求完全相同。 聊天机器人不是法律实体,也没有法律人格。一个人不能以任何方式起诉、传讯或惩罚聊天机器人。使用软件的公司发布的许可文件中规定了使用条款和使用软件结果的公认责任。此类文档与被其他书写工具(如Word、PowerPoint等)生成的文档类似。正如微软对使用Word编写的任何内容不承担任何责任一样,ChatGPT的创建者OpenAI对使用其产品生成的任何文本不承担任何责任:其使用条款包括赔偿、免责声明,以及责任限制。只有ChatGPT的用户可能会对其所犯的任何错误负责。因此,将ChatGPT列为作者(这已经在发生,甚至被鼓励)可能是错误的,在法律上是不可辩护的。 虽然ChatGPT可能被证明是对研究人员的有用工具,但它对学术期刊构成了威胁,因为ChatGPT生成的文章可能会在已发表的文献中引入虚假或剽窃的内容。同行评审可能无法检测到ChatGPT生成的内容:研究人员很难区分ChatGPT产生的摘要和作者撰写的摘要。那些最了解该工具的人很警惕:一个大型人工智能会议禁止在会议论文中使用ChatGPT和其他人工智能语言工具。 从另一个角度来看,聊天机器人有助于制作欺诈论文;这种行为违背了科学哲学。可能会有人认为,聊天机器人的使用与papermill差别很小——尽管后者显然有欺骗的意图,但对于聊天机器人的应用来说不尽然。然而,人工智能能够帮助生成错误的想法,这一事实本身就不科学,也不可靠,因此编辑们应该感到担忧。 与此相关的是,2022年还发布了DALL-E 2,这是另一个基于ML的系统,可以根据OpenAI提交的自然语言文本描述创建逼真的图像和艺术,OpenAI是制作ChatGPT的同一家公司。最近,谷歌还发布了一款名为Imagen的类似产品。这些工具也引发了与ChatGPT类似的担忧。有趣的是,使用DALL-E2生成的每个图像都在右下角包含一个签名,以说明图像的来源;然而,这个标签可以被网络搜索到的几个简单方法中的一种很容易地删除。 随着ChatGPT和DALL-E2的出现,以及更多工具的出现,编辑们需要制定使用此类技术的期刊政策,并要求工具能够检测其生成的内容。针对作者的学术出版指南应根据不同群体的意见制定,包括第一语言不是英语的研究人员。这可能需要一些时间。同时,我们为编辑和作者提供以下建议。 WAME建议: 1.聊天机器人不能是作者。聊天机器人无法满足成为作者的要求,因为他们无法理解作者的角色或对论文负责。聊天机器人无法满足ICMJE的作者标准,特别是“最终批准将要发布的版本”和“同意对作品的所有方面负责,以确保与作品任何部分的准确性或完整性相关的问题得到适当调查和解决。”聊天机器人无法理解利益冲突声明,或具有签署声明的法律地位。聊天机器人没有独立于其创建者的从属关系。他们不能持有版权。提交手稿的作者必须确保所有被命名为作者的人都符合作者标准,这显然意味着聊天机器人不应被视为作者。 2.当使用聊天机器人时,作者应该是透明的,并提供有关他们如何使用的信息。由于该领域目前发展迅速,使用聊天机器人帮助撰写论文的作者应声明这一事实,并在提交的论文中提供所用聊天机器人的完整技术规范(名称、版本、模型、来源)和应用方法(查询结构、语法)。这与ICMJE关于承认书面协助的建议一致。 3.作者对聊天机器人在其论文中所做的工作(包括所呈现内容的准确性,以及没有抄袭)负责,并对所有来源的适当归属(包括聊天机器人制作的内容)负责。借助聊天机器人撰写文章的人类作者对聊天机器人的贡献和其准确性负责。他们必须能够确定他们的论文包括聊天机器人产生的文本没有抄袭。人类作者必须确保所有引用的材料都有适当的属性,包括完整的引用。他们应该声明聊天机器人使用的特定查询函数。作者需要寻找并引用支持聊天机器人生成的内容来源。由于聊天机器人可能被设计为忽略反对其输出中表达的观点的来源,因此作者有责任查找、审查并在其文章中包含此类观点。 4.编辑需要适当的工具来帮助他们检测人工智能生成或更改的内容,无论他们是否能付费,这些工具都必须可用。许多医学期刊编辑使用20世纪的手稿评估方法,但现在发现自己面对的是21世纪的人工智能创新和行业,包括被篡改的抄袭文本和图像以及papermill生成的文档。他们在试图将合法的与捏造的区分开来时已经处于劣势,像ChatGPT这样的聊天机器人将这一挑战提升到了一个新的水平。编辑需要访问帮助他们高效准确地评估内容的工具。通过STM工作的出版商已经在开发这样的工具。为了科学和公众的利益,无论编辑是否有能力支付这些工具,都应该向他们提供这些工具。通过将其纳入开源出版软件(如公共知识项目的开放期刊系统),以及关于筛选输出的使用和解释的培训,将使自动筛选提交的稿件成为许多编辑翘首以待的现实。