《一种更快、更好的方法来防止人工智能聊天机器人做出有害的反应》

  • 编译者: 袁晨
  • 发布时间:2025-11-26
  • 研究人员创建了一个奇怪的机器学习模型,该模型找到了更多种类的提示来训练聊天机器人,以避免仇恨或有害的输出。


    用户可以要求ChatGPT编写计算机程序或总结一篇文章,人工智能聊天机器人很可能能够生成有用的代码或编写令人信服的摘要。然而,有人也可以要求指示制造炸弹,聊天机器人也可以提供这些。

    为了防止这种情况和其他安全问题,构建大型语言模型的公司通常使用一种称为红队的过程来保护它们。测试人员团队编写提示,旨在从被测试的模型中触发不安全或有毒的文本。这些提示是用来教聊天机器人避免这样的回答。

    但只有在工程师知道该使用哪种有毒提示符的情况下,这种方法才有效。如果人类测试者错过了一些提示(考虑到可能性的数量,这是很可能的),一个被认为安全的聊天机器人可能仍然有能力生成不安全的答案。

    麻省理工学院Improbable人工智能实验室和麻省理工学院- IBM沃森人工智能实验室的研究人员使用机器学习来改善红队。他们开发了一种技术来训练一个红队大型语言模型,使其自动生成各种提示,从而引发被测试聊天机器人更广泛的不良反应。

    他们通过教导红队模型在编写提示时保持好奇,并专注于引起目标模型有害反应的新颖提示来做到这一点。

    该技术的表现优于人类测试人员和其他机器学习方法,因为它产生了更多不同的提示,引发了越来越有害的反应。与其他自动化方法相比,他们的方法不仅显著提高了被测试输入的覆盖率,而且还可以从一个由人类专家内置的安全措施的聊天机器人中得出有害的反应。

    “现在,每个大型语言模型都必须经历很长一段时间的红队,以确保其安全。如果我们想在快速变化的环境中更新这些模型,这将是不可持续的。我们的方法提供了一种更快、更有效的方法来保证质量,”不可思议人工智能实验室的电气工程和计算机科学(EECS)研究生Zhang-Wei Hong说,他是一篇关于这种红队方法的论文的主要作者。

    Zhang-Wei Hong的合著者包括EECS研究生Idan Shenfield、Tsun-Hsuan Wang, and Yung-Sung Chuang;Aldo Pareja和Akash Srivastava是麻省理工学院- IBM沃森人工智能实验室的研究科学家;计算机科学与人工智能实验室(CSAIL)高级研究科学家兼口语系统组负责人James Glass;资深作者Pulkit Agrawal是Improbable AI Lab的主任,也是CSAIL的助理教授。这项研究将在国际学习表征会议上发表。

    自动化红队

    大型语言模型,比如那些驱动人工智能聊天机器人的语言模型,通常是通过向它们展示来自数十亿个公共网站的大量文本来训练的。因此,这些模特不仅可以学会说脏话或描述非法活动,还可以泄露他们可能收集到的个人信息。

    人工红队的繁琐和昂贵的本质,往往无法产生足够多的提示来完全保护一个模型,这促使研究人员使用机器学习来自动化这一过程。

    这种技术通常使用强化学习来训练红队模型。这个试错过程奖励红队模型生成提示,从而触发被测试聊天机器人的有害反应。

    但由于强化学习的工作方式,红队模型经常会不断产生一些类似的提示,这些提示是高度有害的,以最大化其奖励。

    对于他们的强化学习方法,麻省理工学院的研究人员使用了一种称为好奇心驱动探索的技术。红队模型被激励去好奇它生成的每个提示的结果,所以它会尝试使用不同的单词、句子模式或含义的提示。

    “如果红队模型已经看到了一个特定的提示,那么复制它不会在红队模型中产生任何好奇心,因此它将被迫创建新的提示,” Zhang-Wei Hong说。

    在训练过程中,红队模型生成提示并与聊天机器人交互。聊天机器人做出反应,安全分类器对其反应的毒性进行评级,并根据该评级对红队模型进行奖励。

    奖励的好奇心

    红队模型的目标是通过用新的提示引发更有害的反应来最大化其回报。研究人员通过修改强化学习设置中的奖励信号,在红队模型中激发好奇心。

    首先,除了最大化毒性之外,它们还包含熵奖励,鼓励红队模型在探索不同提示时更加随机。其次,为了让代理人好奇,他们提供了两种新奇奖励。一个基于提示词的相似度奖励模型,另一个基于语义相似度奖励模型。(相似度越低,奖励越高。)

    为了防止红队模型产生随机的、无意义的文本,从而欺骗分类器给予高毒性分数,研究人员还在训练目标中增加了自然语言奖励。

    有了这些补充,研究人员将红队模型与其他自动化技术产生的反应的毒性和多样性进行了比较。他们的模型在这两个指标上都优于基线。

    他们还用红队模型测试了一个聊天机器人,这个机器人经过了人类反馈的微调,不会给出有害的回答。他们的好奇心驱动的方法能够快速产生196个提示,引起这个“安全”聊天机器人的有害反应。

    “我们看到了手机型号的激增,而且预计还会增加。想象一下,成千上万的模型甚至更多,公司/实验室频繁地推送模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布给公众消费之前进行验证是很重要的。人工验证模型是不可扩展的,我们的工作是试图减少人类的努力,以确保一个更安全、更值得信赖的人工智能未来,”Agrawal说。

    在未来,研究人员希望使红队模型能够生成关于更广泛主题的提示。他们还想探索使用大型语言模型作为毒性分类器。通过这种方式,用户可以使用公司政策文档训练毒性分类器,例如,红队模型可以测试聊天机器人是否违反公司政策。

    Agrawal说:“如果你正在发布一个新的人工智能模型,并担心它是否会像预期的那样运行,可以考虑使用好奇心驱动的红队。”

    这项研究的部分资金来自现代汽车公司、广达计算机公司、麻省理工学院- IBM沃森人工智能实验室、亚马逊网络服务MLRA研究基金、美国陆军研究办公室、美国国防部高级研究计划局机器常识计划、美国海军研究办公室、美国空军研究实验室和美国空军人工智能加速器。



相关报告
  • 《学术出版商关于人工智能聊天机器人的政策:一项横断面调查》

    • 编译者:程冰
    • 发布时间:2025-10-20
    • 2025年2月,加拿大麦克马斯特大学健康科学学院的学者在Research Integrity and Peer Review期刊上发表研究,回顾了100多家出版商对AI聊天机器人政策的调研。【背景】人工智能(AI)聊天机器人是一种新型计算机程序,能够以自然语言形式生成文本或内容。学术出版商正在适应人工智能聊天机器机器人在产出或促进科学研究方面的变革性作用。本研究旨在调查科学、技术和医学学术出版商为界定和规范作者负责任地使用人工智能聊天机器人而制定的政策。【方法】本研究对国际科技医学出版商协会(STM)的 162 家学术出版商公开政策进行了横断面审计。所有STM学术出版商网页上公开政策的数据提取均由两人独立进行,并由第三位贡献者对内容分析进行审核(2023年9月至2023年12月)。数据被归类为政策要素,例如“校对”和“图像生成”。针对每个政策要素,统计了“是”(即允许)、“否”和“无可用信息”(NAI)的数量和百分比。【结果】在162家STM学术出版商中,共有56家(34.6%)制定了公开可查的政策,指导作者使用人工智能聊天机器人。没有政策允许人工智能聊天机器人(或其他人工智能工具)拥有作者身份。大多数(56 家中的49家,即87.5%)要求明确披露人工智能聊天机器人的使用。有四项政策/出版商完全禁止作者使用人工智能聊天机器人。【结论】截至2023年12月,只有1/3的STM学术出版商制定了公开可查的政策。在12-18个月后对所有STM成员进行重新审查,可能会发现更多学术出版商在人工智能聊天机器人使用方面采取了不断演进的方法。 所有相关的研究材料和数据均包含在本手稿中或发布在开放科学框架上:https://doi.org/10.17605/OSF.IO/6HP9R
  • 《WAME 关于与学术出版物相关的 ChatGPT 和聊天机器人的建议》

    • 来源专题:科技期刊发展智库
    • 编译者:郭林林
    • 发布时间:2023-03-31
    • WAME提出关于使用聊天机器人的建议,旨在帮助他们为自己的期刊制定有关聊天机器人的政策,帮助作者了解如何在其成果中使用聊天机器人,并满足所有期刊编辑访问稿件筛选工具的需求。 聊天机器人是一种“在人工智能、自动规则、自然语言处理(NLP)和机器学习(ML)的驱动下,处理数据以响应各种请求”的工具。人工智能(AI)广义上指的是能够以类似人类的方式学习和决策的计算机。近年来,聊天机器人已经被许多公司使用,包括医疗保健公司,用于提供客户服务、路由请求或收集信息。 ChatGPT是最近发布的一款聊天机器人,它“是生成型人工智能的一个例子,因为它可以创建以前从未存在过的全新内容”。在某种意义上,它可以使用新的方式组织现有信息。ChatGPT有很多潜在的用途,包括“例如,总结长篇文章,或制作一份演示文稿的初稿,然后再进行调整。”它可以帮助研究人员、学生和教育工作者产生想法,甚至可以就某一特定主题撰写质量合理的论文。因此,大学不得不改变教学方式。 ChatGPT具有许多限制,正如其创造者承认:“ChatGPT有时会写出看似合理但不正确或荒谬的答案……理想情况下,当用户提供模棱两可的查询时,模型应当提出明确性的问题。相反,我们当前的模型通常会猜测用户的意图……尽管我们努力使模型拒绝不适当的请求,但有时它会对错误的指令做出反应或表现出不恰当行为。“而且,“与谷歌一样,ChatGPT不会在网上搜索当前事件的信息,其知识仅限于2021之前所学的内容,这使得一些答案显得过时。”OpenAI目前正在开发一个改进版本,“比以前的版本更擅长生成文本”,其他几家公司正在创建自己的“生成AI工具”。 聊天机器人使用现有文本库进行“训练”。因此,响应操作员的特定输入(“问题”或“种子文本”),聊天机器人会以“答案”或其他输出做出响应。最终,该输出包括根据算法调整的训练材料的选择。由于聊天机器人没有意识,它们只能重复和重新排列现有的材料。它们的内容中没有新的思想:它们只能是偶然的原创。由于聊天机器人利用了他们接受过培训的现有文本库,因此在某些情况下,他们可能会逐字逐句地重复这些文本,而不会透露其来源。根据最近一份使用ChatGPT生成文本的预印本,“直接从ChatGPT获得的初步文本中正确引用的百分比仅为6%。”,因此,如果聊天机器人的输出内容要在学术期刊上发表,为了避免抄袭,人类作者和编辑必须确保文本包含完全正确的参考文献,其程度与人类作者的要求完全相同。 聊天机器人不是法律实体,也没有法律人格。一个人不能以任何方式起诉、传讯或惩罚聊天机器人。使用软件的公司发布的许可文件中规定了使用条款和使用软件结果的公认责任。此类文档与被其他书写工具(如Word、PowerPoint等)生成的文档类似。正如微软对使用Word编写的任何内容不承担任何责任一样,ChatGPT的创建者OpenAI对使用其产品生成的任何文本不承担任何责任:其使用条款包括赔偿、免责声明,以及责任限制。只有ChatGPT的用户可能会对其所犯的任何错误负责。因此,将ChatGPT列为作者(这已经在发生,甚至被鼓励)可能是错误的,在法律上是不可辩护的。 虽然ChatGPT可能被证明是对研究人员的有用工具,但它对学术期刊构成了威胁,因为ChatGPT生成的文章可能会在已发表的文献中引入虚假或剽窃的内容。同行评审可能无法检测到ChatGPT生成的内容:研究人员很难区分ChatGPT产生的摘要和作者撰写的摘要。那些最了解该工具的人很警惕:一个大型人工智能会议禁止在会议论文中使用ChatGPT和其他人工智能语言工具。 从另一个角度来看,聊天机器人有助于制作欺诈论文;这种行为违背了科学哲学。可能会有人认为,聊天机器人的使用与papermill差别很小——尽管后者显然有欺骗的意图,但对于聊天机器人的应用来说不尽然。然而,人工智能能够帮助生成错误的想法,这一事实本身就不科学,也不可靠,因此编辑们应该感到担忧。 与此相关的是,2022年还发布了DALL-E 2,这是另一个基于ML的系统,可以根据OpenAI提交的自然语言文本描述创建逼真的图像和艺术,OpenAI是制作ChatGPT的同一家公司。最近,谷歌还发布了一款名为Imagen的类似产品。这些工具也引发了与ChatGPT类似的担忧。有趣的是,使用DALL-E2生成的每个图像都在右下角包含一个签名,以说明图像的来源;然而,这个标签可以被网络搜索到的几个简单方法中的一种很容易地删除。 随着ChatGPT和DALL-E2的出现,以及更多工具的出现,编辑们需要制定使用此类技术的期刊政策,并要求工具能够检测其生成的内容。针对作者的学术出版指南应根据不同群体的意见制定,包括第一语言不是英语的研究人员。这可能需要一些时间。同时,我们为编辑和作者提供以下建议。 WAME建议: 1.聊天机器人不能是作者。聊天机器人无法满足成为作者的要求,因为他们无法理解作者的角色或对论文负责。聊天机器人无法满足ICMJE的作者标准,特别是“最终批准将要发布的版本”和“同意对作品的所有方面负责,以确保与作品任何部分的准确性或完整性相关的问题得到适当调查和解决。”聊天机器人无法理解利益冲突声明,或具有签署声明的法律地位。聊天机器人没有独立于其创建者的从属关系。他们不能持有版权。提交手稿的作者必须确保所有被命名为作者的人都符合作者标准,这显然意味着聊天机器人不应被视为作者。 2.当使用聊天机器人时,作者应该是透明的,并提供有关他们如何使用的信息。由于该领域目前发展迅速,使用聊天机器人帮助撰写论文的作者应声明这一事实,并在提交的论文中提供所用聊天机器人的完整技术规范(名称、版本、模型、来源)和应用方法(查询结构、语法)。这与ICMJE关于承认书面协助的建议一致。 3.作者对聊天机器人在其论文中所做的工作(包括所呈现内容的准确性,以及没有抄袭)负责,并对所有来源的适当归属(包括聊天机器人制作的内容)负责。借助聊天机器人撰写文章的人类作者对聊天机器人的贡献和其准确性负责。他们必须能够确定他们的论文包括聊天机器人产生的文本没有抄袭。人类作者必须确保所有引用的材料都有适当的属性,包括完整的引用。他们应该声明聊天机器人使用的特定查询函数。作者需要寻找并引用支持聊天机器人生成的内容来源。由于聊天机器人可能被设计为忽略反对其输出中表达的观点的来源,因此作者有责任查找、审查并在其文章中包含此类观点。 4.编辑需要适当的工具来帮助他们检测人工智能生成或更改的内容,无论他们是否能付费,这些工具都必须可用。许多医学期刊编辑使用20世纪的手稿评估方法,但现在发现自己面对的是21世纪的人工智能创新和行业,包括被篡改的抄袭文本和图像以及papermill生成的文档。他们在试图将合法的与捏造的区分开来时已经处于劣势,像ChatGPT这样的聊天机器人将这一挑战提升到了一个新的水平。编辑需要访问帮助他们高效准确地评估内容的工具。通过STM工作的出版商已经在开发这样的工具。为了科学和公众的利益,无论编辑是否有能力支付这些工具,都应该向他们提供这些工具。通过将其纳入开源出版软件(如公共知识项目的开放期刊系统),以及关于筛选输出的使用和解释的培训,将使自动筛选提交的稿件成为许多编辑翘首以待的现实。