如果对手找到了混淆其决策的方法,人工智能系统可能会出现故障。在这个例子中,道路上的错误标记误导了无人驾驶汽车,可能使其转向迎面而来的车辆。这种“逃避”攻击是NIST一份新出版物中描述的众多对抗性策略之一,该出版物旨在帮助概述我们可能预期的攻击类型以及减轻攻击的方法。
敌人可以故意混淆甚至“毒害”人工智能(AI)系统,使其发生故障——而且他们的开发人员无法采用万无一失的防御措施。美国国家标准与技术研究院(NIST)的计算机科学家及其合作者在一份新出版物中发现了人工智能和机器学习的这些和其他漏洞。
他们的工作题为《对抗性机器学习:攻击和缓解的分类和术语》(NIST.AI.100-2),是NIST支持可信人工智能发展的更广泛努力的一部分,有助于将NIST的人工智能风险管理框架付诸实践。该出版物是政府、学术界和工业界的合作,旨在帮助人工智能开发人员和用户掌握他们可能预期的攻击类型,以及缓解攻击的方法,但要明白,没有灵丹妙药。
该出版物的作者之一、NIST计算机科学家Apostol Vassilev表示:“我们正在提供一份考虑所有类型人工智能系统的攻击技术和方法的概述。”。“我们还描述了文献中报道的当前缓解策略,但这些可用的防御措施目前缺乏充分缓解风险的有力保证。我们鼓励社区提出更好的防御措施。”
人工智能系统已经渗透到现代社会,其功能从驾驶车辆到帮助医生诊断疾病,再到作为在线聊天机器人与客户互动。为了学习执行这些任务,他们需要根据大量数据进行训练:例如,自动驾驶汽车可能会显示带有路标的高速公路和街道的图像,而基于大型语言模型(LLM)的聊天机器人可能会暴露在在线对话记录中。这些数据有助于人工智能预测在特定情况下如何应对。
一个主要问题是数据本身可能不可信。其来源可能是网站和与公众的互动。不良行为者有很多机会破坏这些数据——无论是在人工智能系统的训练期间还是之后,同时人工智能继续通过与物理世界的互动来完善其行为。这可能导致AI以不希望的方式执行。例如,当聊天机器人的护栏被精心设计的恶意提示绕过时,他们可能会学会用辱骂或种族主义语言做出回应。
Vassilev说:“在大多数情况下,软件开发人员需要更多的人来使用他们的产品,这样它才能在曝光率方面变得更好。”。“但不能保证曝光会是好的。聊天机器人在使用精心设计的语言提示时,会喷出糟糕或有毒的信息。”
部分原因是用于训练人工智能的数据集太大,人们无法成功监测和过滤,因此目前还没有万无一失的方法来保护人工智能免受误导。为了帮助开发者群体,新报告概述了其人工智能产品可能遭受的攻击类型以及减少损害的相应方法。
该报告考虑了四种主要类型的攻击:逃避攻击、投毒攻击、隐私攻击和虐待攻击。它还根据攻击者的目标、能力和知识等多个标准对它们进行分类。
规避攻击发生在人工智能系统部署后,试图改变输入以改变系统对其的响应方式。例如,在停车标志上添加标记,使自动驾驶汽车将其误解为限速标志,或创建令人困惑的车道标记,使车辆偏离道路。
中毒攻击在训练阶段通过引入损坏的数据而发生。一个例子是将大量不恰当语言的例子放入对话记录中,以便聊天机器人将这些例子解释为足够常见的说法,用于自己的客户互动。
隐私攻击发生在部署过程中,是指试图了解有关人工智能或其训练数据的敏感信息,从而滥用这些信息。对手可以向聊天机器人提出许多合法的问题,然后使用这些问题的答案对模型进行逆向工程,以找出其弱点,或猜测其来源。在这些在线来源中添加不受欢迎的例子可能会使人工智能行为不当,而让人工智能在事后忘记这些特定的不受欢迎例子可能会很困难。
滥用攻击涉及将不正确的信息插入到源中,如网页或在线文档,然后人工智能吸收这些信息。与上述中毒攻击不同,滥用攻击试图从合法但受损的来源向人工智能提供不正确的信息,以重新调整人工智能系统的预期用途。
东北大学教授、合著者Alina Oprea表示:“大多数攻击都很容易发起,需要对人工智能系统的最低了解和有限的对抗能力。”。“例如,中毒攻击可以通过控制几十个训练样本来进行,这些样本在整个训练集中所占比例很小。”
作者还包括Robust Intelligence股份有限公司的研究人员Alie Fordyce和Hyrum Anderson,他们将每一类攻击划分为子类别,并添加了减轻攻击的方法,尽管该出版物承认,人工智能专家迄今为止为对抗性攻击设计的防御措施充其量是不完整的。Vassilev说,对于希望部署和使用人工智能技术的开发人员和组织来说,意识到这些局限性很重要。
他说:“尽管人工智能和机器学习取得了重大进展,但这些技术很容易受到攻击,这些攻击可能会导致严重的失败,带来可怕的后果。”。“保护人工智能算法存在一些理论问题,但这些问题还没有解决。如果有人说不同的话,那就是在骗人。”