11. 未来展望

未来人工智能的应用场景会更加多元化,在带来技术革新和产能提升的同时也会面临更多的数据与模型攻击。一方面,任何在应用过程中偶发的鲁棒性问题都有可能被过度探索催生新的攻击。另一方面,随着人工智能基础平台(如机器学习平台、模型即服务等)的完善与普及,攻击者可利用的工具也就越来越多,攻击门槛也会越来越低。这都将导致攻击的多样化。而与之相应的,防御的任务也就越来越重。

11.1. 未来攻击

更多样的攻击体现在更新的威胁模型、更先进的攻击方法、更大规模的攻击影响、更贴近现实场景的物理攻击等多个方面。 实际上,设计一个新攻击方法并不困难。当前机器学习所依赖的假设(比如独立同分布假设)容易导致模型在实际应用场景中出现泛化能力下降的问题。在这种情况下,破坏一个模型的性能就变得极其容易。但是已有攻击往往只针对一个具体的学习任务或应用场景,无法产生较大规模的影响。未来随着攻击的不断进化,可能会出现能同时攻击多种任务、多种数据形式、多种模态、多种模型类型的普遍攻击。大量出现的新型攻击可能会对人工智能带来巨大的负面影响,严重时甚至会导致下一次人工智能寒冬的到来。

下面总结一下攻击的未来发展趋势:

  • 从数字攻击转向物理攻击。出现针对更广泛的人工智能应用场景的物理攻击。目前大多数攻击都是数字攻击,所采取的威胁模型都存在一定的局限性,比如后门攻击假设攻击者可以通过某种方式将投毒数据加入到训练数据集,实际的实施难度很高。从数字攻击到物理攻击的转移会带来更贴合实际的威胁模型,对人工智能的安全威胁也会越大。

  • 从攻击小模型转向攻击大模型。目前的攻击方法还局限于中小量级数据集和模型,当应用于大数据集和大模型时可能会失效。实际上,很多攻击方法并不适合大模型,不管是在方法层面还是在效率层面,都存在一定的局限性。攻击大数据和大模型往往需要提出更适合、更高效的攻击范式。

  • 攻击场景更多样化。目前的攻击主要集中在相对比较成熟的应用领域,如计算机视觉、自然语言处理、语音识别等。未来攻击可能会延伸到更前沿的科学领域,如生物制药、结构生物学、材料设计等。当然,攻击的目的也可能不再只局限于破坏,也可以用攻击技术来进行探索发现,如挖掘潜在影响因子、发现反事实规律等。

  • 跨模态的攻击。未来攻击很可能会突破现在的单模态攻击,从图像、文本、语音独立攻击转向多种模态组合的攻击。这与多模态学习的趋势相吻合,预计会产生很多更复杂的攻击类型,比如以文本形式攻击使模型发生图像处理方面的错误。这可能是人工智能朝通用智能、多元化智能发展所必然面临的安全风险。

  • 组合攻击。组合可能发生在同种攻击下的不同方法之间、不同威胁模型下的不同攻击方法之间、不同数据类型的攻击之间、不同模型类型的攻击之间、数据与模型攻击之间、不同学习任务之间(比如图像分类和目标检测)、不同应用场景之间、甚至是人工智能系统中的机器学习部分和非机器学习部分等等。攻击者可以利用组合攻击来达到多个攻击目标,而不再局限于让模式发生一种固定类型的错误。此外,攻击者也可能会“合谋”,大量用户相互配合和掩护,以发起群体攻击。

11.2. 未来防御

多样的攻击势必会给防御工作带来巨大的挑战。 高效防御的一个前提就是可以防御所有现存和未知的攻击,这是一个极难实现的目标,因为单个防御方法往往无法解决所有安全问题,而且有时在解决一个问题的时候可能会引发新的问题。比如对抗鲁棒性的提升会导致模型性能的下降,带来严重的泛化问题。这将会导致安全性提升后的模型在实际场景中根本无法应用,出现“空中安全”(security in the air,类比空中楼阁)的怪异现象。

攻击和防御将是一场长期的攻防博弈。在当前阶段,攻击占据绝对上风,而防御则只能被动跟随。当前的防御范式是,当有新攻击出现时,研究者就针对新攻击设计一个防御方法,而这种被动防御又很快被更新的攻击所击破。这种跟随和单点防御模式让防御一直处于较为被动的状态,推进速度很慢。相信在不久的未来,防御会找到更合理、更高效的工作范式,不再单纯追求单点防御,开始着眼于研究体系化、通用并且实用的防御技术。一个值得思考的问题是如何将计算机安全、软件工程等领域成熟的技术与人工智能数据与模型防御相结合,构建一个全面完备的防御系统,整体提升人工智能的通用防御能力。

下面总结一下防御的未来发展趋势:

  • 高效防御。目前很多防御方法在效率方面都存在明显的瓶颈,很多方法要么需要重新训练模型,要么需要消耗高出普通训练好几倍的计算资源来提升安全性,难以在实际应用场景中落地应用。未来防御需要突破这些效率瓶颈,发展更高效的防御方法,必要时可能为了效率需要在防御性能上做出取舍。

  • 推理防御。现有防御方法大都聚焦于训练过程中的鲁棒性提升,忽略了同等重要的推理阶段防御。即使是鲁棒训练的模型,在部署后也会遇到新的攻击,而如何防御这些推理阶段的攻击,确保模型长期可靠运行就变得尤为重要。有必要设计鲁棒推理机制和攻击检测器,在鲁棒推理的同时检测潜在的攻击行为。此类研究仍处于萌芽阶段,但是实用性很高,需要引起重视。

  • 物理防御。目前虽然已有很多物理攻击方法,但是物理防御方法却鲜有研究。在攻击逐渐从数字走向物理环境的同时,物理防御研究却进展缓慢。这主要是由于物理攻击的形式(比如对抗补丁)和威胁性在一定程度上超出了鲁棒优化的能力范围,导致相关方法难以收敛或者泛化性很差。未来防御也需要完成数字到物理的转换,否则将无法在真实环境下对数据和模型进行保护。

  • 组合防御。当前研究表明,单个防御方法已经难以防御多种攻击,这就需要融合不同防御方法以构建更全面的防御体系,比如攻击检测和鲁棒性增强的组合、输入去噪和鲁棒训练的组合、对抗防御和后门防御的组合等。如何进行组合将是这些方法的关键,在不同的方法之间取长补短,相互增强,以达到最好的总体防御效果。

  • 多模型系统。完成一个任务或者鲁棒的完成一个任务可能需要多个机器学习模型。比如对于图像分类任务,可以有两个模型,一个模型负责性能,另一个系统负责鲁棒性。两个模型可以大小不同、结构不同、目标不同,一个作为主模型而另一个作为“护卫模型”,负责发现并纠正主模型的鲁棒与安全性问题。从双模型系统可以扩展为多模型系统,模型越多纳入考虑的信息就越多,可防御的攻击类型也就越多,整体的系统就会越鲁棒。多模型系统目前还处于构想阶段,相信在不久的将来会出现比较有效的多模型系统。

  • 安全性评测。没有可靠的评测,安全性就无法精准的定义和量化,防御也就失去了目标。当前一些评测方法存在效率瓶颈,评测所需的计算消耗甚至超出了模型训练本身,极大的限制了其在大模型上的应用。实际上,安全性评测不一定需要最强的攻击算法,只要能够恰当的反应模型的安全性那么就是合理的评测,也就可以在效率方面有所改善,回归应用本质(而不是单纯追求SOTA的攻击成功率)。

比安全性更广泛的一个概念是可信。可信是人工智能进化的终极目标之一,是一个相对抽象的概念,也有时候也被称为“确信”(assured)。可信是指人工智能技术的社会属性,即完全从服务于人、服务于社会的角度去评价一类科学技术,所以很多时候与具体的应用场景密切相关。一般来说,原理明确性能稳定安全可靠隐私公平的技术可以被称为可信。 可信人工智能(trustworthy artificial intelligence,TAI)的研究范围比较广泛,包括鲁棒性、安全性、可解释性、隐私性和公平性等。其中,安全性无疑是可信最重要的一个维度,不安全的技术肯定不是可信的。

人工智能安全研究不仅需要密切跟随技术前沿,而且需要考虑基础安全平台的构建。未来人工智能会逐渐走进千家万户,而目前我们并没有一套可以保护人工智能数据和模型的基础防御系统。 我们在推动单维度防御技术创性的同时,需要思考多维度的联合防御策略,思考如何将不同的防御维度串联起来构建体体系化的防御系统。相信随着研究者的不懈努力,我们会研究出更高效、更通用、更实际的人工智能数据与模型安全防御技术,并逐步实现人工智能统一安全防御平台的构建,为我国人工智能产业的健康稳定发展保驾护航。

11.3. 本章小结

随着各领域大模型的不断发布,人工智能正在完成阶段性的进化,从过去可以进行简单的重复性劳动到现在可以完成一些有创造性的工作,比如新闻编辑、产品设计、艺术创作等等。2022年,OpenAI发布了大规模图像生成模型DALL·E 2和超级对话模型ChatGPT,这两个模型所展现出来的超强性能和创造性大大超出了人们的预期。 这些新技术的出现大大激发了人们对大模型尤其是生成式大模型的研究热情, 同时也会引发一些新的安全与可信问题。比如,ChatGPT被发现在一定次数的问答之后“失去耐心”,给出一些激进的答案。再比如,基于图像生成模型Stable Diffusion 2.0衍生的Unstable Diffusion模型生成了上百万的涩情图像在互联网上传播,造成了严重的负面社会影响。此外,人工智能生成内容侵犯了大量原创作者的知识产权,在国际社会上引发了强烈反响。比如,2022年11月,美国软件开发者发起对微软、GitHub和OpenAI的集体诉讼,状告其自动代码生成工具Copilot未经授权使用GitHub代码进行训练。2023年1月,Getty Images和多名艺术家对Stability AI、Midjourney以及艺术家平台DeviantArt提起诉讼,状告其抓取50亿张图像,侵犯了数百万艺术家的版权。面对这些新技术的涌现和新安全与可信问题,我们需要保持警惕,尤其是在技术层面,我们需要做好充分的准备,确保我国人工智能安全、可靠、可控发展。