防止图片遭撷取,新工具让创作者对AI模型下毒

OpenAI、Google等生成式AI业者撷取网路上图片训练AI模型引发创作者不满。有研究人员发展出一个名为Nightshade的工具,可扰乱AI业者的底层模型,而且很难发现。

现有一些对文字转图片的生成式AI模型的攻击法,像是后门攻击法是在提示中加入一些触发字,使之生成特定图案,但仍假设攻击者可改变模型的降噪步骤或变更损失函数。

但一群芝加哥大学研究人员发展出的Nightshade,是一种专从提示发动的下毒攻击手法,手法更简单,也不需介入模型的训练或部署等流程。他们主要是稍稍变更图片,像变造狗图片(如拟人化的狗),当这些「含毒」图文成为训练资料集,就可能扰乱AI模型。研究人员并选择攻击从头打造的模型,以及知名模型如Stability AI的Stable Diffusion V2、SDXL及DeepFloyd验证其攻击效果。

测试显示,只要很少的有毒样本就能扰乱AI模型。例如不到100个变造过的「狗」图片,即可污染SDXL模型的「狗」的概念,使其在接受「狗」的提示输入时产出猫的图片。而且Nightshade攻击还会有「出血」(bleed-through)效果,即原本攻击者只扰乱一种概念,如「幻想艺术」,但会渐渐影响AI模型对「龙」以及以幻想艺术知名的画家「Michael Whelan」的生成结果。

此外,这些图片变造的资料集是很难防范,因为它影响的是训练资料集的特征空间,人无法察觉,人眼觉得正常的图片,其实会「教坏」AI模型。而且攻击效果是累积性。研究人员还发现,对单一模型攻击多次,例如对SDXL发动250次Nightshade攻击,就能毁坏SDXL的图片生成功能。

研究人员表示,Nightshade是给内容创作者及持有者对抗不尊重版权声明、或故意绕过do-not-scrape/crawl opt-out的AI业者的强大武器。

一些生成式AI业者也有自我约束作法,像是OpenAI公布爬虫,允许网站业者阻挡。不过在有效方法出现前,像BBC主流媒体则直接拒绝这些业者的爬虫。