Google DeepMind周三(10/23)宣布,已透过Responsible Generative AI Toolkit的更新开源了SynthID Text浮水印工具,以用来辨识由AI生成的文字内容,可供开发人员及企业免费使用。
SynthID同时具备建立浮水印,以及辨识AI生成内容的能力。它可在不危及原本内容的前提下,将数位浮水印直接嵌入由AI生成的图像、声音、文字及影片中,同时它也能扫描这些内容的数位浮水印,以辨识它们是否由AI生成。此次Google仅开源针对文字生成的SynthID Text。
Google说明,大型语言模型(LLM)在生成文字时一次会生成一个Token,这个Token可能是一个字元、一个单字,或者是段落的一部分,为了建立连贯的文字,模型会预测下一个最可能生成的Token,相关的预测是基于先前的文字以及每个潜在Token的机率。
例如当LLM要生成「我最喜欢的水果是…」时,可能会填入「芒果」、「荔枝」、「木瓜」或「榴梿」等Token,每个Token都会获得一个机率分数,只要有许多不同的Token可供选择,SynthID即会在不影响输出品质及准确性的情况下,调整每个Token的机率分数(调整非常少)。
在不断重复上述程序之后,单一句子可能含有10个或更多经过SynthID调整的机率分数,一个页面就可能含有数百个。模型最终选择的Token机率分数,再结合该Token被SynthID所调整的机率分数,就形成了浮水印。这就像是一个隐形的数位签名,它并不影响所生成的文字内容,人眼也看不出来,却能够利用特定工具来检测与验证。
此一SynthID Text浮水印技术论文已于《Nature》上出版,并透过Google Responsible Generative AI Toolkit开源。此外,Google也已经在Gemini的应用程式及网页版中整合了SynthID Text技术。
图片来源/Google