Google開源SynthID Text – 101 200 126 202

图片来源:

Google

Google DeepMind周三（10/23）宣布，已透过Responsible Generative AI Toolkit的更新开源了SynthID Text浮水印工具，以用来辨识由AI生成的文字内容，可供开发人员及企业免费使用。

SynthID同时具备建立浮水印，以及辨识AI生成内容的能力。它可在不危及原本内容的前提下，将数位浮水印直接嵌入由AI生成的图像、声音、文字及影片中，同时它也能扫描这些内容的数位浮水印，以辨识它们是否由AI生成。此次Google仅开源针对文字生成的SynthID Text。

Google说明，大型语言模型（LLM）在生成文字时一次会生成一个Token，这个Token可能是一个字元、一个单字，或者是段落的一部分，为了建立连贯的文字，模型会预测下一个最可能生成的Token，相关的预测是基于先前的文字以及每个潜在Token的机率。

例如当LLM要生成「我最喜欢的水果是…」时，可能会填入「芒果」、「荔枝」、「木瓜」或「榴梿」等Token，每个Token都会获得一个机率分数，只要有许多不同的Token可供选择，SynthID即会在不影响输出品质及准确性的情况下，调整每个Token的机率分数（调整非常少）。

在不断重复上述程序之后，单一句子可能含有10个或更多经过SynthID调整的机率分数，一个页面就可能含有数百个。模型最终选择的Token机率分数，再结合该Token被SynthID所调整的机率分数，就形成了浮水印。这就像是一个隐形的数位签名，它并不影响所生成的文字内容，人眼也看不出来，却能够利用特定工具来检测与验证。

此一SynthID Text浮水印技术论文已于《Nature》上出版，并透过Google Responsible Generative AI Toolkit开源。此外，Google也已经在Gemini的应用程式及网页版中整合了SynthID Text技术。

图片来源／Google

Google开源SynthID Text