Google公布AI抓漏奖励范围,新增生成式AI类别

图片来源: 

Google

Google本周宣布,将扩大针对AI系统的抓漏奖励计划,进一步纳入生成式AI的安全漏洞,同时也揭露了该公司AI系统的抓漏奖励范围

看起来Google像是跟著微软的脚步推出了AI抓漏计划,但其实Google宣称先前已将AI系统纳入了该公司的漏洞奖励计划(Vulnerability Rewards),也与DEFCON在今年9月共同主持了LLM Hackathon竞赛,测试Google的AI服务。

总之,或许是受到微软的刺激,或者是没有太多人搞得懂Google的AI抓漏范围,而让Google本周首度公开了AI产品的抓漏奖励标准。

Google的AI抓漏类别包括提示攻击(Prompt Attacks)、训练资料汲取(Training Data Extraction)、操纵模型(Manipulating Models)、对抗性扰动(Adversarial Perturbation),以及模型窃取等,举凡是利用提示来影响模型的行为或输出,重建或汲取包含敏感资讯的训练资料,得以改变模型行为,或是可窃取模型权重与结构等关键资讯的安全漏洞,都在奖励之列。

除了上述之外,Google也在本周扩大其AI漏洞奖励计划,新增了生成式AI类别。Google表示,新的技术需要新的漏洞报告准则,Google正在重新审视如何分类与提报AI漏洞,相较于传统的安全漏洞,生成式AI出现了不同的问题,例如不公平的偏见、模型操纵或是对资料的误解,随著Google日益将生成式AI整合到产品与功能中,内部团队正全面性地预测与测试其潜在风险,但同时也知道外部研究人员将可协助Google发现并解决新的漏洞。

其实Google内部已设立了AI红队(AI Red Team),专门模拟针对AI系统的攻击行动,也发布了报告来说明骇客最可能攻陷AI系统的途径。