Google公布AI抓漏獎勵範圍，新增生成式AI類別

图片来源:

Google

Google本周宣布，将扩大针对AI系统的抓漏奖励计划，进一步纳入生成式AI的安全漏洞，同时也揭露了该公司AI系统的抓漏奖励范围。

看起来Google像是跟著微软的脚步推出了AI抓漏计划，但其实Google宣称先前已将AI系统纳入了该公司的漏洞奖励计划（Vulnerability Rewards），也与DEFCON在今年9月共同主持了LLM Hackathon竞赛，测试Google的AI服务。

总之，或许是受到微软的刺激，或者是没有太多人搞得懂Google的AI抓漏范围，而让Google本周首度公开了AI产品的抓漏奖励标准。

Google的AI抓漏类别包括提示攻击（Prompt Attacks）、训练资料汲取（Training Data Extraction）、操纵模型（Manipulating Models）、对抗性扰动（Adversarial Perturbation），以及模型窃取等，举凡是利用提示来影响模型的行为或输出，重建或汲取包含敏感资讯的训练资料，得以改变模型行为，或是可窃取模型权重与结构等关键资讯的安全漏洞，都在奖励之列。

除了上述之外，Google也在本周扩大其AI漏洞奖励计划，新增了生成式AI类别。Google表示，新的技术需要新的漏洞报告准则，Google正在重新审视如何分类与提报AI漏洞，相较于传统的安全漏洞，生成式AI出现了不同的问题，例如不公平的偏见、模型操纵或是对资料的误解，随著Google日益将生成式AI整合到产品与功能中，内部团队正全面性地预测与测试其潜在风险，但同时也知道外部研究人员将可协助Google发现并解决新的漏洞。

其实Google内部已设立了AI红队（AI Red Team），专门模拟针对AI系统的攻击行动，也发布了报告来说明骇客最可能攻陷AI系统的途径。

Google公布AI抓漏奖励范围，新增生成式AI类别