DeepMind發表AI安全框架Frontier Safety Framework

图片来源:

DeepMind

Alphabet 旗下的AI技术研究公司DeepMind上周五（5/17）发表了AI安全框架Frontier Safety Framework，同时阐述该公司分析与减轻先进AI模型招致未来风险的方法。

DeepMind说明，该公司一直在突破AI的疆界，所开发的模型已改变了他们对于其可能性的理解，相信未来的AI技术将对社会带来宝贵的工具，但他们同时也意识到，在继续推动AI能力之际，相关的突破最终可能会招致超越现有模型的新风险。

因此，DeepMind团队建立了一套安全协定Frontier Safety Framework ，可用来主动识别未来可能造成严重伤害的AI能力，也可建立检测及缓解相关伤害的机制。此一框架著重于模型层面的强大能力所能导致的重大风险，像是特殊代理或复杂网路能力，将补充现有的对齐（Alignment）研究，以及Google既有的AI责任及安全实践套件。

现在DeepMind所公布的则是Frontier Safety Framework的第一个版本，它有3个关键元件，其一是辨识模型是否具备造成重大伤害的能力，当中有个重要概念为关键能力水准（Critical Capability Levels，CCL），指的是模型可于高风险领域造成严重伤害的最低能力水准。

其次为定期评估各种前沿模型以侦测它们达到CCL的时间点。DeepMind将开发一套「早期预警评估」的模型评估套件，并定期执行以于模型达到CCL之前发出通知。最后则是在模型能力超越早期预警评估时，实施缓解计划，其缓解措施将著重于安全性及部署上，包括预防模型外泄及避免关键功能遭到滥用。

目前DeepMind仍在探索Frontier Safety Framework，可望从逐步的部署，强化与产业、学术及政府的合作来改善框架，并预计于明年初全面实施该框架。

DeepMind发表AI安全框架Frontier Safety Framework