DeepMind
Alphabet 旗下的AI技术研究公司DeepMind上周五(5/17)发表了AI安全框架Frontier Safety Framework,同时阐述该公司分析与减轻先进AI模型招致未来风险的方法。
DeepMind说明,该公司一直在突破AI的疆界,所开发的模型已改变了他们对于其可能性的理解,相信未来的AI技术将对社会带来宝贵的工具,但他们同时也意识到,在继续推动AI能力之际,相关的突破最终可能会招致超越现有模型的新风险。
因此,DeepMind团队建立了一套安全协定Frontier Safety Framework ,可用来主动识别未来可能造成严重伤害的AI能力,也可建立检测及缓解相关伤害的机制。此一框架著重于模型层面的强大能力所能导致的重大风险,像是特殊代理或复杂网路能力,将补充现有的对齐(Alignment)研究,以及Google既有的AI责任及安全实践套件。
现在DeepMind所公布的则是Frontier Safety Framework的第一个版本,它有3个关键元件,其一是辨识模型是否具备造成重大伤害的能力,当中有个重要概念为关键能力水准(Critical Capability Levels,CCL),指的是模型可于高风险领域造成严重伤害的最低能力水准。
其次为定期评估各种前沿模型以侦测它们达到CCL的时间点。DeepMind将开发一套「早期预警评估」的模型评估套件,并定期执行以于模型达到CCL之前发出通知。最后则是在模型能力超越早期预警评估时,实施缓解计划,其缓解措施将著重于安全性及部署上,包括预防模型外泄及避免关键功能遭到滥用。
目前DeepMind仍在探索Frontier Safety Framework,可望从逐步的部署,强化与产业、学术及政府的合作来改善框架,并预计于明年初全面实施该框架。