研究人员发现AI模型资源平台Hugging Face上存在API漏洞,泄露包含微软、Meta及Google等公司的API验证资讯,严重者可能让攻击者污染训练资料集或窃取、改造成恶意的AI模型。
随著大型语言模型(LLM)快速普及,GitHub和Hugging Face也成为许多LLM专案开发人员爱用的资源平台。其中,Hugging Face一项重要功能是开源码函式库Transformers。这个函式库里代管了50万个AI模型及25万项资料集,包括Meta的Llama、Bloom、Pythia及其他预训练模型。Hugging Face提供API,供外部开发人员及企业将Python函式库整合到其模型,或读取、新增、修改或删除储存库或档案。GitHub的API也是类似功能。若取得GitHub和Hugging Face API验证令牌,可能导致企业资料外泄、恶意模型散布等不良后果。
资安厂商Lasso Security近日在一项研究中,发现不论GitHub或Hugging Face都可能让不肖人士从其储存库(repository)取得平台上各模型供应商的API验证令牌(token),得以存取模型或其他程式码。研究小组一共从两平台上找到1,681个有效的令牌。经过一步分析资料,他们取得了723家企业组织的帐号,包括Meta、微软、Google、VMware及Hugging Face等。其中655个令牌具有写入权限,其中77个还能写入多个组织系统,令研究人员得以全权控制多个知名公司的程式码储存库,如Hugging Face上的Pythia的EleutherAI、Bloom的BigScience Workshop、Meta Llama 2等,都是下载次数超过百万的热门模型。
研究人员警告,只要控制这些程式码储存库,就能发动多种攻击。像是最基础的窃取模型和资料集,或是污染资料集:研究人员从API取得14个每月下载次数数十万的资料集,得以扭曲机器学习模型的完整性。最严重的是供应链攻击:改造现有模型使其成为恶意模型,危害大量依赖这些基础模型的应用程式。
他们还意外发现到一个Hugging Face之前宣布已停用的org_api tokens,只要稍稍变更程式码,虽然无法写入Python函式库,但仍可读取,让研究人员成功下载多个不公开的模型,包括微软拥有的模型。
研究人员最后通报Hugging Face以及研究中其他受影响的组织,像是微软、Meta、Google及VMware及GitHub等,并且解决org_api令牌还能读取的问题。这些知名企业已经撤销其令牌,也移除了API上曝露出的token。
但研究人员表示,Hugging Face并未立即采取积极作为保护其用户令牌。他们同时呼吁所有开发人员避免将令牌资讯写死在API,以免泄露资讯而为攻击者开方便之门。