Hugging Face API漏洞洩露驗證令牌，可讓攻擊者存取微軟、Meta、Google的AI模型

背景图片来源／Photo by

研究人员发现AI模型资源平台Hugging Face上存在API漏洞，泄露包含微软、Meta及Google等公司的API验证资讯，严重者可能让攻击者污染训练资料集或窃取、改造成恶意的AI模型。

随著大型语言模型（LLM）快速普及，GitHub和Hugging Face也成为许多LLM专案开发人员爱用的资源平台。其中，Hugging Face一项重要功能是开源码函式库Transformers。这个函式库里代管了50万个AI模型及25万项资料集，包括Meta的Llama、Bloom、Pythia及其他预训练模型。Hugging Face提供API，供外部开发人员及企业将Python函式库整合到其模型，或读取、新增、修改或删除储存库或档案。GitHub的API也是类似功能。若取得GitHub和Hugging Face API验证令牌，可能导致企业资料外泄、恶意模型散布等不良后果。

资安厂商Lasso Security近日在一项研究中，发现不论GitHub或Hugging Face都可能让不肖人士从其储存库（repository）取得平台上各模型供应商的API验证令牌（token），得以存取模型或其他程式码。研究小组一共从两平台上找到1,681个有效的令牌。经过一步分析资料，他们取得了723家企业组织的帐号，包括Meta、微软、Google、VMware及Hugging Face等。其中655个令牌具有写入权限，其中77个还能写入多个组织系统，令研究人员得以全权控制多个知名公司的程式码储存库，如Hugging Face上的Pythia的EleutherAI、Bloom的BigScience Workshop、Meta Llama 2等，都是下载次数超过百万的热门模型。

研究人员警告，只要控制这些程式码储存库，就能发动多种攻击。像是最基础的窃取模型和资料集，或是污染资料集：研究人员从API取得14个每月下载次数数十万的资料集，得以扭曲机器学习模型的完整性。最严重的是供应链攻击：改造现有模型使其成为恶意模型，危害大量依赖这些基础模型的应用程式。

他们还意外发现到一个Hugging Face之前宣布已停用的org_api tokens，只要稍稍变更程式码，虽然无法写入Python函式库，但仍可读取，让研究人员成功下载多个不公开的模型，包括微软拥有的模型。

图片来源_Lasso Security

研究人员最后通报Hugging Face以及研究中其他受影响的组织，像是微软、Meta、Google及VMware及GitHub等，并且解决org_api令牌还能读取的问题。这些知名企业已经撤销其令牌，也移除了API上曝露出的token。

但研究人员表示，Hugging Face并未立即采取积极作为保护其用户令牌。他们同时呼吁所有开发人员避免将令牌资讯写死在API，以免泄露资讯而为攻击者开方便之门。

Hugging Face API漏洞泄露验证令牌，可让攻击者存取微软、Meta、Google的AI模型