Hugging Face释出号称业界最小多模态语言模型,推论单一图片不用1GB RAM

图片来源: 

Hugging Face

AI资源平台Hugging Face上周公布SmolVLM二款新多模态模型,SmolVLM-256M及SmolVLM-500M,前者号称是全球最小的多模态及影片语言模型(video language model,VML)。

Hugging Face团队去年训练2款80B参数的VLM,再缩成8B模型,然后缩小成SmolVLM 2B模型。然后他们决定再进一步缩小,著重效率、混合资料以及在不同需求间取得折衷。成果是强大但体积极小的多模态模型,包括SmolVLM 256M与SmolVLM 500M,各有基础模型和指令微调模型。这些模型可以直接载入到transformer MLX和ONNX上。

作为SmolVLM家族的新成员,256M及500M都是使用SigLIP为图片编码器,以SmolLM2为文字编码器。他们在多项标竿测试超越一年半前才释出的Idefics 80B模型。其中256M是最小型的VLM及多模态模型,它能接受任何序列的图片和文字,生成文字输出。SmolVLM能胜任多种多模态任务,包括生成图片描述或短影片字幕、PDF或扫瞄文件问答,以及回答关于图表的问题。轻巧架构的架构让它适合行动装置上应用,同时维持强大效能。它以不到1GB的GPU RAM就能在单一图片上执行推论。

图片来源/Hugging Face

需要更高效能的组织可以选择SmolVLM-500M模型。500M在文件理解DocVQA和多模态推理标竿测试MMMU的表现不输之前的2B。这模型对提示回应能力更佳,适用部署于组织营运环境。500M模型也是相当轻巧高效的模型,在单一图片上推论仅需1.23GB的GPU RAM。二款模型微调后表现更佳。

两款模型都是以Apache 2.0授权开源。研究团队提供了transformer和WebGU二种示范。所有模型和示范都公布于此