Meta释出支援边缘与行动装置的Llama 3.2 1B/3B

图片来源: 

Meta

Meta本周发表了Llama 3.2,包括视觉语言模型Llama 3.2 11B及Llama 3.2 90B,以及锁定边缘及行动装置、轻量且只有文字的Llama 3.2 1B及Llama 3.2 3B,已开放使用者自Llama官网Hugging Face上下载。

其中,Llama 3.2 11B与Llama 3.2 90B主要支援图像推论使用案例,可理解包含图表、图形及图说在内的文件,或者是透过自然语言描述,于图像中精确定位物件位置等视觉定位任务。例如使用者可询问企业在去年哪个月的业绩最好,Llama即可根据图表回答;或者是基于地图来回答路径及距离等问题。

至于轻量的Llama 3.2 1B及Llama 3.2 3B,则具备强大的文字生成及工具调用功能,允许开发人员建置个人化的装置端代理应用程式,以让资料保存于装置上而不外流。

Meta表示,于装置端执行上述模型有两大好处,一是提示与回应感觉像是即时的,二是不会将个人资料传送到云端,让相关程式更具隐私,或者是控制将哪些查询保留于装置上,哪些则需送至云上的大模型处理。

此外,基准测试显示,Llama 3.2的视觉模型在图像辨识及许多视觉理解任务上,足以与Claude 3 Haiku和GPT4o-mini 竞争,Llama 3.2 3B在遵循指令、摘录、重写提示及工具使用等任务上的表现,超越了Gemma 2 2.6B与Phi 3.5-mini模型,至于Llama 3.2 1B某些部分的表现亦不输Gemma与Phi。