Meta釋出支援邊緣與行動裝置的Llama 3.2 1B/3B

图片来源:

Meta

Meta本周发表了Llama 3.2，包括视觉语言模型Llama 3.2 11B及Llama 3.2 90B，以及锁定边缘及行动装置、轻量且只有文字的Llama 3.2 1B及Llama 3.2 3B，已开放使用者自Llama官网及Hugging Face上下载。

其中，Llama 3.2 11B与Llama 3.2 90B主要支援图像推论使用案例，可理解包含图表、图形及图说在内的文件，或者是透过自然语言描述，于图像中精确定位物件位置等视觉定位任务。例如使用者可询问企业在去年哪个月的业绩最好，Llama即可根据图表回答；或者是基于地图来回答路径及距离等问题。

至于轻量的Llama 3.2 1B及Llama 3.2 3B，则具备强大的文字生成及工具调用功能，允许开发人员建置个人化的装置端代理应用程式，以让资料保存于装置上而不外流。

Meta表示，于装置端执行上述模型有两大好处，一是提示与回应感觉像是即时的，二是不会将个人资料传送到云端，让相关程式更具隐私，或者是控制将哪些查询保留于装置上，哪些则需送至云上的大模型处理。

此外，基准测试显示，Llama 3.2的视觉模型在图像辨识及许多视觉理解任务上，足以与Claude 3 Haiku和GPT4o-mini 竞争，Llama 3.2 3B在遵循指令、摘录、重写提示及工具使用等任务上的表现，超越了Gemma 2 2.6B与Phi 3.5-mini模型，至于Llama 3.2 1B某些部分的表现亦不输Gemma与Phi。

Meta释出支援边缘与行动装置的Llama 3.2 1B/3B