GitHub
大厂持续投入终端装置上的AI模型开发。Llama模型家族获得众多开发人员使用后,Meta本周稍早又公布可在行动装置上执行,参数量不到10亿的新AI模型家族。
由于在云端执行上百甚至上千亿参数的大型语言模型(LLM)增加云端运算成本及延迟性问题,推升了笔电或手机等行动装置端上执行LLM的运行需求。Meta集结旗下Meta Reality Labs、PyTorch与Meta AI Research(FAIR)部门研发新训练方法,建立参数量仅有1.25亿、3.5亿的新式模型MobileLLM。
Meta研究小组公布的论文说明该公司优化小型LLM的创新方法。他们认为,对小模型而言,模型的深度比广度来得重要,他们采取「深而精简」(deep- and-thin)的模型架构更能以极高效能萃取抽象概念。他们采用内嵌共享(embedding sharing)技术实作出群组查询注意力(Grouped Query Attention,GQA)方法用于小型LLM,以便最大化权重利用率。此外,他们还发展权重共享的新方法,能提升减少记忆体区块(block)运算次数,进一步降低AI模型运算延迟性。
研究人员将其训练出的MobileLLM 125M/350M和参数量相当的State of the Art(SOTA)模型如Cerebras、OPT、BLOOM等进行对话标竿测试。在零样本(zero-shot)测试中MobileLLM 125M/350M比SOTA模型的平均准确率高出2.7%/4.3%。研究人员使用权重共享方法训练出的MobileLLM 125M/350M版本,名为MobileLLM LS-125M/350M,还可以将准确率分别再向上提升0.7%及0.8%。
MobileLLM 125M/350M在聊天和API呼叫任务中,效能大幅超越参数量相当的小型LLM。其中,在API呼叫任务中,这个新模型得分还比Meta的LLaMA-v2 7B模型大幅领先。
研究人员另外也训练了其他参数规模的模型,包括MobileLLM-600M/1B/1.5B。
Meta研究小组将MobileLLM的相关资源公开于GitHub上。
最新研究使Meta也跻身装置端(on-device)AI模型的供应商之林。今年稍早苹果公布了OpenELM 270M/450M/1.1B/3B、Google则先后开源了Gemma 2B/7B、Gemm2-9B/27B。