图片来源:
苹果
继去年底发表的多模态大型语言模型(Multimodal Large Language Model,MLLM)Ferret之后,苹果上周再度发表另一个多模态模型家族MM1,特别注重模型的架构元件以及预训练中所使用的资料,以优化MLLM。
苹果团队研究了MLLM架构的各种元件,诸如用来处理视觉资料的图像编码器,或是整合两种模态资料的视觉语言连接器,用来训练的资料则混合了图像说明、配对的图像与文字,或是纯文字资料等,开发出支援300亿个参数的MM1多模态模型家族,此一家族的模型结合了密集模型与混合专家模型,不管是在预训练基础模型或是微调后的模型,在多模态基准测试上都达到了良好的效能。
研究人员表示,MM1的各种模型受益于大规模的预训练,而强化了它们在脉络学习、多图像推论,以及有限提示的思考能力,代表相关模型将更能够理解脉络,基于不同图像展开推论,也能在最少的提示下生成回应。
根据市场分析机构Stocklytics的调查,苹果已经买下了高达32家的AI新创,居美国科技大厂之冠,加拿大AI新创DarwinAI也在今年初被纳入苹果麾下,苹果亦已对外承诺会在今年部署生成式AI,使得外界引颈期盼落后各大科技业者的苹果,今年会端出什么样的AI产品。