Meta开源首个多模态语言模型Meta Spirit LM

图片来源: 

GitHub

Meta上周开源了首个多模态语言模型Meta Spirit LM,该模型不论是在输出或输入都能整合文字及语音。

传统的AI语音模型是仰赖自动语音辨识(ASR)来执行转录,继之由大型语言模型来生成文字,再借由文字转语音(TTS)将文字变成语音,不过,这样的处理方式会削弱原有声音的表达能力。而Meta Spirit LM即可解决此一限制。

Meta Spirit LM是在单字等级的文字及语音资料集上交错训练的,目的是让它具备跨模态生成能力,它有两种版本,两者都具备文字模型的语义生成能力,以及语音模型的表达能力,其中,Spirit LM Base使用语音Token来处理语音,而Spirit LM Expressive则是使用音调及风格Token来捕捉语气,包括兴奋、生气或惊讶,之后生成能够反映出该语气的声音。换句话说,自Spirit LM Base生成的语音听起来就像是机器人,而Spirit LM Expressive则能带有情绪。

Meta表示,Meta Spirit LM允许人们生成听起来更自然的语音,还具备跨模学习新任务的能力,诸如自动语音辨识,文字转语音,或是语音分类等,期待该研究能够抛砖引玉,让社群继续开发语音与文字的整合。

该研究源自Meta的基础AI研究(Fundamental AI Research,FAIR)团队,已开放外界下载其程式码与模型权重,亦采用FAIR的非商业授权,只能应用在研究、开发、教育或分析,不得用于商业利益或获利。