Meta開源首個多模態語言模型Meta Spirit LM

图片来源:

GitHub

Meta上周开源了首个多模态语言模型Meta Spirit LM，该模型不论是在输出或输入都能整合文字及语音。

传统的AI语音模型是仰赖自动语音辨识（ASR）来执行转录，继之由大型语言模型来生成文字，再借由文字转语音（TTS）将文字变成语音，不过，这样的处理方式会削弱原有声音的表达能力。而Meta Spirit LM即可解决此一限制。

Meta Spirit LM是在单字等级的文字及语音资料集上交错训练的，目的是让它具备跨模态生成能力，它有两种版本，两者都具备文字模型的语义生成能力，以及语音模型的表达能力，其中，Spirit LM Base使用语音Token来处理语音，而Spirit LM Expressive则是使用音调及风格Token来捕捉语气，包括兴奋、生气或惊讶，之后生成能够反映出该语气的声音。换句话说，自Spirit LM Base生成的语音听起来就像是机器人，而Spirit LM Expressive则能带有情绪。

Meta表示，Meta Spirit LM允许人们生成听起来更自然的语音，还具备跨模学习新任务的能力，诸如自动语音辨识，文字转语音，或是语音分类等，期待该研究能够抛砖引玉，让社群继续开发语音与文字的整合。

该研究源自Meta的基础AI研究（Fundamental AI Research，FAIR）团队，已开放外界下载其程式码与模型权重，亦采用FAIR的非商业授权，只能应用在研究、开发、教育或分析，不得用于商业利益或获利。

Meta开源首个多模态语言模型Meta Spirit LM