Meta发表首个能同时接受语言及文字输入的声音生成模型Audiobox

图片来源: 

Meta

Meta上周发表可让用户使用语音及文字指令生成音效及语音的最新AI模型Audiobox。

Meta今年6月发表Voicebox AI模型,可应用在语音生成、去噪、采样和内容编辑等各式语音任务,不限定特定应用场景且具高效能。Audiobox则是Voicebox的后一代模型,以Voicebox框架为基础开发。Audiobox能生成各种环境及风格的语音、音效或声音地景(soundscape),新模型整合生成和编辑能力,以及多种输入机制,以扩大不同应用场景的控制能力。

Audiobox承袭了Voicebox的引导声音生成训练目标,以及音流比对(flow-matching)建模方法,以支援声音填充(audio infilling),以生成或修饰音效,例如在下雨声音地景加入雷声。使用者可运用自然语言文字提示描述想要的声音或语音类型。用户可输入「潺潺流水、鸟儿啾啁」的文字提示生成声音地景,或是以「高声快节奏讲话的年轻女性」生成人声。该模型还让使用者输入人声及文字提示,以合成任何环境(如教堂)或任何情绪(如哀痛而缓慢)的一段说话。Meta认为Audiobox是第一个可接受语音及文字描述来改造声音的模型。

经过Meta测试,显示Audiobox在音质及相关性(切合文字描述的程度)都超越了现有最佳的声音生成模型如AudioLDM2、VoiceLDM及TANGO。

Meta解释,生成高品质声音需要有大量音讯库及深厚的领域知识,如声音工程、后制、语音表演等,但大众和消费者都不会有这些资源。他们推出这个模型,相信未来可降低声音生成的门槛,让任何人都更容易制作影片或podcast、电玩或其他应用场景的音效。

Meta即将准备让特定研究人员及学者专家试用Audiobox,测试模型品质及安全伦理性。再过几周将透过申请网页开放申请试用。

Audiobox是Meta发表的AI研发成果之一。为庆祝AI研究中心FAIR成立十周年,Meta还公布翻译模型Seamless Communication。此外,Meta也宣布即将公开影像学习及多模感知模型的基础训练资料集Ego-Exo4D。Ego-Exo4D是Meta开发VR眼镜Project Aria并和学界合作的成果,主体为以人为中心(egocentric)及外心(exocentric,由镜头环视周遭场景)的资料集,两种角度能提升AI模型学习人类技能的能力。这批资料包含1,400小时影片及基准模型,将供研究社群使用。