Meta發表首個能同時接受語言及文字輸入的聲音生成模型Audiobox

图片来源:

Meta

Meta上周发表可让用户使用语音及文字指令生成音效及语音的最新AI模型Audiobox。

Meta今年6月发表Voicebox AI模型，可应用在语音生成、去噪、采样和内容编辑等各式语音任务，不限定特定应用场景且具高效能。Audiobox则是Voicebox的后一代模型，以Voicebox框架为基础开发。Audiobox能生成各种环境及风格的语音、音效或声音地景（soundscape），新模型整合生成和编辑能力，以及多种输入机制，以扩大不同应用场景的控制能力。

Audiobox承袭了Voicebox的引导声音生成训练目标，以及音流比对（flow-matching）建模方法，以支援声音填充（audio infilling），以生成或修饰音效，例如在下雨声音地景加入雷声。使用者可运用自然语言文字提示描述想要的声音或语音类型。用户可输入「潺潺流水、鸟儿啾啁」的文字提示生成声音地景，或是以「高声快节奏讲话的年轻女性」生成人声。该模型还让使用者输入人声及文字提示，以合成任何环境（如教堂）或任何情绪（如哀痛而缓慢）的一段说话。Meta认为Audiobox是第一个可接受语音及文字描述来改造声音的模型。

经过Meta测试，显示Audiobox在音质及相关性（切合文字描述的程度）都超越了现有最佳的声音生成模型如AudioLDM2、VoiceLDM及TANGO。

Meta解释，生成高品质声音需要有大量音讯库及深厚的领域知识，如声音工程、后制、语音表演等，但大众和消费者都不会有这些资源。他们推出这个模型，相信未来可降低声音生成的门槛，让任何人都更容易制作影片或podcast、电玩或其他应用场景的音效。

Meta即将准备让特定研究人员及学者专家试用Audiobox，测试模型品质及安全伦理性。再过几周将透过申请网页开放申请试用。

Audiobox是Meta发表的AI研发成果之一。为庆祝AI研究中心FAIR成立十周年，Meta还公布翻译模型Seamless Communication。此外，Meta也宣布即将公开影像学习及多模感知模型的基础训练资料集Ego-Exo4D。Ego-Exo4D是Meta开发VR眼镜Project Aria并和学界合作的成果，主体为以人为中心（egocentric）及外心（exocentric，由镜头环视周遭场景）的资料集，两种角度能提升AI模型学习人类技能的能力。这批资料包含1,400小时影片及基准模型，将供研究社群使用。

Meta发表首个能同时接受语言及文字输入的声音生成模型Audiobox