Stability AI释出文字生成声音模型开源版本Stable Audio Open

Stability AI周三(6/5)释出了文字生成声音模型的开源版本Stable Audio Open,在使用者输入文字描述后,它便能生成长达47秒的样本与声音效果。

Stability AI以超过48万个声音纪录来训练Stable Audio Open模型,其中超过9成的纪录来自Freesound,另有少数来自「免费音乐档案」(Free Music Archive ,FMA),所有的音讯档都取得了免费的共享许可,并使用预训练的T5(Text-to-Text Transfer Transformer)文字模型来处理与生成文本。

Stable Audio Open让使用者输入简单的文字提示,即可生成最多长达47秒的高品质声音,Stability AI宣称它很适合用来建立鼓点、音乐即兴片段、环境音效、模拟录音,或是其它与音乐及声音有关的样本。开源版本的好处之一还包括使用者可以利用自己的声音资料来调整模型,例如鼓手可以加入自己的录音样本来生成新的节奏。

其实该公司在去年9月便先推出了商业版的Stable Audio,同时提供免费与付费方案。Stability AI解释,Stable Audio可生成高品质、完整且长达3分钟的连贯音乐结构,而Stable Audio Open则专注于声音样本、音效与制作元素,尽管Stable Audio Open能够生成简短的音乐,但并未针对完成的歌曲、旋律或人声进行优化。

使用者也可迳自利用Stable Audio免费版来测试与Stable Audio Open的差异,Stable Audio Open 1.0现阶段则可透过Hugging Face取得