Amazon
Amazon本周宣布AI开发团队训练出历来最大、高达10亿参数的语音合成(text-to-speech,TTS)模型BASE TTS,号称生成的语音自然度超过现有语音合成系统。
BASE TTS模型全名为Big Adaptive Streamable TTS with Emergent abilities,是利用10万小时公开可取得的语音资料训练而成的多语、多说话者大型TTS(LTTS)。研究团队希望以LLM来改进现有TTS系统的声音品质。
BASE TTS以10亿参数的自我回归(autoregressive)Transformer模型为基础,并串流式卷积解码器而成简单高效率的架构,前者将输入文字转换成语音编码(speechcodes),后者则将语音编码转成声音波形。其语音编码是以新的语音标记化(tokenization)手法制作,这技术利用位元组对编码(byte-pair encoding)进行说话者ID识别(disentanglement)及压缩。
Amazon指出,其训练出的BASE TTS为高度拟真模型,只要几秒钟的参考语音范本,即可产出极自然的声音。研究团队比较了BASE TTS和开源大规模语音合成系统如YourTTS、Bark、TortoiseTTS在生成的英语语句的优劣。从语音自然度、文字错误与和英语人士说话相似度三个面向上,他们认为BASE TTS优于现有系统。研究团队相信此模型有很广的用途,像是为因意外或疾病丧失说话能力的患者合成人声。
图片来源/Amazon
而新LLM模型的「新兴能力」(emergent abilities)也是Amazon的重点。所谓新兴能力,是指只存在大模型而小模型没有的能力,例如可以少数样本训练,以及在训练时浮点运算(FLOP)可快速提升。为测试BASE TTS未来在扩充到更大量资料集,能力是否更增强,Amazon团队又以1万余小时资料训练出的BASE TTS的5亿参数小型版本测试。他们根据7个要素来测试这小型版本,包括复合名词、情感、外国文字、副语言(如音量大小、语调、语气停顿、声音表情)、断句、问题及句型复杂度等,显示其具备进阶的文字理解能力,能在一些复杂的句子上展现自然的音调,并且证明资料量及参数增加,可使模型生成品质跟著提升。
BASE TTS支援英文和西语。但为防止本模型被误用,Amazon决定不开源出来。此外,为免训练资料影响本模型对弱势民族、方言、性别的表达能力,Amazon鼓励未来研究人员测量资料组成的影响,并找出减少偏见、提升多元包容性的方法。
Amazon并未说明未来会将这模型用在哪,但可能会在其AWS服务,Amazon Bedrock平台提供多项AI服务。此外也可能用在正进行改造的Alexa。媒体报导,Amazon计划改造Alexa成付费服务,虽然目前遭遇团队路线纷争,但预定6月推出。