微软公布制作逼真虚拟化身的Azure AI工具

图片来源: 

微软

微软在Ignite大会上宣布在Azure AI Speech服务下,能生成逼真虚拟化身的AI新工具,并开放大众预览试用。

这项工具名为Azure AI Speech text to speech (TTS) avatar。TTS为Azure AI Speech 4项模组之一,可从文字合成语音(其他三项为语音转录、语言翻译及语音辨识服务)。最新工具让使用者可输入文字生成会说话的虚拟化身,以及打造以人物图像训练的互动式聊天机器人,可用于企业的行销、业务或客户服务。

这项新工具包含三项元件,分别是文字分析器、TTS声音合成器及TTS虚拟化身影像合成器。文字分析器会先分析用户输入的文字提示,产生音素序列(phoneme sequence)。接著TTS声音合成器中的TTS语音模型会预测输入文字的声学特征,再合成声音。最后,由神经网路声音合成模型Avatar根据声学特征预测人物的唇形影像,制作出合成影片。

微软解释,传统虚拟化身制作耗时费工,需要设立拍摄环境、拍摄并剪辑影片,也很花成本。运用TTS聊天机器人/虚拟化身,用户只要输入文字就可以制作影片、产品介绍或客户证言影片等。此外,运用Azure OpenAI Service及神经网路TTS功能,可透过虚拟化身呈现更自然的互动体验。

微软举例,用户可利用Azure AI Speech TTS avatar批次制作影片内容,像是企业内训影片、产品介绍或CEO在大会上的数位分身。也可以制作虚拟人像,像是旅游网站的聊天机器人、广告中的虚拟业务或线上教学的AI老师等。

这项虚拟化身AI影片制作工具提供给Azure订户。虚拟化身能支援多种语言,用户可以从预设的虚拟化身选单中挑选,也可以自行客制化虚拟化身。想要客制化,用户可以上传想要的人物影片片段,该系统会以之训练并生成虚拟化身。用户也可以选择选单中的声音,或另外训练,以便生成一个完全客制化及个人化的虚拟化身。

为了避免这项功能被滥用,制作诈骗讯息或假新闻,客制化虚拟化身只提供实名注册的用户有限存取,也只供特定应用场景。用户需在微软网页注册申请

Azure AI Speech TTS avatar只是Ignite开发商大会上,微软公布Azure AI Speech新增功能之一。其他宣布还有三项已正式上线的功能,分别是双语模型(支援英/西及英/法),可提供即时语音转录(speech to text)、可嵌入装置的语音转录及语音合成、以及14种语言的发音评估。

此外Azure AI Speech提供三项功能有限度的公测,分别是Azure OpenAI Studio Chat Playground的语音转录及语音合成、个人化声音合成、以及OpenAI语音辨识模型Whisper的客制化。微软并开放Azure AI Studio中的语音分析(Speech Analytics)及说话者自动分段标记(Speaker Diarization)供测试。