微軟公布製作逼真虛擬化身的Azure AI工具

图片来源:

微软

微软在Ignite大会上宣布在Azure AI Speech服务下，能生成逼真虚拟化身的AI新工具，并开放大众预览试用。

这项工具名为Azure AI Speech text to speech (TTS) avatar。TTS为Azure AI Speech 4项模组之一，可从文字合成语音（其他三项为语音转录、语言翻译及语音辨识服务）。最新工具让使用者可输入文字生成会说话的虚拟化身，以及打造以人物图像训练的互动式聊天机器人，可用于企业的行销、业务或客户服务。

这项新工具包含三项元件，分别是文字分析器、TTS声音合成器及TTS虚拟化身影像合成器。文字分析器会先分析用户输入的文字提示，产生音素序列（phoneme sequence）。接著TTS声音合成器中的TTS语音模型会预测输入文字的声学特征，再合成声音。最后，由神经网路声音合成模型Avatar根据声学特征预测人物的唇形影像，制作出合成影片。

微软解释，传统虚拟化身制作耗时费工，需要设立拍摄环境、拍摄并剪辑影片，也很花成本。运用TTS聊天机器人／虚拟化身，用户只要输入文字就可以制作影片、产品介绍或客户证言影片等。此外，运用Azure OpenAI Service及神经网路TTS功能，可透过虚拟化身呈现更自然的互动体验。

微软举例，用户可利用Azure AI Speech TTS avatar批次制作影片内容，像是企业内训影片、产品介绍或CEO在大会上的数位分身。也可以制作虚拟人像，像是旅游网站的聊天机器人、广告中的虚拟业务或线上教学的AI老师等。

这项虚拟化身AI影片制作工具提供给Azure订户。虚拟化身能支援多种语言，用户可以从预设的虚拟化身选单中挑选，也可以自行客制化虚拟化身。想要客制化，用户可以上传想要的人物影片片段，该系统会以之训练并生成虚拟化身。用户也可以选择选单中的声音，或另外训练，以便生成一个完全客制化及个人化的虚拟化身。

为了避免这项功能被滥用，制作诈骗讯息或假新闻，客制化虚拟化身只提供实名注册的用户有限存取，也只供特定应用场景。用户需在微软网页注册申请。

Azure AI Speech TTS avatar只是Ignite开发商大会上，微软公布Azure AI Speech新增功能之一。其他宣布还有三项已正式上线的功能，分别是双语模型（支援英／西及英／法），可提供即时语音转录（speech to text）、可嵌入装置的语音转录及语音合成、以及14种语言的发音评估。

此外Azure AI Speech提供三项功能有限度的公测，分别是Azure OpenAI Studio Chat Playground的语音转录及语音合成、个人化声音合成、以及OpenAI语音辨识模型Whisper的客制化。微软并开放Azure AI Studio中的语音分析（Speech Analytics）及说话者自动分段标记（Speaker Diarization）供测试。

微软公布制作逼真虚拟化身的Azure AI工具