联发科一口气开源2款繁中多模态小模型、符合台湾口音的语音合成模型

图片来源: 

联发科

联发创新基地(MediaTek Research)最近,要来强化手机AI助理的能力,比如读取图片、调用外部工具。同时,联发科也一并

多模态能力来说,Llama-Breeze2-3B除了理解文字,还能分析图像,如图表、光学文字辨识(OCR)或景点照片,模型都能理解和回答。举例来说:

USER请问前三名总共可获得多少钱?

Llama-Breeze2-8B根据图片,第一名的奖金为30万元整,第二名为20万元整,第三名为15万元整。将这些数字相加,我们得到前三名奖金总和为65万元整。

不只如此,Llama-Breeze2因为具备呼叫函式功能,因此可以调用外部工具,来完成特定任务。比如,使用者询问天气情况时,模型可以调用天气应用程式API来获取最新资讯,再回复给使用者。

以Llama-Breeze2-3B模型驱动的Android App

除了开源2款多模态语言模型,联发创新基地还开源可直接部署到手机、以Llama-Breeze2-3B为基础的Android App。这个App可作为AI助理,来协助即时翻译、景点推荐等任务(如下图),甚至还能生成语音,使用者只要输入文字,模型就能生成自然的语音回应,可用于智慧导航等情境。

只需5秒,就能生成台湾口音的语音合成模型BreezyVoice

这次,联发科创新基地还开源了语音合成模型BreezyVoice,特别以繁中加强训练而成。这个模型采轻量架构,只需输入5秒的范例音讯,就能即时产出拟真的语音,可作为AI助理语音输出。联发科表示,BreezyVoice现已能在笔电上使用,也能结合任何LLM或语音转文字架构,来发展更多应用。