图片来源:
联发科
联发创新基地(MediaTek Research)最近,要来强化手机AI助理的能力,比如读取图片、调用外部工具。同时,联发科也一并
就多模态能力来说,Llama-Breeze2-3B除了理解文字,还能分析图像,如图表、光学文字辨识(OCR)或景点照片,模型都能理解和回答。举例来说: USER:请问前三名总共可获得多少钱? Llama-Breeze2-8B:根据图片,第一名的奖金为30万元整,第二名为20万元整,第三名为15万元整。将这些数字相加,我们得到前三名奖金总和为65万元整。 不只如此,Llama-Breeze2因为具备呼叫函式功能,因此可以调用外部工具,来完成特定任务。比如,使用者询问天气情况时,模型可以调用天气应用程式API来获取最新资讯,再回复给使用者。 以Llama-Breeze2-3B模型驱动的Android App 除了开源2款多模态语言模型,联发创新基地还开源可直接部署到手机、以Llama-Breeze2-3B为基础的Android App。这个App可作为AI助理,来协助即时翻译、景点推荐等任务(如下图),甚至还能生成语音,使用者只要输入文字,模型就能生成自然的语音回应,可用于智慧导航等情境。 只需5秒,就能生成台湾口音的语音合成模型BreezyVoice 这次,联发科创新基地还开源了语音合成模型BreezyVoice,特别以繁中加强训练而成。这个模型采轻量架构,只需输入5秒的范例音讯,就能即时产出拟真的语音,可作为AI助理语音输出。联发科表示,BreezyVoice现已能在笔电上使用,也能结合任何LLM或语音转文字架构,来发展更多应用。