Mistral AI开源语音模型Voxtral

图片来源: 

Hugging Face

法国AI新创Mistral AI周二(7/15)首度开源旗下语音模型Voxtral,包括适用于生产规模、具备240亿个参数的Voxtral Small 1.0,以及可部署在本地及边缘、拥有30亿个参数的Voxtral Mini 1.0,它们采用Apache 2.0授权,也可利用API存取,还提供了一个针对转录优化的API端点。

Mistral AI是在2023年由3位法国AI研究人员Arthur Mensch、Guillaume Lample及Timothée Lacroix所创立,其中,Mensch曾任职于Google DeepMind,Lample与Lacroix则曾替Meta效力,2024年底估值为58亿欧元,为欧洲成长最快的AI独角兽之一。Mistral AI采用开源与闭源的混合策略,已开源基础语言模型Mistral 7B、混合专家模型Mixtral 8x7B及对话微调版本Mistral 7B Instruct,但Mistral Small/Medium/Large则是闭源的,仅透过API供应。另有开放测试的聊天机器人Le Chat

Mistral AI指出,目前市场上的语音模型可能是高单字错误率、或语义理解有限的开源ASR(Automatic Speech Recognition,自动语音识别)系统,或者是结合转录及语言理解、但成本更高的私有API,Voxtral以开放的方式提供最先进的准确性及原生语义理解,但价格不到竞争对手的一半。

最新的两款Voxtral模型都支援32K个Token的脉络长度,可处理长达30分钟的音讯转录或是理解40分钟的音讯;内建问题与摘要功能,无需连结单独的ASR及语言模型;支援英文、西班牙文、法文、葡萄牙文、印地文、德文、荷兰文与义大利文等;可直接自语音调用函数;保留Mistral Small 3.1的文本理解,拥有强大文字能力。

在语音转录上,Voxtral的性能全面超越当前领先的开源语音转录模型Whisper large-v3,也在所有任务上都击败GPT-4o mini Transcribe与Gemini 2.5 Flash,于英文短格式及Mozilla Common Voice上超越ElevenLabs Scribe,亦展现其多语文能力。

而Voxtral Small的理解能力则可与GPT-4o-mini及Gemini 2.5 Flash竞争。

使用者或开发人员可自行下载Voxtral Small与Voxtral Mini,或是透过API存取其付费服务,每分钟为0.001美元,也能借由Le Chat先行试用。