Mistral AI開源語音模型Voxtral

图片来源:

Hugging Face

法国AI新创Mistral AI周二（7/15）首度开源旗下语音模型Voxtral，包括适用于生产规模、具备240亿个参数的Voxtral Small 1.0，以及可部署在本地及边缘、拥有30亿个参数的Voxtral Mini 1.0，它们采用Apache 2.0授权，也可利用API存取，还提供了一个针对转录优化的API端点。

Mistral AI是在2023年由3位法国AI研究人员Arthur Mensch、Guillaume Lample及Timothée Lacroix所创立，其中，Mensch曾任职于Google DeepMind，Lample与Lacroix则曾替Meta效力，2024年底估值为58亿欧元，为欧洲成长最快的AI独角兽之一。Mistral AI采用开源与闭源的混合策略，已开源基础语言模型Mistral 7B、混合专家模型Mixtral 8x7B及对话微调版本Mistral 7B Instruct，但Mistral Small/Medium/Large则是闭源的，仅透过API供应。另有开放测试的聊天机器人Le Chat。

Mistral AI指出，目前市场上的语音模型可能是高单字错误率、或语义理解有限的开源ASR（Automatic Speech Recognition，自动语音识别）系统，或者是结合转录及语言理解、但成本更高的私有API，Voxtral以开放的方式提供最先进的准确性及原生语义理解，但价格不到竞争对手的一半。

最新的两款Voxtral模型都支援32K个Token的脉络长度，可处理长达30分钟的音讯转录或是理解40分钟的音讯；内建问题与摘要功能，无需连结单独的ASR及语言模型；支援英文、西班牙文、法文、葡萄牙文、印地文、德文、荷兰文与义大利文等；可直接自语音调用函数；保留Mistral Small 3.1的文本理解，拥有强大文字能力。

在语音转录上，Voxtral的性能全面超越当前领先的开源语音转录模型Whisper large-v3，也在所有任务上都击败GPT-4o mini Transcribe与Gemini 2.5 Flash，于英文短格式及Mozilla Common Voice上超越ElevenLabs Scribe，亦展现其多语文能力。

而Voxtral Small的理解能力则可与GPT-4o-mini及Gemini 2.5 Flash竞争。

使用者或开发人员可自行下载Voxtral Small与Voxtral Mini，或是透过API存取其付费服务，每分钟为0.001美元，也能借由Le Chat先行试用。

Mistral AI开源语音模型Voxtral