Mistral發表文件OCR API 支援PDF、圖片、影音也看得懂數學

图片来源:

Mistral AI

法国AI新创公司Mistral AI本周发表光学字元辨识（OCR）API，名为Mistral OCR，以加速文件数位化作业，并号称效能超越Gemini 1.5、GPT-4o。

Mistral AI指出，Mistral OCR不同其他模型，能以超越以往的精确性和认知能力来理解文件的每一种元素，包括影音、图片、表格、文字、数学方程式或进阶版型如LaTex格式。因此即使是包含图表、方程式和数字、图形的科学论文这类丰富文件，Mistral OCR也能深切理解。

在输入端，Mistral API可支援文字、图片、PDF，以及图文交错的文件，并从中撷取出内容。因此Mistral OCR很适合结合检索增强生成（retrieval-augmented generation，RAG）系统来处理多模态文件（像是简报或复杂的PDF）。它还支援文件为提示（document as prompt）的处理，让用户可以从文件撷取出特定资讯，再套用格式加入到结构化输出中，例如JSON。用户可将撷取出的输出灌注到下游函式呼叫，开发代理人。

Mistral AI也比较了新的Mistral OCR与Google Document AI、Azure OCR、Gemini 1.5、GPT-4o，显示不论是在理解数学、多语、表格及扫瞄内容上都优于竞争对手。此外，Mistral OCR号称速度业界最快，单一节点每分钟可处理2,000页。

可能的应用场景包括科学研究数位化、历史文化保存、提升客服效率、以及将纸本文件预处理以供AI处理等。

Mistral OCR已是Mistral聊天机器人Le Chat理解文件任务的预设模型，现在则透过API mistral-ocr-latest开放，代价为1美元1,000页，如果是批次推论任务，则1元可处理近2,000页。

现在Mistral API可在la Plateforme上向开发人员开放。Mistral AI计划很快会将之推向Mistral AI的云端或第三方推论服务伙伴平台，以及允许部分客户在本地部署环境上执行。图片来源／Mistral AI

Mistral发表文件OCR API 支援PDF、图片、影音也看得懂数学