Mistral AI
法国AI新创公司Mistral AI本周发表光学字元辨识(OCR)API,名为Mistral OCR,以加速文件数位化作业,并号称效能超越Gemini 1.5、GPT-4o。
Mistral AI指出,Mistral OCR不同其他模型,能以超越以往的精确性和认知能力来理解文件的每一种元素,包括影音、图片、表格、文字、数学方程式或进阶版型如LaTex格式。因此即使是包含图表、方程式和数字、图形的科学论文这类丰富文件,Mistral OCR也能深切理解。
在输入端,Mistral API可支援文字、图片、PDF,以及图文交错的文件,并从中撷取出内容。因此Mistral OCR很适合结合检索增强生成(retrieval-augmented generation,RAG)系统来处理多模态文件(像是简报或复杂的PDF)。它还支援文件为提示(document as prompt)的处理,让用户可以从文件撷取出特定资讯,再套用格式加入到结构化输出中,例如JSON。用户可将撷取出的输出灌注到下游函式呼叫,开发代理人。
Mistral AI也比较了新的Mistral OCR与Google Document AI、Azure OCR、Gemini 1.5、GPT-4o,显示不论是在理解数学、多语、表格及扫瞄内容上都优于竞争对手。此外,Mistral OCR号称速度业界最快,单一节点每分钟可处理2,000页。
可能的应用场景包括科学研究数位化、历史文化保存、提升客服效率、以及将纸本文件预处理以供AI处理等。
Mistral OCR已是Mistral聊天机器人Le Chat理解文件任务的预设模型,现在则透过API mistral-ocr-latest开放,代价为1美元1,000页,如果是批次推论任务,则1元可处理近2,000页。
现在Mistral API可在la Plateforme上向开发人员开放。Mistral AI计划很快会将之推向Mistral AI的云端或第三方推论服务伙伴平台,以及允许部分客户在本地部署环境上执行。图片来源/Mistral AI