微软公布具视觉能力的Phi-3-vision多模态模型,可执行在行动装置上

图片来源: 

Hugging Face

在Build 2024开发者大会上,微软公布Phi-3-vision模型,轻巧到可执行在行动装置上,又具备视觉能力,可理解文字和图片。

Phi-3-vision为4月公布的Phi-3模型家族最新成员,参数量为42亿,大于Phi-3-mini(3.8B),但小于Phi-3-small(7B)。Phi-3-vision是Phi-3家族第一个多模态模型,其文字理解能力是以Phi-3-mini为基础,也具备Phi-3-mini的轻量特色,可执行在行动装置上。但它最大特色是整合了图片识别能力,能理解真实世界的图片,也能理解并撷取出图片中的文字。

微软说,Phi-3-vision特别为了图表与方块图理解优化,可用于产出洞见与回答问题。例如用户输入不同世代员工使用的职场工具的图表图片后,要求它以产出协助决策的洞见,Phi-3-vision可以说明它看到了Z世代、千禧世代、X世代及婴儿潮世代员工使用AI工具的比例,并能分点描述各年龄群组的数据、推论群组的行为,还能做出结论、提供企业相应建议(例如制定促进各群组使用的策略)。

图片来源/微软

Phi-3-vision现在已以预览版公开于Hugging Face平台上。

最新公布的Phi-3-vision为指令调校过的Phi-3-128K-Instruct模型,包括Phi-3-mini语言模型、图片编码器、连接器(connector)与投影器(projector)。其脉络长度为128k token,训练期间为2024年2月到4月。

资料集方面,Phi-3-vision是以500B token的多种类型图片及文字资料来训练,包括严选公开内容、高品质教育资料与程式码、高品质的图文整合资料、新的「教科书等级」合成资料(主要是数学、程式、常识理解、真实世界知识如科学、日常活动、心灵理论)与图表图片,以及高品质的监督式聊天格式资料,后者涵括多种人类偏好如遵从指令、真实、诚实、助益等主题。为了确保隐私,资料搜集过程中已筛选掉包含个资的资料。

微软也提供了Phi-3-vision相较于字节跳动Llama3-Llava-Next(8B)及(微软研究院和威斯康辛大学、哥伦比亚大学合作的)LlaVA-1.6(7B)、阿里巴巴通义千问QWEN-VL-Chat模型在效能比较,显示最新模型在多个项目上表现优异。

资料来源/微软

最新宣布也让微软和苹果在本地端AI竞赛再加剧。在微软公布了Phi-3系列后,苹果也公布了OpenELM模型,最小模型只有2.7亿个参数