Nvidia开源能与GPT-4o媲美的NVLM 1.0

图片来源: 

Hugging face

Nvidia在上个月发表了多模态大型语言模型NVLM 1.0,宣称该模型将能与封闭的GPT-4o,或是开源的Llama 3-V 405B与InternVL 2媲美,目前Nvidia已开源NVLM 1.0模型的权重,以及基于Megatron-Core框架的程式码。

在NVLM 1.0的模型设计上,Nvidia全面比较了基于解码器架构的模型,以及采用交叉注意力机制的模型,基于它们的优缺点提出了一种全新的架构,以同时提升训练效率及多模态推论能力。

NVLM 1.0 72B在许多基准测试上就算不是最突出的,但在视觉语言及纯文字任务上,都展现出与Llama 3-V、GPT-4o、Claude 3.5 Sonnet及Gemini 1.5 Pro相当的水平,而NVLM 1.0 72B领先的基准测试则有衡量光学字元辨识能力的OCRBench,以及自然图像理解能力的VQAv2。

Nvidia解释,Llama 3-V 70B与Llama 3-V 405B在纯文字任务上的表现一致,主要是因其LLM主干在执行多模态训练期间被冻结,以确保文本任务能力不会因多模态训练而下滑,但NVLM 1.0 72B的纯文本数字及程式码能力却明显优于LLM主干,在多模态训练之后的平均准确率增加了4.3%。

NVLM 1.0 72B亦具备优秀的指令遵循能力,此外,由于它结合了OCR、推论、定位、常识、世界知识与程式码撰写能力,使得它具备了多元能力,例如它能够理解abstract vs. paper网路迷因的幽默之处,这个热门的迷因由两张图片组成,一张是山猫但写著abstract,另一张是家猫但写著paper,以用来表达摘要看起来很强大,但论文本身却平凡无奇。

图片来源/Nvidia