Hugging Face第二届LLM排行榜出炉,中国LLM表现出色

图片来源: 

Hugging Face

机器学习模型与资料集共享平台Hugging Face上周公布第二届的开源大型语言模型(LLM)排行榜,表现最佳的是由阿里巴巴所释出的Qwen 2,且在前十名的LLM中,就有5个来自中国。

Hugging Face主要使用六大测试基准,包括大规模的多工语言理解MMLU-Pro,知识问答GPQA,多步骤的软性推理MuSR,启发式数学MATH,指令遵循能力IFEval,以及具挑战性的任务BBH等。

而排名在前十大的开源LLM依序是阿里巴巴 Qwen 2 -72B,Meta Llama 3-70B,微软Phi-3-Medium-4K-Instruct,零一万物的Yi-1.5-34B,CohereForAI的c4ai-command-r-plus,Abacus.AI的Smaug-72B,Qwen 1.5-110B,Phi-3-Small-128K-Instruct,以及Yi-1.5-9B。

完整的排行榜中可以看到每个开源模型的平均表现,以及于不同基准测试中的表现,其中,Qwen 2 -72B在各项基准的平均表现为43.02,明显凌驾第二名Meta Llama 3-70B的36.67。

Hugging Face共同创办人暨执行长Clement Delangue在结果出炉的当时表示,该平台总计使用了300个H100 GPU来测试市场上的开源LLM,不仅是由源自中国阿里巴巴的Qwen 2 -72B胜出,中国在开源LLM市场上也占据主导地位,此外,对最近更新的模型来说,过去的基准变更太容易了,如同高中生在解决国中生的问题一样。

Delangue还发现两件有趣的事,一是打造模型的开发者愈来愈注重各种主要的测试基准,而忽略或牺牲了其它基准;其次则是越大的模型并不总是越聪明。

不过,就在Google上周释出开源的Gemma 2之后,DeepMind的首席研究人员Armand Joulin便宣布,Gemma 2-27B已是市场上最好的开源模型。Gemma采用与Gemini同样的研究及技术而打造,第二代提供了9B及27B两种版本,Joulin宣称就算Gemma 2-27B的模型规模比其它竞争对手小了2.5倍,却已是最好的开源模型。

另一方面,Large Model Systems Organization(lmsys.org)也呼应了Joulin的说法,指出在Google释出Gemma 2以来便开始搜集开发者的测试意见,已有超过5,000名开发者认为Gemma 2-27B已胜过Meta Llama 3-70B,为市场上最好的开源模型,不过,lmsys.org的调查一来专注于聊天机器人领域,二来是由开发者进行比较与投票,与Hugging Face所采取的方式不同。