Nvidia公布Blackwell平台AI推论Llama 2执行效能,为前代GPU 4倍

图片来源: 

Nvidia

Nvidia昨(28)日公布财报,并公布下一代GPU架构Blackwell的执行效能,宣称执行Llama 2的效能是前代产品的4倍。

Nvidia希望趁财报,为其预计第4季上市的Blackwell平台晶片包括B100、B200暖场,但报导指出,新晶片因设瑕疵,推出时程可能会延迟到2025年第2季。

Nvidia宣称,在最新的MLPerf Inference 4.1标竿测试中,Nvidia平台做过所有资料中心的测试,其中Blackwell平台产品执行MLPerf最大的LLM工作负载Llama 2 70B的测试效能,比前一代Nvidia H100 Tensor Core GPU快高达4倍,这要拜第二代Transformer人工智慧引擎和FP4精度的Tensor Core核心所赐。

最新的MLPerf标竿测试加入新的测试项目。其中包含专家混合(Mixture of Experts,MoE)模型,特别是Mixtral 8x7B模型。MoE模型之所以大行其道,是因为可支援多种任务、回答多种问题的企业开发需求,而且由于每次推论只需启动几个专家(而非整个模型),效能也更高。另一方面,LLM的推论应用持续增长,也推升对运算的需求,使多GPU(multi-GPU)运算成为必要。

有鉴于此,Nvidia指出,前代Hopper架构为基础的Nvidia NVLink互连技术和NV Switch晶片已经支援大型模型的即时推论。而新一代的Blackwell平台将进一步以72颗GPU及更大的NVLink网域扩展NV Switch晶片的能力。

除了新Blackwell架构,Nvidia并宣称其H200 GPU搭载推论软体Triton Inference Server在最近一次MLPerf测试表现,比前一次提升27%。而在边缘运算平台上,NVIDIA Jetson AGX Orin SOM(system-on-modules)在执行GPT-J LLM模型的测试中,传输量提升6.2倍,而延迟性则改善2.4倍。Nvidia表示,这效能表现让Jetson平台很适合于本地执行LLM、视觉transformer模型及Stable Diffusion模型等任务。