Nvidia公布Blackwell平臺AI推論Llama 2執行效能，為前代GPU 4倍

图片来源:

Nvidia

Nvidia昨（28）日公布财报，并公布下一代GPU架构Blackwell的执行效能，宣称执行Llama 2的效能是前代产品的4倍。

Nvidia希望趁财报，为其预计第4季上市的Blackwell平台晶片包括B100、B200暖场，但报导指出，新晶片因设瑕疵，推出时程可能会延迟到2025年第2季。

Nvidia宣称，在最新的MLPerf Inference 4.1标竿测试中，Nvidia平台做过所有资料中心的测试，其中Blackwell平台产品执行MLPerf最大的LLM工作负载Llama 2 70B的测试效能，比前一代Nvidia H100 Tensor Core GPU快高达4倍，这要拜第二代Transformer人工智慧引擎和FP4精度的Tensor Core核心所赐。

最新的MLPerf标竿测试加入新的测试项目。其中包含专家混合（Mixture of Experts，MoE）模型，特别是Mixtral 8x7B模型。MoE模型之所以大行其道，是因为可支援多种任务、回答多种问题的企业开发需求，而且由于每次推论只需启动几个专家（而非整个模型），效能也更高。另一方面，LLM的推论应用持续增长，也推升对运算的需求，使多GPU（multi-GPU）运算成为必要。

有鉴于此，Nvidia指出，前代Hopper架构为基础的Nvidia NVLink互连技术和NV Switch晶片已经支援大型模型的即时推论。而新一代的Blackwell平台将进一步以72颗GPU及更大的NVLink网域扩展NV Switch晶片的能力。

除了新Blackwell架构，Nvidia并宣称其H200 GPU搭载推论软体Triton Inference Server在最近一次MLPerf测试表现，比前一次提升27%。而在边缘运算平台上，NVIDIA Jetson AGX Orin SOM（system-on-modules）在执行GPT-J LLM模型的测试中，传输量提升6.2倍，而延迟性则改善2.4倍。Nvidia表示，这效能表现让Jetson平台很适合于本地执行LLM、视觉transformer模型及Stable Diffusion模型等任务。

Nvidia公布Blackwell平台AI推论Llama 2执行效能，为前代GPU 4倍