Nvidia推出採用最新Blackwell架構的GB200 NVL72資料中心機架系統

图片来源:

Nvidia

Nvidia在本周举行的Nvidia GTC开发者大会上，发表了新一代的GPU架构Blackwell，基于该架构的B100与B200两款GPU，结合两个B200及一个Nvidia Grace CPU打造而成的超级晶片GB200 Grace Blackwell Superchip，以及以GB200为核心的GB200 NVL72资料中心机架系统，同时宣称此一机架系统将可提供兆级数量参数的大型语言模型（LLM）训练及即时推论。

GB200 NVL72为支援多节点与液冷的机架系统，专为密集运算任务所设计，它结合了36个GB200，等同于采用72个B200 GPU与36个Grace CPU，晶片间以第5代的NVLink互连，并导入Nvidia的BlueField-3资料处理单元，可于超大规模的AI云端中实现网路加速、组合储存、零信任安全，以及弹性的GPU运算能力。

相较于基于前一代Hopper架构、数量相同的H100 GPU，GB200 NVL72在LLM训练效能上快了4倍；推论任务上的效能提高了30倍；由于整合了新的解压缩引擎，加速了绑定记忆体的核心操作，使得它在查询基准测试上比英特尔CPU Sapphire Rapids快了18倍，也比H100 GPU快了6倍。

图片来源／Nvidia

Nvidia解释，在单一NVLink网域上连接了72个GB200，减少了于传统网路上扩展的通讯负担，因而可以针对具备1.8兆个参数的专家混合大型语言模型进行即时推论，且训练这类模型的速度也增快了4倍。

此外，GB200 NVL72利用铜制电缆盒密集封装与连接GPU以简化操作，并采用液体冷却设计，使其成本与电力使用减少了25倍。

Nvidia推出采用最新Blackwell架构的GB200 NVL72资料中心机架系统