图片来源:
Nvidia
Nvidia在本周举行的Nvidia GTC开发者大会上,发表了新一代的GPU架构Blackwell,基于该架构的B100与B200两款GPU,结合两个B200及一个Nvidia Grace CPU打造而成的超级晶片GB200 Grace Blackwell Superchip,以及以GB200为核心的GB200 NVL72资料中心机架系统,同时宣称此一机架系统将可提供兆级数量参数的大型语言模型(LLM)训练及即时推论。
GB200 NVL72为支援多节点与液冷的机架系统,专为密集运算任务所设计,它结合了36个GB200,等同于采用72个B200 GPU与36个Grace CPU,晶片间以第5代的NVLink互连,并导入Nvidia的BlueField-3资料处理单元,可于超大规模的AI云端中实现网路加速、组合储存、零信任安全,以及弹性的GPU运算能力。
相较于基于前一代Hopper架构、数量相同的H100 GPU,GB200 NVL72在LLM训练效能上快了4倍;推论任务上的效能提高了30倍;由于整合了新的解压缩引擎,加速了绑定记忆体的核心操作,使得它在查询基准测试上比英特尔CPU Sapphire Rapids快了18倍,也比H100 GPU快了6倍。
图片来源/Nvidia
Nvidia解释,在单一NVLink网域上连接了72个GB200,减少了于传统网路上扩展的通讯负担,因而可以针对具备1.8兆个参数的专家混合大型语言模型进行即时推论,且训练这类模型的速度也增快了4倍。
此外,GB200 NVL72利用铜制电缆盒密集封装与连接GPU以简化操作,并采用液体冷却设计,使其成本与电力使用减少了25倍。