辉达超高密度GPU整柜型AI伺服器系统亮相,9家厂商在Computex展出GB200 NVL72

图片来源: 

李宗翰

抢攻爆量云端AI应用需求商机,Nvidia持续推出打破市场惯用规格的解决方案!当其他厂商开始重视GPU、积极推出GPU伺服器时,他们早已开始打造DGX这类整合应用伺服器设备,而在自家GPU、GPU应用设备不断推陈出新之际,Nvidia也发展出整柜型解决方案DGX BasePOD、DGX SuperPOD,以及与四大公有云服务业者合作推出DGX Cloud。

这两年以来,Nvidia发表结合自家GPU与自研Arm架构CPU的超级晶片GH200,以创新的方式克服GPU记忆体容量供不应求的困境,开创AI加速伺服器的新局。例如,在2023年5月底举行的台北国际电脑展(Computex)期间,Nvidia与多家伺服器厂商合作推出搭配GH200的产品,并且基于这款融合式加速晶片发表新型态的多机柜AI超级电脑系统DGX GH200,到了2023年底,他们也与公有云服务龙头AWS共同宣布,将引进Nvidia发展的新型多节点整合机柜系统GH200 NVL32。

而在今年6月初登场的2024台北国际电脑展,多达10家厂商展出Nvidia最新发表的AI整柜伺服器系统GB200 NVL72,堪称2024年上半全球最大规模的AI硬体军火展示。

以Computex活动现场而言,展出Nvidia这套系统的厂商有哪些?绝大部分都集中在南港展览馆1馆,例如,1楼有技嘉科技(Gigabyte),3楼有纬创集团(Wistron)与纬颖科技(Wiwynn)、广达集团的云达科技(QCT),4楼有美超微(Supermicro)、华硕(Asus)、英业达(Inventec)、华擎科技的子公司永擎电子(ASRock Rack)、富士康科技集团的鸿佰科技(Ingrasys);和硕联合科技(Pegatron)则是在台北市北投区的公司总部,展出Nvidia GB200 NVL72。

之所以能在今年Computex期间,促成如此盛大的产品展示,最主要的原因可能在于,台湾本身就是全球伺服器研发、设计与生产的重镇,而在这些厂商与Nvidia近期密切合作之下,得以在产地就近展示最新研发制造的Nvidia专属超级电脑伺服器系统。

Nvidia发表资料中心GPU架构Blackwell,导入此架构的超级晶片先出场,带出新一代整柜型AI加速伺服器系统产品上阵

在今年3月举行的GTC大会,Nvidia发表新一代GPU架构Blackwell,也特别标榜结合基于此架构而成的GPU晶片B200与Grace CPU的GB200 Grace Blackwell Superchip,以及大量采用这颗超级晶片的多节点整柜系统GB200 NVL72,当时他们预告AWS、Google Cloud、Azure、Oracle Cloud Infrastructure这四大公有云业者,将是第一批提供搭配Blackwell技术运算执行个体服务的厂商,除了微软,其他三大公有云均提到将导入GB200 NVL72系统。

而在6月初登场的台北国际电脑展前夕,Nvidia创办人暨执行长黄仁勋率先发表主题演讲,当中透过一段动画影片秀出GB200 NVL72的系统结构。

 

 

以单台节点而言,依照由小而大的组成顺序来看,分别是:将两颗裸晶统合为单颗GPU的Blackwell,集结两颗Blackwell与单颗Grace处理器的GB200 Grace Blackwell Superchip,搭配2张GB200超级晶片、ConnectX-800G InfiniBand SuperNIC网路卡、BlueField-3资料处理器的GB200 Compute Node(单台节点有4颗Blackwell与2颗Grace)。

就单台机柜而言,GB200 NVL72包含18台GB200运算节点组成的GB200 Compute Tray(采用36张GB200 Grace Blackwell Superchip,提供72颗Blackwell与36颗Grace),9台各自搭配两颗NVLink Switch晶片组成的交换器组成的NVLink Switch System。

若需建置多柜型系统,搭配多台GB200 NVL72之余,可结合以多台Quantum-X800 800G InfiniBand Switch交换器组成的机柜进行串联,组成GB200 NVL72 Compute Rack,再以多台这样的运算机柜系统,建置一座完整的资料中心,提供3.2万颗Blackwell GPU,成为促成产业新革命的AI工厂。

部分厂商公布GB200 NVL72系统组成机型与技术规格

在2024台北国际电脑展期间公开亮相的GB200 NVL72当中,外型大同小异,多数厂商现场展出的是单柜机型,例如,纬颖、永擎、技嘉、美超微、英业达,大多搭配1U尺寸的运算节点伺服器,其中,技嘉、英业达、和硕均展出搭配2U尺寸的运算节点伺服器,厂商们将这样的配置称为GB200 NVL36。

其他厂商提供延伸搭配方式,像是云达、华硕、鸿佰展出的产品,是一座伺服器机柜搭配一座称为侧车(Side Car)的冷却机柜(编按:所谓的侧车是一种液态冷却机柜搭配伺服器机柜的部署形式,应该是借用两轮机车侧边加装附有单轮乘坐设备的比喻)。

以云达为例,他们与

针对Nvidia GB200 NVL72系统的运算槽,华硕也在Computex现场展示机箱内部设计。我们可看到里面配备2张GB200 Grace Blackwell Superchip,上面均覆盖冷水板,而在机箱中间有个他们设计的电源配送板(Power Distribution Board,PDB),可将48伏特直流电转换为12伏特直流电,供应Blackwell GPU使用;除此之外,这个运算槽还搭配可安装E1.S外形固态硬碟的储存模组,以及两张BlueField-3资料处理器系列的双宽全高半长款式B3240。