一家厂商主导的AI硬体生态系统

这几年来,Nvidia堪称最活跃、最受各界瞩目的企业级加速运算平台厂商,随著伺服器虚拟化、大数据分析、生成式AI技术浪潮一波波袭来,Nvidia都在其中扮演重要角色,他们不断打破既有市场规则,开创许多新的典范。

以及今年发表的Blackwell架构资料中心GPU为例,截至目前为止,Nvidia在尚未推出基于这个GPU晶片而成的运算模组或加速卡之际,居然就已开始主推新一代融合晶片GB200 Grace Blackwell Superchip(结合自研Arm处理器Grace与Blackwell架构GPU),基于36个GB200的整柜式系统GB200 NVL72,以及预载8个Blackwell架构GPU的加速运算基板:HGX B200、HGX B100,而非按部就班地推广各种GPU解决方案。

先前Nvidia在Ampere架构与Hopper架构的作法,是先解说与强调单个A100或H100 GPU的性能与效益,同时带入汇集4或8个GPU的加速运算基板/GPU伺服器,展示整个伺服器厂商生态的支持与响应,后续再扩及搭配更大量GPU的单柜或多柜型系统。不过,随著Nvidia去年完成融合晶片GH200 Grace Hopper Superchip的设计,以及多家厂商这两年陆续推出基于GH200的伺服器,像是:云达、Supermicro、技嘉、华硕、永擎、和硕、Nvidia、Amax、立端、HPE,或许是因为这些厂商的热烈响应,使Nvidia对这类采用「超级晶片」的伺服器更有信心,因此,今年3月GTC大会与6月台北国际电脑展,他们更是开门见山、直接主推基于GB200而成的伺服器与整柜型系统。至于Blackwell架构GPU的主要技术特色介绍,并不像前几代资料中心GPU架构发表时那样详尽,目前只能仰赖Nvidia网站的介绍,而且,上面公布的技术架构简介文件,聚焦Blackwell架构的部分,严格来说只有5页篇幅,相较之下,现行Hopper架构技术白皮书,在架构设计、规格、效能的总览与深度解析有近50页之多。

在Blackwell架构GPU的效能展现上,今年8月底公布的AI推论测试结果MLPerf Inference v4.1,首度以第三方机构的角度,揭露基于此架构而成的产品B200能耐(单台伺服器、单个GPU),从中可看出同样使用Llama 2 70B的模型时,B200均大幅领先AMD Instinct MI300X、Nvidia GH200、Nvidia H200。

若就网路与储存的产品技术搭配与合作厂商来看,Nvidia更是遥遥领先其他竞争对手。就网路技术而言,英特尔、AMD、Nvidia都能同时提供超高速网路介面卡,以及资料处理器(DPU)、基础架构处理器(IPU),帮忙分摊伺服器的加解密处理,以及具备可程式化能力的调度指挥机制。然而,截至目前为止,只有Nvidia很果决地将这样的解决方案,与他们的AI加速运算系统进行搭配,而且不仅提供乙太网路与InfiniBand这两种技术的支援,也将旗下的资料处理器、网路交换器、网路线、软体定义网路系统,统合为新的网路平台,名为Spectrum-X与Quantum-X,再加上Nvidia的网路解决方案先前就已陆续支援GPUDirect系列技术,并且将原本他们想要发展的网内运算(In-Network Computing),更聚焦在如何加速AI工作负载,借此提供更有效率、更少损耗、更低延迟的资料中心网路环境。

相较之下,其他两家厂商的网路卸载/加速解决方案,并未与他们的资料中心GPU或AI加速器连成一气、形成互相支援的技术堆叠架构,仍是各行其是。不过,AMD本月发表新的资料处理器Pensando Pollara 400,或许后续能带来更多技术整合层面的突破,因为在这当中,AMD提供同样称为GPUDirect的GPU横跨乙太网路的直连通讯功能。

在储存方面,Nvidia已拉拢不少厂商加入支援与合作阵营。近年来,越来越多企业级储存系统厂商支援Nvidia发展的GPUDirect Storage(GDS),根据Nvidia在他们网站文件区公布的GPUDirect Storage Release Notes,8月份的分散式档案系统产品支援矩阵,有多达9个厂牌、15个储存系统平台,被认可的时间最早是2021年6月(WekaIO),最近的是2023年12月(Pure Storage),除此之外,还有其他厂商陆续宣布支援,在1205期周刊的封面故事当中,我们的技术主笔张明德会有更完整的报导。

 相关报导