在2024年6月台北国际电脑展,GPU大厂Nvidia偕同多家伺服器厂商,展出整柜型AI伺服器GB200 NVL72,吸引多家公有云业者与大型科技公司采购建置,然而,在同年7月下半、11月下半,有媒体报导可能有过热问题的传闻,令外界担忧影响出货。当时陆续有多家厂商力挺,例如,鸿海、广达均一再强调不受影响; Dell创办人暨执行长Michael Dell 11月18日宣布,全球第一台GB200 NVL72正式出货。
而对于采购这些硬体设备的公有云业者而言,他们如何看待与Nvidia的合作?
微软2024年10月8日表示,Azure会是首家用GB200的AI伺服器营运Blackwell的云业者,11月19日宣布将推出基于GB200 NVL72的云端虚拟机器服务,名为Azure ND GB200 V6系列,开放内部预览测试,2025年1月8日微软执行长Satya Nadella表示,他们的第一座NVL72丛集系统已经在Azure环境运作。
Google Cloud在2024年10月16日表示,他们正与Nvidia合作组建GB200 NVL机柜,秀出机柜设置于资料中心的照片;Oracle 9月预告将建造云端服务领域最大的AI超级电脑,在这座OCI Supercluster,最多供应131,072个Nvidia Blackwell GPU,运算效能规模达2.4 zettaFLOPS,11月20日他们宣布在全球云端区域中心,率先启用第一座有完整配备的Nvidia GB200 NVL72机柜,支援客户使用。
至于AWS,2023年11月底与Nvidia宣布合作发展全球最快GPU架构AI超级电脑Project Ceiba;2024年3月Nvidia表示,这套AI超级电脑将以Nvidia GB200 NVL72组建而成,将配置20,736个B200 GPU与10,368个Grace CPU,AI效能达414 EFLOPS;到了12月,AWS预告2025年将推出采用Blackwell的执行个体服务P6,相较现行GPU,速度增2.5倍。
Nvidia面对市场强烈期待,以及每隔一段时间的出货进度质疑声浪,他们如何回应?
今年1月6日举行的CES美国消费电子展期间,Nvidia创办人暨执行长黄仁勋在开幕主题演讲强调,Blackwell已全面量产,每家云端服务商都有这样的系统,而且正在使用,目前有15家系统制造商推出近200款机型与组态,当中有采用液冷或气冷的系统,基于x86或Arm架构的系统,以及两台GB200 NVL36、1台GB200 NVL72,这些会在45座工厂生产。
正当大家以为新世代GPU整柜型系统的生产制造进度符合预期,并且热烈讨论Nvidia本次在CES发表多项产品与技术的背后意义与趋势之际,没想到,1月13日系统过热传闻再度出现,引发全球关切。到了1月16日,黄仁勋来台参加封测厂商矽品精密的潭科厂启用揭牌仪式,媒体追问Blackwell现况。
他表示,Blackwell采用CoWoS-L封装,将两个非常大的裸晶(die)连接成1个大晶片,Nvidia现行Hopper架构GPU采用CoWoS-S封装,他们会逐渐转移、增加CoWoS-L采用,这么做并非为了减少容量,而是增加容量。
关于散热,黄仁勋强调Blackwell是非常复杂的技术,是全球有史以来制作方式最复杂的电脑,每一台Blackwell系统重达3千磅,里面总共包含60万个元件,数量相当于一辆汽车的30倍,接著他重申Blackwell已进入全面生产状态,这么复杂的产品在工程的初期阶段面临许多挑战,其实是相当正常的,而且他们已经开始将相关产品出货到全世界。
面对相关的争议与传闻,Blackwell平台的发展、部署,以及后续推广,显然还需要持续克服技术、应用、商业模式等层面的挑战,这次要处理的硬体环节相当广泛,包含GPU的升级、CPU与GPU的融合,从一台台伺服器机架的设置跃升到单座与多座机柜,散热方式也从发展多年、成熟的气冷,改为过去只在特定环境使用的液冷,这些议题都要在有限的时间之内尽速解决。
一旦成功,IT产业势必能够以更顺利的方式与高效能运算(HPC)领域的发展接轨,过渡到下个阶段,走向更多元的未来科技发展,若无法成功,蒙受强烈冲击的对象,绝对不只是Nvidia目前强势主导的技术与商业生态体系,而可能是整个IT生态,因为其他运算平台业者都各自有发展隐患,Nvidia若败下阵来,竞争厂商未必能吃下这块市场,因为他们可能更无法有效掌握这股机会冲刺。