Nvidia新世代資料中心GPU雲端先行

在2024年6月台北国际电脑展，GPU大厂Nvidia偕同多家伺服器厂商，展出整柜型AI伺服器GB200 NVL72，吸引多家公有云业者与大型科技公司采购建置，然而，在同年7月下半、11月下半，有媒体报导可能有过热问题的传闻，令外界担忧影响出货。当时陆续有多家厂商力挺，例如，鸿海、广达均一再强调不受影响； Dell创办人暨执行长Michael Dell 11月18日宣布，全球第一台GB200 NVL72正式出货。

而对于采购这些硬体设备的公有云业者而言，他们如何看待与Nvidia的合作？

微软2024年10月8日表示，Azure会是首家用GB200的AI伺服器营运Blackwell的云业者，11月19日宣布将推出基于GB200 NVL72的云端虚拟机器服务，名为Azure ND GB200 V6系列，开放内部预览测试，2025年1月8日微软执行长Satya Nadella表示，他们的第一座NVL72丛集系统已经在Azure环境运作。

Google Cloud在2024年10月16日表示，他们正与Nvidia合作组建GB200 NVL机柜，秀出机柜设置于资料中心的照片；Oracle 9月预告将建造云端服务领域最大的AI超级电脑，在这座OCI Supercluster，最多供应131,072个Nvidia Blackwell GPU，运算效能规模达2.4 zettaFLOPS，11月20日他们宣布在全球云端区域中心，率先启用第一座有完整配备的Nvidia GB200 NVL72机柜，支援客户使用。

至于AWS，2023年11月底与Nvidia宣布合作发展全球最快GPU架构AI超级电脑Project Ceiba；2024年3月Nvidia表示，这套AI超级电脑将以Nvidia GB200 NVL72组建而成，将配置20,736个B200 GPU与10,368个Grace CPU，AI效能达414 EFLOPS；到了12月，AWS预告2025年将推出采用Blackwell的执行个体服务P6，相较现行GPU，速度增2.5倍。

Nvidia面对市场强烈期待，以及每隔一段时间的出货进度质疑声浪，他们如何回应？

今年1月6日举行的CES美国消费电子展期间，Nvidia创办人暨执行长黄仁勋在开幕主题演讲强调，Blackwell已全面量产，每家云端服务商都有这样的系统，而且正在使用，目前有15家系统制造商推出近200款机型与组态，当中有采用液冷或气冷的系统，基于x86或Arm架构的系统，以及两台GB200 NVL36、1台GB200 NVL72，这些会在45座工厂生产。

正当大家以为新世代GPU整柜型系统的生产制造进度符合预期，并且热烈讨论Nvidia本次在CES发表多项产品与技术的背后意义与趋势之际，没想到，1月13日系统过热传闻再度出现，引发全球关切。到了1月16日，黄仁勋来台参加封测厂商矽品精密的潭科厂启用揭牌仪式，媒体追问Blackwell现况。

他表示，Blackwell采用CoWoS-L封装，将两个非常大的裸晶（die）连接成1个大晶片，Nvidia现行Hopper架构GPU采用CoWoS-S封装，他们会逐渐转移、增加CoWoS-L采用，这么做并非为了减少容量，而是增加容量。

关于散热，黄仁勋强调Blackwell是非常复杂的技术，是全球有史以来制作方式最复杂的电脑，每一台Blackwell系统重达3千磅，里面总共包含60万个元件，数量相当于一辆汽车的30倍，接著他重申Blackwell已进入全面生产状态，这么复杂的产品在工程的初期阶段面临许多挑战，其实是相当正常的，而且他们已经开始将相关产品出货到全世界。

面对相关的争议与传闻，Blackwell平台的发展、部署，以及后续推广，显然还需要持续克服技术、应用、商业模式等层面的挑战，这次要处理的硬体环节相当广泛，包含GPU的升级、CPU与GPU的融合，从一台台伺服器机架的设置跃升到单座与多座机柜，散热方式也从发展多年、成熟的气冷，改为过去只在特定环境使用的液冷，这些议题都要在有限的时间之内尽速解决。

一旦成功，IT产业势必能够以更顺利的方式与高效能运算（HPC）领域的发展接轨，过渡到下个阶段，走向更多元的未来科技发展，若无法成功，蒙受强烈冲击的对象，绝对不只是Nvidia目前强势主导的技术与商业生态体系，而可能是整个IT生态，因为其他运算平台业者都各自有发展隐患，Nvidia若败下阵来，竞争厂商未必能吃下这块市场，因为他们可能更无法有效掌握这股机会冲刺。

Nvidia新世代资料中心GPU云端先行