睽违5年的Nvidia GTC实体大会登场,新一代Blackwell GPU架构问世

图片来源: 

Nvidia

Nvidia的开发者大会Nvidia GTC在睽违5年后,本周一(3/18)再度举办连续4天的实体活动,拜AI风潮所赐,这是GTC大会15年来最盛大的一场,预计进行逾900场会议,实体与会人数超过1.1万名,由Nvidia创办人暨执行长黄仁勋(Jensen Huang)的演讲揭开序幕,他介绍了Nvidia的各种新技术与产品,宣称全新的Blackwell运算平台是Nvidia专为生成式AI时代所打造的处理器,包括AWS、微软、Meta、OpenAI、Dell、Google、甲骨文、Tesla与xAI都计划采用。

这场会议备受外界瞩目,因为Nvidia在全球AI晶片的市占率高达9成。黄仁勋认为,通用运算已失去动力,加速运算则到达了临界点,人们需要另一种运算方式以继续扩展,继续降低运算成本,才能于可持续的同时继续消耗更多的运算。此外,需要训练各种型态资料的多模态AI的兴起也让运算需求升温,人们需要更大的模型,也需要更大的GPU,Blackwell即是为了解决此一挑战而设计的。

Blackwell为Nvidia新一代的GPU架构,是两年前推出的Hopper架构的继任者,其名称是为了向美国首位进入国家科学院的黑人数学家David Harold Blackwell致敬。

根据Nvidia的说明,基于Blackwell架构的GPU是由2,080亿个电晶体组成,采用客制化的台积电4NP制程所生产,所有Blackwell产品皆配备两个具有光罩限制的晶粒,借由每秒10TB的晶片互连技术,产生一个强大的GPU。此外,Blackwell支援第二代Transformer引擎,可加速大型语言模型(LLM)及专家混合模型(MoE)的推论及训练,并提高其精度与准确度。

Blackwell透过NVLink及NVLink Switch等互连技术来强化GPU之间的通讯,配备解压缩引擎来协助处理传统上通常仰赖CPU的资料分析任务,以及拥有一个可协助系统复原的可靠性、可用性及可维护性引擎(RAS)。

这使得Blackwell在训练上的FP8效能是Hopper的2.5倍,推论的FP4效能是Hopper的5倍,采用第5代NVLink技术则可达到Hopper的两倍快,还可扩展至576个GPU。

现阶段基于Blackwell架构的AI晶片主要为B100与B200,但Nvidia特别设计了GB200 Grace Blackwell Superchip超级晶片(下图),透过NVLink将两个B200连至Nvidia Grace CPU,再利用GB200建置了机架系统Nvidia GB200 NVL72。

全球最主要的AI晶片业者所发表的最新技术及产品,也受到全球主要AI业者及云端服务供应商的青睐,包括AWS、Google Cloud、Microsoft Azure与Oracle Cloud Infrastructure皆已承诺要提供基于Blackwell架构的实例。

图片来源/Nvidia