Meta公开其GenAI基础设施,两个丛集分别具备2.4万个GPU

图片来源: 

Meta

Meta周二(3/12)公开了该公司所使用的生成式人工智慧(GenAI)基础设施,内含两个各采用24,576个Nvidia H100 GPU的大型资料中心丛集,以及相关的网路、运算与储存部署。

其实Meta在2022年便曾揭露该公司所打造的AI丛集AI Research SuperCluster(RSC),当时便宣称这是全球速度最快的超级电脑之一,它使用了1.6万个Nvidia A100 GPU。

而本周Meta所揭露的GenAI丛集虽然采用两种不同的网路架构,但皆配备了24,576个Nvidia Tensor Core H100 GPU。Meta表示,这两个丛集聚集于高效能的网路结构,使得它们可支持比RSC更大且更复杂的模型,可替未来发展先进GenAI产品开发及AI研究铺路。

Meta解释,该公司每天要执行数百兆个AI模型,大规模地递送相关服务需要非常先进且弹性的基础设施,因而需要客制化自己的硬体、软体及网路架构,以优化AI研究人员端到端的经验,同时确保资料中心的高效运作,因而采用不同的网路设计。

其中一个丛集是基于Arista 7800、Wedge400与Minipack2开放运算计划(OCP)机架交换器的RDMA over Converged Ethernet(RoCE)解决方案,为一可透过乙太网路自远端直接存取记忆体的网路协定,此一协定主要适用于诸如网路储存或丛集运算等需要高频宽与低延迟的网路基础设施。

另一个丛集则是采用Nvidia的Quantum2 InfiniBand架构,该架构同样也是专为高效能运算的低延迟与高频宽所设计。这两个丛集的端点互连速度皆高达400 Gbps,采用不同网路架构将有利Meta评估不同类型的互连对大规模训练的适用性及可扩展能力,以作为未来设计与建置更大规模丛集的参考。

图片来源/Meta

除了网路架构之外,它们皆采用Meta内部设计、并已贡献给开放运算计划的GPU硬体平台Grand Teton,该平台是以许多不同世代的AI系统为基础,并在单一的机箱中整合了电源、控制、运算与架构介面,以达到更好的效能、讯号完整性及热效能。

在储存上则是采用基于Meta内部Tectonic分散式储存解决方案的Linux Filesystem in Userspace(FUSE)API ,它满足了AI丛集对资料与检查点的需求,令数千个GPU得以同步保存及载入检查点,同时提供资料载入时所需的弹性,以及EB储存等级的吞吐量。

Meta亦与Hammerspace共同开发一个平行网路档案系统(NFS)部署,以迎合开发者对AI丛集的体验需求。Hammerspace的优点之一是允许工程师可利用数千个GPU的资源进行任务的互动除错,因为当程式有所变更时,此一环境中的所有节点都可立即存取。

打造大规模AI丛集的挑战之一为同时维持其高效能及易用性,于是Meta借由比较小丛集与大丛集的效能来找出大丛集的瓶颈并将其优化。Meta坦承,在甫完成大丛集的部署之际,其最初效能很差且不一致,因而经由调整网路拓扑,并结合对Nvidia Collective Communications Library(NCCL)的变更来优化网路路由政策,以实现最佳的网路利用率,而让大型丛集达到与小型丛集一样出色的预期效能。

Meta仍计划持续建置并扩张大型GenAI丛集,计划今年底便会扩大其基础设施至包含35万个Nvidia H100 GPU,并将创造等同于60万个H100 GPU运算能力。