AWS
AI以高耗能著称,周二在re:Invent大会上,AWS公布新的资料中心基础架构元件,包括简化电子电机设计和多模态冷却系统,提高AWS执行AI的能源效率。
有鉴于生成式AI应用日益普及,对能源及运算容量需求有增无减,AWS发展了新的节能技术,许多已部署在AWS全球新的资料中心,也逐步部署到现有资料中心。这些新元件整合了能源、冷却及硬体方面的技术。首先是更简化的电子电机设计,可降低耗能,同时减低失灵风险,使基础架构可用性达到99.9999%,使受电子问题影响的机架数量减少89%,而且使可能的失败点(failure point)数量减少20%。AWS并将备援电源设置离机架近一点,减少风扇数,并使用自然压力差来排放伺服器热风,提升伺服器可用电力。
其次,AWS也使用新的冷却、机架设计及控制系统。其中,AWS新的AI伺服器将使用液冷技术来冷却高密度运算晶片。他们发展了机械式冷却方案,现有和新资料中心都已使用liquid-to-chip冷却系统。但因应某些AWS系统如储存不支援液冷,新的冷却系统可同时为AI晶片组提供气冷和液冷,像是AWS Trainium 2和机架式AI超级电脑方案如Nvidia GB200 NVL 72,以及AWS网路交换机、储存伺服器等。
最后,AWS新资料中心架构支援高密度AI方案。AWS运用资料和生成式AI优化资料中心机架架设的方式,借此预测伺服器最有效率的设置方法,现在得以减少浪费的能源量。
AWS说,新资料中心设计可支援AI执行需要的次世代硬体和高密度机架需求,又能弹性支援其他类硬体。现有AWS基础架构提供750多种Amazon EC2执行个体可以选择。除了多模态冷却设计,AWS还有供电系统,可在未来20年支援机架密度成长6倍,之后还能支援3倍成长。
在今年re:Invent大会上,AWS也公布有史以来第一次资料中心的能源使用效率(Power Use Efficiency,PUE)。PUE是资料中心用电效率量测值,1.0为完美,表示所有能源全数用于运算。2023年AWS全球PUE为1.15,最好的站点为1.04。
AWS预期使用简化电子电机设计,采用新的多模态冷却系统,以及更有效率的机架设置方法后,AWS的资料中心PUE可望降到1.08。