郭又华摄
今(12/14)英特尔第五代Xeon Scalable伺服器处理器(代号Emerald Rapids)上市。英特尔强调,有意用此产品进攻AI运算市场,尤其是100亿参数以下的AI推论运算。
第五代Xeon Scalable相较前一代的主要升级内容包括核心数从60颗增为64颗、DDR5记忆体传输速度从4,800MT/s增为5,600MT/s、L3快取(Last Level Cache,LLC)容量从112.5MB增为320MB、多颗处理器互连速度从16GT/s增为20GT/s,也正式支援CXL 1.1 Type 3装置。原本外界预期这代CPU也会支援CXL 2.0,但这次并未正式注明支援。效能上,英特尔表示第五代Xeon Scalable相较第四代在一般运算、AI推论、高效能运算,以及网路和储存吞吐量,分别提升了21%、42%、40%及70%。
资安做法上,英特尔机密运算技术TDX(Trusted Domain Extensions)在第4代CPU时只支援部分型号,现在则会支援第五代所有型号,且可以迁移TDX加密的VM到其他环境。第五代Xeon仍支援英特尔软体防护指令集SGX(Software Guard Extensions),每个处理器与第四代一样,最大可支援512GB容量的SGX Enclave。
第五代Xeon与第四代最大热设计功耗(TDP)同为350瓦。不过,英特尔表示,第五代每瓦效能较前一代高出36%。不只如此,他们还进一步优化低CPU利用率(小于50%)时耗能。英特尔资深院士暨Xeon首席架构师Ronak Singhal表示,伺服器CPU常在20%至50%的低利用率运作。这个利用率范围中,第五代耗电不仅较第四代低,在开启能源优化模式(Optimized Power Mode)后,更能在利用率为30%的状态下达到比预设模式省110瓦的节能幅度。
今天推出的Xeon Scalable中,英特尔公布了32款型号,涵盖高效能、一般用途、5G网路、云端等运算需求。图-郭又华摄
主攻AI推论市场,锁定100亿参数以下的模型推论
英特尔强调,此代CPU有几项规格升级尤其有利于执行AI推论任务。例如记忆体频宽和LLC容量增加,以及支援CXL 1.1 Type 3记忆体扩展,对于要求高记忆体频宽的推论任务都有帮助。AI推论任务注重时效性,因此降低运算延迟也相当重要。前一代Xeon从单晶砖改为4晶砖设计,到了第五代,晶片设计又精简为双晶砖(Tile)设计。英特尔设计工程事业群资深院士暨首席架构师Sailesh Kottapalli表示,双晶砖设计好处在于,运算任务需要较少跨晶砖沟通,因此能降低延迟。
上面资料呈现了两代间AI运算效能进步幅度,那么,第五代执行常见任务具体来说会花费多少时间呢?英特尔举一个内部实测案例说明,他们利用400亿参数的Falcon模型来将西语书籍翻译成英语版,由4个第五代Xeon来执行离线推论任务。这本书有200万字元、1,300页,翻译时间总共费时22分钟。
针对云地混合AI运算需求发展多种硬体产品及统一软体开发工具
这次上市的新资料中心CPU,以及同日上市的电脑CPU Core Ultra,都是英特尔AI Everywhere产品布局一环。执行副总裁暨资料中心与AI事业群总经理Sandra Rivera表示,AI崛起是继云端崛起之后第二波算力需求暴增。他们认为,如今AI从学术研究和概念验证开始落地,成为真正可带来商业价值的技术,会为企业创造更多算力需求。举凡金融、医疗、零售及制造,都是他们看到已经大规模应用AI的垂直产业。