代号为Meteor Lake的Core Ultra处理器是英特尔第一款整合AI加速引擎NPU的行动PC处理器。据英特尔的内部测试,在使用Core Ultra笔电处理Stable Diffusion图像生成模型推论,进行20次迭代的图像生成任务时,分别在CPU、GPU、NPU执行,结果显示在不论在处理时间或功耗方面,NPU的表现都优于CPU,甚至功耗也远低于GPU。上图为Core Ultra处理器实体(图片来源/英特尔)
英特尔在新款Core Ultra处理器晶片中,不只内建CPU、GPU,还整合了一个可用于推论加速的AI引擎NPU,来提高这款处理器对于生成式AI的处理能力,还采用了许多创新的设计方式,提升其性能和降低功耗。
在Core Ultra处理器所内建的这个NPU神经处理单元的前身,来自英特尔旗下Movidius公司所设计的视觉运算单元(VPU),英特尔将其整合到Core Ultra处理器中,并以NPU为名,以提高行动PC的AI推论处理能力。在9月举办的年度创新日上,英特尔也首度揭露关于这个NPU更多技术细节和架构。
新处理器内建NPU,在AI加速推论和节电表现优于CPU,功耗也远低于GPU
英特尔表示,内建NPU的Core Ultrae处理器,能够以更省电方式提供低功耗的AI推论能力,相较于前一代处理器,当执行AI工作负载时,可以获得高达8倍功耗效率的改进,特别适用于处理需要持续性的AI应用或AI卸载任务。
尽管目前英特尔尚未公布这颗NPU的确切AI算力,但从英特尔公布的测试数据,能够一窥这个NPU在AI任务方面的表现。
根据英特尔的内部测试,在使用Core Ultra笔电处理Stable Diffusion图像生成模型推论,进行20次迭代的图像生成任务时,分别在CPU、GPU、NPU执行,结果显示不论在处理时间或功耗方面,NPU的表现都优于CPU,甚至功耗也远低于GPU。例如NPU上执行所有任务需要20.7秒,仅是CPU处理时间的不到一半,同时功耗更降低了75%,只有10瓦,大大提高了能源效率,甚至优于37瓦的GPU,整体效率更提升了7.8倍。若将NPU与GPU结合使用,处理时间还能进一步缩短,仅需11.3秒。
实际处理AI任务时,英特尔表示,NPU除了将与CPU、GPU协同合作,以加速AI工作负载,还能根据任务的类型来分配适合的硬体资源处理,满足不同应用场景的需求。例如对于执行低延迟的AI应用,需要处理轻量且单一模型的推论任务时,因为不需要复杂运算和大量记忆体,这些任务将由CPU来执行。若是需要大量平行运算和高吞吐量处理的AI任务,就会使用GPU处理。至于需要持续处理的AI任务,例如图片生成等,可以利用低功耗的NPU来完成。借由这种协同工作的方式,在不同AI任务之间达到效能和能耗最佳化。
翻新行动PC处理器架构,采用模组化、多晶砖设计
相较过往的行动PC处理器,Core Ultra处理器采用了许多创新的设计方式,例如这款处理器采用了新的系统单晶片(SOC)架构,也就是模组化、多晶砖(Tile)架构,由SOC、运算、绘图、I/O等多个晶砖组合而成,同时将不同功能的CPU、GPU、NPU整合到单一的SoC晶片中。此外,还能透过一组频宽高达128GB/s的Scalable Fabric高速通道与内部各元件,包括NPU、绘图、影像和媒体元件及I/O晶砖等进行连接,借此缩短资料交换的时间。
Core Ultra处理器采用Intel 4 制程(相当于台积7奈米制程),并且使用了效能核心(P-core)和效率核心(E-core)的效能混合架构来设计CPU,最高配置可达14核心(6个P-core和8个E-core),兼具有高效能和省电的特性。此外,还改善核心排程方式,达到更高CPU利用率。还搭配性能更强的GPU,每瓦的效能比前一代Iris Xe GPU高出2倍。
在这系列处理器中,还采用了Foveros先进封装技术,透过3D堆叠,实现不同功能的晶片堆叠,不论是晶片连接密度、能源效率和传输速度都大幅提升不少。
电源管理采用模组及弹性架构,实现能源使用效率优化
在电力管理上,英特尔在这款处理器中建立了模组化和可扩展的 PM 电源管理架构,可提高频宽和能源效率。在I/O介面设计上,英特尔采用新做法,取代过去仅靠中央的Ring Fabric通道进行资料交换的做法,改直接透过SOC内的SOC Fabric通道来与记忆体控制器、媒体等不同元件连接,让资料传输过程减少壅塞的情况。此外,也支援了最新PCIe 5.0与 Thunderbolt 4 。
Core Ultra处理器将在12月14日推出,宏碁将率先推出该处理器的行动PC。
英特尔CEO:不只行动PC,未来伺服器CPU设计得有新变革,因应生成式AI应用需求
摄影_余至浩
生成式AI在今年掀起一股新的AI风潮,不少大型云端业者、科技公司都在今年大规模部署GPU伺服器,用来训练自己的LLM模型,然而,现今的晶片设计主要是针对云端运算需求而非专门为LLM模型训练而设计,这导致LLM模型的训练成本非常庞大。以OpenAI的GPT-3模型为例,该模型拥有1,750亿个参数,需要庞大算力,训练成本高达165万美元。使用GPT-3开发的ChatGPT在推论方面的成本更高,每月烧掉4千万美元。这不仅大大增加了企业成本,对地球资源、环境永续性也可能产生影响。
在9月英特尔创新日会后一场记者会上,英特尔执行长Pat Gelsinger明白表示,未来伺服器晶片发展需要新变革,来因应生成式AI的应用需求,整合更多先进技术,包括先进电晶体技术、先进封装技术、先进通讯及先进记忆体技术等。尤其,他特别点出,现今的晶片封装技术是阻碍AI发展的一大瓶颈,得加以解决。
经过一段时间的研发,英特尔近日发表可用于下一代先进封装的玻璃基板,与传统的基板相比,这种新型基板可以大幅提升半导体封装的电晶体数量,而且具备有省电和更好的散热特性,可用于封装生成式AI晶片。这项技术最快3年后开始量产。
又以先进记忆体技术为例,英特尔开始支援MCR DIMM规格的记忆体,如明年将推出的Granite Rapids处理器,就已导入这项技术,借以增加伺服器平台的记忆体频宽,以满足资料密集型的的工作负载,如LLM模型参数训练所需的记忆体。在矽(silicon)架构上,英特尔引进3D矽堆叠设计,以提供更高的处理效能,来满足LLM模型的运算需求。近年来,许多企业应用程式中都开始结合AI功能,这也使处理器中提供AI支援能力变得越来越重要,Pat Gelsinger表示,这是英特尔决定要建构AI产品线的原因,除了将AI技术带进行动PC之外,英特尔还有两大人工智慧产品,分别是Xeon可扩展处理器和AI训练加速器Gaudi。
英特尔在第4代Xeon可扩展处理器中开始内建了AMX进阶矩阵延伸功能,使得它能够针对在CPU上执行的AI算法进行加速,尤其在处理大型语言模型等工作负载时,搭配Xeon Max系列可提供高达20倍的加速效能。英特尔明年还将有一款主打高效能的Granite Rapids伺服器处理器将推出,将进一步提升其AI处理效能。
针对AI模型训练,英特尔则是推出了AI训练加速器Gaudi,目前已发展到了第二代产品,搭载更多张量处理器核心与HBM。根据测试结果,在执行多模态的BridgeTower模型的性能表现上,Gaudi2效能表现优于去年发表的Nvidia H100 GPU,有高达1.4倍。此外,下一代Gaudi3很快将在明年推出,甚至还有一款支援双精度浮点运算(FP64)的Falcon Shores GPU未来将问世。