英特尔发表新一代AI PC处理器Lunar Lake,耗能低40%、NPU算力是前一代3倍多

图片来源: 

郭又华摄

英特尔今天于Computex 2024正式公布新一代笔电处理器Lunar Lake,是Core Ultra系列第二代产品。锁定AI PC需求,此处理器TOPS(每秒几兆次操作,Tera Operations Per Second)高达前一代3.5倍,且能源使用效率上,耗电量较前代低了40%。

早在去年推出第一代Core Ultra产品Meteor Lake时,英特尔执行长Pat Gelsinger便提出了AI PC时代这一说法──未来所有笔电中都会整合NPU等硬体,以高效执行AI相关运算任务。然而,Meteor Lake的NPU算力只有11.5 TOPS,当时市场上却已经有搭载了31.6 TOPS算力NPU的M2 Ultra处理器等竞品,前者竞争力显得不足。

来到今年,上个月底微软于自家开发者大会公布了Copilot+ PC,更加凸显出AI PC趋势不可挡。首批Copilot+ PC与高通合作,使用高通Snapdragon系列处理器。不过,Snapdragon的PC产品在市场上份量相对小,下一波预计搭载英特尔和AMD处理器的Copilot+ PC,才会触及更多主流PC市场。

Lunar Lake正是预计装入这款AI PC的处理器,NPU算力有48 TOPS。AMD昨天发表的Ryzen AI 300处理器则搭载了有50 TOPS算力的NPU。两者算力相近,且相较首批Copilot+ PC搭载的40 TOPS高通NPU都高了一截。

不只NPU算力较前代处理器Meteor Lake大幅提升,Lunar Lake搭载的CPU、GPU、NPU,都翻新了设计架构,来提升算力和能源使用效率,支援多元AI运算任务。这一代处理器算力共有120 TOPS,包含CPU的5 TOPS、GPU的67 TOPS,以及NPU的48 TOPS算力。

NPU采英特尔第四代NPU架构,算力达48 TOPS

这一代Lunar Lake的NPU采取Intel NPU 4架构,相较前一代NPU算力提升了36.5 TOPS,来到48 TOPS。

这颗NPU搭载了6个神经计算引擎NCE(Neural Compute Engine),相较前代增加了4个,等于每次运算周期可以处理12,000次乘积累加运算(MACs)。NPU 4还搭载了12个处理向量运算用的VLIW DSP,且从前一代128bit频宽提升到512bit频宽。另外,直接记忆体访问(DMA)频宽也提升了1倍。这些都是大幅提升算力的关键硬体升级。

能源使用效率方面,由于大部分NPU耗能都用于矩阵运算及数据传输两项工作,英特尔在NCE中的推论管线(Inference Pipeline)设计中,优化了运算效率及任务排程功能,来降低耗能。

如图所示,NPU 4的效能/耗能比,相较于NPU 3高出2倍,且最高效能可达NPU 3的4倍。图片来源-英特尔

图为Meteor Lake与Lunar Lake跑Stable Diffusion 图片生成任务时的表现比较。Lunar Lake搭载了更强大的NPU 4,能负责原本由CPU和GPU处理的部分任务,因而提升效能/耗能比。图片来源-英特尔

GPU效能提升1.5倍,算力达67 TOPS

与前一代一样,Lunar Lake的图形运算区块由GPU及其他专责图形运算区块组成。相较于前一代分为4个区块,这一代则是拆成GPU、显示区块及多媒体处理区块共3区。英特尔在显示及多媒体运算区块中,从软硬体上分别针对各自专责工作进行效率及耗能优化,例如选择性画面更新及记忆体配置优化等。

Lunar Lake的GPU采取了新一代Xe2 GPU架构,由8个Xe2核心组成。每个核心采用原生SIMD16(单指令多重资料)引擎,内含8个512-bit Xe Vector Engines (XVE)向量引擎,以及8个2048-bit Xe Matrix eXtensions(XMX)矩阵引擎。XVE引擎支援SIMD和SIMD 32向量运算,以及INT8、FP16、BF16的矩阵运算,和各式三角、指数等超越函数运算。XMX引擎规格则是每周期能执行2048次FP16运算,或4096次INT8运算。

整体来说,Xe2效能相较前一代提升了1.5倍,特定任务甚至提升了12.5倍。总共67 TOPS的算力及对向量、矩阵运算的支援度,也使Xe2 GPU能负责执行负荷较重的AI运算任务。

Xe2新硬体架构搭配专属的指令集,使其相较前一代GPU在许多表现上都相较第一代有大幅提升。图片来源-英特尔

4颗E-Core及4颗P-Core的CPU架构,大幅升级的E-Core是高能源效率关键

相较于Meteor Lake有低耗能E-Core、一般E-Core及P-Core三种效能的CPU,Lunar Lake取消了低耗能E-Core的设计,只搭载了4颗高能源效率E-Core及4颗高运算效能P-Core。其中,E-Core规格提升幅度尤其引人注目。

新一代E-Core采Skymont架构,IPC(每时脉周期指令数量) 相较前一代有大幅提升,整数运算任务增加38%、浮点运算任务更大增68%。同样效能下,这一代E-Core耗能只有前一代低耗能E-core的1/3。英特尔更宣称新一代E-Core在向量运算及AI相关运算的效能较前一代提升1倍。

E-Core效能及能源使用效率大幅提升,意味著可以将更多日常运算任务留给低耗能的E-core,只有真正要求高效能的任务才会动用到P-Core。

以执行Microsoft Teams为例,Meteor Lake不时会需要将运算任务交由较耗能的P-Core来执行,甚至来回在不同CPU间调度。受益于E-Core规格大升级,Lunar Lake则能一直使用E-Core来执行此任务。图片来源-英特尔

高效能CPU P-core也升级为新一代Lion Cove架构,IPC相较前一代提升了14%。新架构下,记忆体、运算单位等多项硬体规格提升,且调控运转时脉频率的颗粒度更精细,能在同样耗能下挤出更多效能,减少硬体闲置情况。

不只如此,新P-Core还能根据当下执行的运算任务及温度来即时调控运转效能,而非根据预先设死的标准来调控。相较于后者做法,前者可以使CPU在不过热的情况下,用更高时脉频率运转。

除了运算单位升级,Lunar Lake其他升级包括:支援Wi-Fi 7与蓝牙5.4、搭载2颗LPDDR5x DRAM记忆体,运作速率8.5 GT/s,最多可至32GB,以及更新了能源管理及执行绪分配机制来更进一步提升能源使用效率。英特尔还推出了Lunar Lake开发者套件,辅助开发者针对新处理器开发AI应用。

Lunar Lake预计第三季上市,至于搭载Lunar Lake的Copilot+ PC何时会推出,英特尔没有进一步揭露更多细节。