【全新架构处理器将整合NPU,首款笔电12月问世】英特尔揭行动AI处理器新战略

摄影/余至浩

今年以ChatGPT为首的生成式AI应用的出现,掀起了一波新的AI浪潮,甚至进一步跨入企业应用领域,开始与各种生产力工具相结合,例如微软、GCP两大生产力平台业者今年纷纷将生成式AI技术整合到自家生产力产品中,例如微软在M365中推出专用生成式AI助手Copilot,GCP则在Workspace服务中推出Duet AI,提供企业使用。

可是,这类的生成式AI应用,背后使用的基础模型,通常都是参数量动辄数千亿的大模型,不论是Copilot使用的GPT- 3.5或GPT-4模型,还是Duet AI所采用的PaLM 2模型,皆需要依赖庞大运算资源处理,目前仅有少数跨国云端业者或大型科技公司才有办法自行建置,不是任何一家企业都能负担得起。

不过,如果参数量没大模型那么多的小模型,例如Meta的Llama 2 7b基础模型,或是Whisper语音转文字模型,其参数约70亿,现在已经有企业或开发者将这些模型部署到性能较强的PC笔电上执行。

企业在笔电上执行生成式AI应用的好处,除了考虑到隐私,避免将内部机敏资料上传到云端,降低资料外泄的风险,企业也能结合现有的MDM等管理工具,加强对于生成式AI使用的管控,还能让模型输出更贴近使用者身处的情境。此外,因为资料不需要传输云端,直接在本地装置上就能处理,反应能更即时,还能够支援离线环境中的使用。

但更重要的考量是成本。尽管目前生成式AI的模型训练仍然在云端中进行,但是将所有推论任务都在云端执行成本相当高,如果笔电具备有足够的运算能力,那么在本地处理这些任务,可以帮助企业有效节省成本。

可是,现今的行动PC处理器架构主要针对文书处理、影音娱乐及游戏需求而非专为AI或生成式AI应用所设计,使得执行这类应用时,通常需要占用大量GPU运算资源,也相当耗电,不只无法持续性的使用,也容易影响到其他应用的使用体验可能因此变得不够流畅,而造成应用执行速度变慢,甚至无法使用。这成了在行动PC上实现生成式AI应用所面临的挑战。

在9月底举行的创新日上,英特尔执行长Pat Gelsinger首度公开展示了第一款整合AI加速引擎NPU,代号为Meteor Lake的行动PC处理器Core Ultra(如上图右),他更明白表示,PC正进到下一个时代,即AI PC时代。图片来源/英特尔

英特尔宣告PC正进到下一个时代,即AI PC时代

为了应对此挑战,这两年来,主要的硬体厂开始在行动PC处理器架构中整合名为神经处理单元(Neural Processing Unit,NPU)的AI加速引擎。不同于传统的CPU或GPU,NPU是专为加速AI应用而设计,能让处理器以更节能的方式在笔电上执行AI运算任务,以满足长时间或连续使用的生成式AI应用需求,同时还能确保其工作负载在笔电中顺畅地执行,如同执行一般生产力应用,降低对其他应用程式使用的影响。

英特尔今年新的AI处理器战略正是瞄准了企业行动PC的生成式AI应用需求,而发表了首款整合NPU的行动PC处理器,来因应不断增长的AI应用所需,特别是生成式AI相关应用。这款新处理器中还结合许多新技术,包括采用了Intel 4制程节点、3D高效混合架构,以及Foveros封装技术的小晶片设计等。

苹果、AMD相继投入行动PC的AI加速引擎的研发

在9月底举行的英特尔创新日开幕演说中,英特尔执行长Pat Gelsinger明白表示:「AI正从根本上重塑科学和许多领域,带来新的应用、新的体验、生产力和创造力,更开创了PC的下一个时代,即AI PC时代。」他甚至以「技术创新的重大变革时刻」来形容AI PC带动的AI应用浪潮,正如同20年前英特尔Centrino行动运算平台出现,使Wi-Fi进一步普及,建构出如今的无线网路世界。

不过,英特尔不是第一家在行动PC中整合NPU的厂商。早在2020年,苹果新一代Macbook笔电推出时,就已经将一个可针对AI任务进行优化的NPU,称为Neural Engine,整合到其自行研发的Apple M1晶片中,能提供媲美GPU的AI算力,但更省电。随后推出的M2晶片,相较于M1在AI处理性能方面高出40%以上,达到15.8 TOPS。甚至在最新的M2 Ultra处理器中,更拥有高达31.6 TOPS的算力,可以处理更复杂的AI或生成式AI应用。

以OpenAI的Whisper语音转文字为例,一段约40分钟的中文录音档使用相同的small模型(参数2.4亿)进行转换时,在M2 MacBook上执行仅需数分钟以内就能完成转换,相较之下,若采用Intel Core i5的MacBook则需要长达两小时才能完成转换作业。反映出结合NPU设计的苹果行动PC处理器,在处理生成式AI工作负载的性能,比一般x86处理器表现更好。

除了苹果在自己的Arm处理器中整合NPU晶片之外,另一家x86处理器大厂AMD在今年上半同样发表了第一款整合NPU的Ryzen 7040系列处理器。在这款处理器中,他们采用XDNA加速器技术,将NPU整合到单一处理器中,可以提供10 TOPS的AI算力,可用于语音辨识、影像处理等推论任务。

今年9月,英特尔正式宣布将抢攻行动PC的生成式AI应用市场,发布了一款代号为Meteor Lake的行动PC处理器Core Ultra,这款处理器不仅兼具低功耗和高效能的特性,还是首款内建NPU可加速AI推论的AI应用处理器,同时也是英特尔首款主打AI PC体验的处理器产品。

Pat Gelsinger直言,AI PC将会从根本上改变个人电脑的使用体验,「随著这款处理器的推出,个人电脑正式进到AI PC的时代。」他说。从Pat Gelsinger在会中说的这番话,也揭露了英特尔未来行动PC处理器的AI战略,将聚焦行动PC上的AI应用,甚至要让AI变成未来PC上的主流应用之一。

在英特尔负责加速运算系统与绘图的英特尔AXG事业群总经理Deepak Patil指出,过去英特尔处理器在行动PC的AI应用方面,主要集中在增强影音串流、协作、音效处理、内容及游戏特效等领域,而新推出的行动PC处理器,将能把AI扩展到更多应用领域、整合更多生产力工具、内容创作应用,以及更多的AI语音助手功能。

不过,英特尔只靠这款处理器还不够,微软的Windows也要必须提供支援,才能真正实现AI PC的应用。

微软新作业系统将与行动PC的AI硬体紧密结合

早在2018年,微软在新推出的Windows 10作业系统中就已内建Windows ML功能,不仅让开发者更容易在Windows应用程式中开发ML的应用,同时也提供英特尔视觉处理单元VPU (NPU的前身)的硬体支援,优化ML工作负载。

微软最近在Windows 11推出时,也特别强化了对于这款新的行动PC处理器的支援,未来在Windows 11笔电中可以利用NPU加速,提高其生成式AI助手Copilot的性能,特别是在内容生成和问题回答处理等方面,可以提供更好的处理效率和回应速度,从而提升用户体验。微软更预告,下一代Windows版本将与英特尔处理器更紧密整合。

英特尔现场展示了搭载Core Ultra新处理器在行动PC上的AI应用,例如在笔电的音讯编辑软体中,利用AI生成类似美国乐坛天后泰勒丝(Taylor Swift)风格的歌曲。此外,还展示了在下一代Lunar Lake处理器平台上执行Stable Diffusion模型的图片生成功能。英特尔强调,这些AI应用都能够在离线环境的PC上使用。图片来源/英特尔

根据英特尔的内部测试,执行Stable Diffusion的图像生成任务时,如果在处理器中使用NPU,无论在反应时间上和功耗方面都优于不使用的情况。例如,当完全使用CPU处理任务时,需要花费43.3秒,功耗达40瓦,然而,如果采用NPU处理,仅用原先不到一半时间,20.7秒就能完成,功耗降低75%,只需10瓦,也优于GPU的37瓦,整体效率提升了7.8倍。若将NPU与 GPU结合使用,将能进一步缩短处理时间,仅需11.3秒。图片来源/英特尔

借助NPU,用笔电进行图像生成速度比通用CPU更快更省电

英特尔表示,这款全新架构的处理器同时将CPU、GPU、NPU整合到单一的SOC系统单晶片中,未来将分别负责处理不同类型的AI任务。例如,在执行低延迟的AI应用,需要处理轻量且单一模型的推论,因为不需要复杂运算和记忆体容量,这些任务就会由CPU来执行,若是需要大量平行运算和高吞吐量处理的AI任务,就会使用GPU。至于需要持续处理的AI任务,例如图片生成等,就能使用低功耗的NPU来完成。

英特尔强调,借助NPU的加速AI推论功能,将使企业可以透过行动PC在本地处理小模型的生成式AI应用,同时能够与云端大模型进行彼此协作。例如当用户在笔电装置上输入一段提示文字或上传一张照片来进行生成时,对机敏性较高或者是低延迟的任务,将会在笔电的模型上进行推论。而对于需要更高精度输出结果或需处理分布在全球大量资料的任务,仍可透过云端模型执行。

根据英特尔的内部测试,在执行Stable Diffusion的图像生成任务时,当使用NPU时,无论是在处理时间,还是功耗方面表现都优于不使用的情况,整体效率更提升了7.8倍。

英特尔现场也实际展示了搭载Core Ultra处理器的AI PC笔电在生成式AI相关应用,例如在笔电的音讯编辑软体中,利用AI自动生成类似美国乐坛天后泰勒丝(Taylor Swift)风格的歌曲,此外,还展示了在下一代Lunar Lake处理器平台上执行Stable diffusion模型的图片生成功能。英特尔强调,这些AI应用都能够在离线环境的行动PC平台使用。

英特尔这款新处理器预计将在12月14日正式推出,首批搭载该处理器的AI PC笔电的厂商,包括了宏碁等。

宏碁在现场展示用Core Ultra处理器的笔电执行图像生成模型,可以在萤幕桌面中快速生成动态立体的太空人桌布。此外,宏碁还释出Acer Parallax View工具,让使用者可以自行在笔电中为图像增加各种动作的效果,或是利用笔电前置镜头来追踪使用者的脸部轮廓,建立自己的3D人脸。

除了即将推出的Core Ultra处理器之外,英特尔公开未来几年AI PC处理器平台的蓝图,提前透露了Meteor Lake下一代处理器的代号是Arrow Lake,将使用Intel 20A先进制程技术。此外,还有两款新产品,代号为Lunar Lake和Panther Lake处理器,预计将在2025年之前推出。这两款产品皆采用Intel的18A制程。

从英特尔最新提出对于可扩充及简化AI基础架构的分类,也能够反映出不同型态的处理器能够支援处理的推论模型参数的规模。

以英特尔AI PC笔电为例,目前主要适合处理参数小于10亿的小模型的推论任务,如Whisper语音转文字模型。如果参数超过10亿的话,就可能需要使用一整台单路x86伺服器进行处理(模型参数介于10到200亿之间)。当参数量达到1,000亿时,则需使用配备更多GPU或CPU的伺服器处理,这也是目前主流AI基础架构。当模型参数超过1,000亿时,则需配置机架式伺服机柜建立多节点运算丛集,甚至用于训练最新型的大模型时,如LLM,需要建置资料中心规模等级的运算丛集。

英特尔公开未来几年AI PC处理器平台的蓝图,提前透露了Meteor Lake下一代行动PC处理器的代号是Arrow Lake,将使用Intel 20A先进制程技术。此外,还有两款新产品,代号为Lunar Lake和Panther Lake,预计在2025年之前推出。这两款产品将采用Intel的18A制程。图片来源/英特尔

从英特尔对于可扩充及简化AI基础架构的分类,也能够反映出不同型态处理器能够支援处理的推论模型参数的规模。以英特尔AI PC笔电为例,目前主要适合处理参数小于10亿的小模型的推论,如果参数超过10亿的话,就可能需要使用一整台单路x86伺服器处理,当参数量达到1,000亿时,通常需要使用多GPU或多CPU的伺服器来处理,也是目前模型推论和微调的主流的AI基础架构。图片来源/英特尔

目标2025年在1亿台个人电脑实现AI应用

英特尔不只是推出AI加速硬体,还要进一步结合各种行动PC上的应用,发展和扩大AI PC的生态系。

为了打造行动PC的AI生态系,英特尔最新发布了一项AI PC的加速计划,希望透过这项计划加速AI在整体PC产业的发展,目标2025年在超过1亿台个人电脑上实现AI应用。

为了达成这个目标,英特尔还与100多家软体供应商紧密合作,要共同开发300多项AI加速功能,来提升PC上的AI体验,涵盖软体开发、影像处理、视讯会议、协作、串流游戏及安全等。首批的合作伙伴包括Adobe、Audacity、BlackMagic、BufferZone、CyberLink、DeepRender、MAGIX、Rewind AI、Skylum、Topaz、VideoCom、Webex、Wondershare Filmora、XSplit及Zoom等业者。

在软体工具支援方面,英特尔这次并没推出新工具,而是在现有软体工具基础上,加强对生成式AI应用的支援,涵盖模型的训练、微调、部署与推论等不同阶段。例如在新释出的深度学习应用工具套件OpenVINO 2023.1版中,开始支援脸书Meta的Llama 2等基础模型的优化功能,来支援云端和地端的AI模型推论及部署。此外,OpenVINO平台正式支援Arm硬体,意味著开发者以后更容易开发跨行动PC平台的AI应用,如高通AI PC笔电等。

另外,英特尔目前也正在和Hugging Face合作共同打造支援生成式AI模型推论的软体加速器,包含提供最佳化AI软体工具、框架和函式库等。