2023台湾人工智慧年会
生成式AI今年非常火红,各大软体、硬体巨头纷纷投入,就连处理器龙头英特尔也喊出AI PC时代来临,要让生成式AI在内的AI应用成为未来PC的主流应用,甚至不只是PC,这样的趋势未来也有可能延伸到行动或边缘装置上。在联发科负责电脑与AI部门的联发科资深处长陆忠立在一场活动上也针对生成式AI在手机等行动装置上的应用挑战,提出他的观察与解决之道。
从应用角度来看,陆忠立表示,目前生成式AI应用主要分为4类,包括文生文、文生图,以及图生图与图生文。例如,ChatGPT就是一种文生文LLM模型的应用,而文生图应用则有Stable Diffusion模型等。
他表示,传统行动装置上的AI应用,例如配备在行动装置中的AI HDR影像增强、智慧降噪、影片画质提升和影片帧数转换功能,可以称为分析式AI应用,这些应用背后使用的AI模型在核心神经网路架构上与目前的生成式AI应用有明显的不同。
他用一个比喻来解释,传统分析式AI就像是一个擅长考试的学生,已经有一个标准答案存在,只需要尽量将你作答的答案接近这个标准答案就可以了,简单来说,目标就是要考一百分。而生成式AI更像是一个具有创新思维的学生,「因为没有标准答案可供参考,会给出多种不同的答案,可能回答1千次会得到1千种不同的结果。」他说,这也让生成式AI在回答上更容易给出你可能没想过的答案或创新点子。这正是生成式AI和分析式AI的差别。
可是,这使得生成式AI模型相较于传统分析式AI模型,需要占用更多的频宽、更多运算资源,例如生成式AI模型通常包含超过10亿个参数,而分析式AI模型的参数仅是其百分之一,不到一千万,也因此在处理模型推论时需要更高的AI算力,高于分析式AI的算力的10倍,大约需要10~100 TOPS的算力。
为何企业需要将生成式AI模型从云端下放到Edge端执行?
陆忠立表示,主要有几个原因,首先是隐私问题,有一些企业机敏资料或对话内容,可能不适合上传到云端,因此需要在Edge端来进行模型运算。此外,将模型部署到边缘端可以使其输出更贴近使用者身处的情境,还能够在离线环境中使用,而且因为是在边缘装置上做运算,资料不需要传输云端,反应能更即时。
但更重要的考量是成本。他表示,尽管模型训练仍然在云端中进行,但是将所有推论任务都在云端执行成本相当高,如果边缘运算设备具备有足够的运算能力,那么在本地处理这些任务可以帮助企业节省成本。
他强调,未来将是云端和边缘相互协作的模式。例如当用户在终端装置上输入一段提问文字或上传一张照片来进行生成时,首先由一个Arbitrator网路来决定是在本地端还是云端来处理,对机敏性较高或者是低延迟的任务,将会在边缘端的模型上处理。而对于需要更高精度输出结果或需处理分布在全球大量资料的任务,就可以透过云端模型执行。
他进一步补充,边缘装置目前能够处理拥有约100亿参数的AI模型推论的任务,(例如 LLaMa2 7B或Bloom1B模型等),而云端则可以处理多10倍,高达千亿参数以上的模型推论(如GPT-4 或PaLM2模型)。
又以智慧型手机为例,陆忠立指出,智慧型手机运算能力受限,主要用于处理模型推论参数在10亿到100亿之间的AI任务,如相片处理或个人助理等。而PC的推论处理能力高于手机,但受限于记忆体频宽,可以处理的参数量仍有限,大约在100亿~300亿之间,并以生产力相关的任务为主,例如使用Copilot协助撰写信件、内容摘要或是简报制作等。而如果模型参数超过700亿,仍需要透过云端进行处理,他坦言,目前在边缘装置上来执行这种规模的模型的挑战难度非常高,
他表示,想要在边缘装置上执行LLM模型推论,必须考虑到记忆体配置(memory footprint)、运算能力和记忆体频宽。这也是目前在边缘装置上执行LLM模型推论面临的3大挑战。
陆忠立也以执行一个70亿参数的中型LLM模型对硬体的要求来举例,执行这样的模型推论需要智慧型手机的DRAM至少需具有7GB的记忆体,运算能力要达到40TOPS (相当于1秒内能处理512单字),记忆体频宽则需要每秒传输70GB的速度。
可是,即便是今年上半最新款旗舰智慧手机,虽然其算力达到40TOPS,看似可以执行LLM模型,但由于将所有运算资源都集中到LLM应用上,导致手机中其他App使用可能因此容易卡顿,或是不能使用。此外,单一LLM模型就需要占用7GB的记忆体空间,几乎占掉了总体DRAM的一半,更大的挑战是记忆体频宽,最高传输速度50GB/s,不足以应付LLM需要每秒传输10个字的要求。
他强调,LLM模型对于记忆体频宽要求很高,目前一般智慧手机的记忆体频宽都不够用,将是影响使用者体验的重要关键。
目前每年AI模型复杂度正在以3到10倍速度增长,他认为,在一年可能只有2成硬体性能提升的前提下,很难赶上AI模型进展的速度。
为了解决这个问题, 他表示,现今不少硬体厂商在设计处理器时,除了CPU、GPU外,开始新增了一个能针对AI工作负载加速的硬体,例如联发科自己称作APU处理器(AI Processing Unit)或是英特尔称为DPU,专门处理包含生成式AI模型的推论任务等。
陆忠立表示,联发科的APU处理器中,目前包含了两个加速器,一个是DLA深度学习加速器,专门处理复杂的运算任务,另一个是BPU,类似DSP数位讯号处理单元,用来处理电脑视觉的相关任务,此外在BPU中还配备有本地记忆体,可直接在BPU中进行资料交换,减少对于DRAM的频繁存取,也因此提高电力使用效率。
此外在硬体设计上,他们也针对Transformer模型进行优化,例如加强对于使用softmax函数的大型矩阵计算与LN(Layer Normalization)方法,进而改善其模型的吞吐量和算数的准确度。
除了采用新硬体架构,具备更高效能且更省电特性之外,陆忠立认为,更重要的是软体,「如何降低LLM模型执行所需的运算量和记忆体,这是在边缘装置中执行生成式AI应用的关键。」
他也分享联发科的做法,从软体架构来看,除了中间层的Middleware层,在这之上还有一个NeuroPilot软体层,包括一套软体工具和API,提供配接(adaptor)、编译和runtime功能,用于联发科平台上开发高效的 AI 应用程式,上一层则可搭配PyTorch或TensorFlow等主流AI框架。此外,还提供了toolkit工具,使用户可以更快速且容易在联发科APU晶片系统上部署自己的模型进行相关测试及运用。