市场研究机构IDC认为,SLM将加速微型化AI发展,在不需连结云端下,在有限资源的运算设备上执行AI,让企业建立弹性、敏捷的AI应用。(图片来源/IDC)
随著大型语言模型快速发展,全球兴起生成式AI(GAI)风潮,2024年可以说是企业探索GAI潜力的一年,GAI受到企业重视,根据2024年iThome CIO大调查,约2成2的企业为GAI提高对AI的投资,而有1成调整AI战略,更聚焦在GAI在内部可能的应用场景。
企业除测试GAI如何应用在内部营运提升营运效率,也逐渐向特定营运或生产场景应用,带动GAI应用部署从公有云、企业资料中心,渐渐向边缘运算、IoT扩散。
研究机构IDC指出,和企业资料中心核心端相比,GAI应用未来更大发展将在边缘端,在推论需求快速增长的驱动下,预期许多企业2025年将扩大边缘部署,将带动边缘IT基础设施扩展。
轻量化可在行动、边缘装置部署的小模型兴起
过去两年里,大型语言模型LLM发展相当快速,除了向文字、图片的多模态发展,也向小语言模型SLM发展,降低语言模型的参数规模,以更适合在运算资源有限的系统部署。
例如Google在2023年释出可在手机上执行推论的Gemini Nano模型,以推动手机能在离线状态下使用GAI,Google更进一步看准边缘端GAI推论的需求,在2024年5月推出采用相同技术的Gemma,目的即锁定边缘GAI应用需求,透过全球超过30亿台Android装置,包括行动装置、边缘运算及IoT装置,扩大GAI应用至更多场景。
Meta也在2024年释出Llama 3.2 1B与3B模型,让开发人员得以针对边缘运算及行动装置开发具有文字生成及工具的装置端应用程式,让资料留在装置端处理,降低资料上传到云端可能的资料外泄风险,也让装置端的GAI互动能够更为即时。
微软则是释出最新小语言模型Phi-3,包括mini(3.8B)、small(7B)及medium(14B)三个版本,以用于语言理解、推理、数学等等,强调小模型可用于运算效能有限或离线环境,让许资源受限的组织将模型部署于低成本装置,或是在频宽受限环境下,确保一定的回应速度。
装置端AI算力提升
除了大型语言模型的轻量化发展,以满足边缘运算、IoT及行动装置执行需求,另一个驱力则是硬体在AI运算的快速发展。
以Arm为例,看好AI在各类装置的运算需求,其在Arm架构中推出的Ethos系列NPU,在2024年推出效能更佳的第三代Ethos-U85,即锁定Edge AI运算需求提升NPU效能,该公司也释出函式库等工具,以协助开发人员优化AI工作负载在Arm装置的执行,Arm进一步喊出2025年达到全球1,000亿台采用Arm技术装置执行AI的目标。
而两大行动处理器业者,高通及联发科也分别在其高阶行动处理器提升AI处理能力。
高通旗下Snapdragon系列行动处理器整合NPU,并在2024年率先和微软联手发表Copilot+PC笔电,主打笔电上执行GAI应用,高通也与Mistral AI合作,将小模型导入用于PC、手机、汽车等Snapdragon平台,强调在装置上执行生成式AI的优势,包括提升隐私、降低延迟、增加可靠性、节省成本及提高能源效率。
联发科在天玑系列高阶行动处理器整合APU提升AI处理能力,以支援手机上的GAI应用,看好未来边缘端应用发展潜力,与Nvidia合作将支援上百种预训练模型及工具的Nvidia TAO工具套件整合到联发科的软体开发套件,进一步强化边缘AI的推论晶片开发,目的在协助开发人员开发包括GAI在内的边缘AI装置,用于零售、制造、医疗、智慧城市、交通等场域。
此外,英特尔、AMD也纷纷锁定AI PC推出新款行动或桌上型处理器,通过整合NPU提高在装置端的AI算力,未来不只用于PC,可望被用于工控电脑、伺服器,将使得AI算力扩大到更多的垂直应用场域。IDC预期2025年支援GAI的手机占有率将占整体智慧型手机市场约的5成,而AI笔电则会占整体市场约4成1。
边缘端用GAI就地动态产生建议或方案
传统的AI被训练来处理特定任务,如人脸辨识、语音识识、预测分析等等,目前在边缘运算已采用AI,以制造业为例,搜集产线上的数据,利用AI侦测异常、设备故障预测、瑕疵等等。
GAI优势在于生成内容,包括文字、图像、音乐、程式码等,但是GAI如果集中在企业核心端的资料中心处理,需要建立大量的AI运算资源,GAI推论从核心走向边缘端,一方面满足低延迟、即时回应的需求,也能减轻核心端的算力资源需求,并达到节能的目的。
另外,将资料上传到核心端,可能增加资料外泄的风险,在高科技制造业,工厂内的数据具有相当高的机密性,在边缘运算部署GAI推论就近处理资料,也能降低资安风险。
相较于大语言模型可处理复杂的工作任务,需要较大的AI算力资源,,轻量化设计的小模型,可用于执行较简单的任务,适用于成本较低、运算资源有限的行动或边缘装置,模型经过微调可满足特定场域的用途。
GAI在边缘端的应用,例如智慧客服即时对话生成,在制造现场管理单位可根据现况动态调整,输入资料动态生成操作指引,或是输入多种产线资料,提出生产调度建议,或根据文字及图像资料生成新的设计。
Meta先前释出Llama 3.2的轻量化模型,曾展示一款AI Glass眼镜,将GAI整合到AR眼镜,使用者可以语音和GAI助手对话,未来这项应用也可能用于智慧工厂,维修人员配载AI眼镜后,现场设备出现异常或维修时,可利用语音在厂内查询相关的维修纪录或由AI提供维修建议,或是语音呼叫AI助手与远方的专家通话获得进一步的协助。
不只是制造业,其他产业在边缘的GAI应用,例如在智慧零售与顾客互动,提出个人化的行销内容或推荐商品,在健康医疗业可产生即时的健康报告及建议。
企业在边缘端部署GAI应用,需要考量到不同运算装置的算力、记忆体资源是否足够,还需要考虑到不同的模型压缩、生成内容的安全及准确性。IDC认为LLM的轻量化发展,SLM小语言模型将让企业可建立弹性、敏捷部署的AI应用。
但是,企业在边缘端部署GAI应用,未来需要考虑到公有云、企业资料中心、边缘端如何协作混合运算策略,例如在云端或核心端、边缘端执行不同模型的策略。