【苹果私有AI战略关键1】靠LoRA架构装置端GAI拥有专门能力,为超强AI代理打基础

图片来源: 

苹果

今年6月,苹果WWDC抢尽了所有人的目光,不只是因为苹果终于发表了生成式AI战略,更因为苹果从应用面,展示了生成式AI如何流畅地整合到不同应用场景中,操作体验的流畅性和直觉设计,让人大开眼界。

苹果执行长Tim Cook在WWDC开场演讲中强调,苹果打造任何产品都必须符合五大原则,首先是必须强大,能够完成用户重要的工作。其次是直观易用,深度整合到产品体验,第四是最重要的一点,它必须了解使用者,最后一项是,产品从一开始就必须以隐私为基础。他强调,结合这些因素所打造的人工智慧,就是「个人智慧」(Personal intelligence),这也是苹果的下一步重大发展。」苹果用苹果智慧(Apple Intelligence)来命名这一套个人智慧的系统。

不同于其他生成式AI,苹果软体工程资深副总裁Craig Federighi指出,这套苹果智慧系统将强大的生成模型放到苹果产品的核心,可以依据个人的脉络资讯,来提供有帮助又有相关的智慧。「每一步都保护你的隐私,高度整合到苹果的平台中,遍布在沟通、工作和表达自我的应用中。」

Craig更强调:「苹果智慧最大特色是可以了解使用者的个人脉络。」所以才能让iPhone、iPad 和 Mac这些装置可以理解和生成出文字与图像,也可以代表个人来采取行动,简化跨不同App之间的互动。

换句话说,苹果智慧这套个人智慧系统,不只是高度个人化,而且是苹果希望做到,只有自己看得到,用得上,其他人,连提供平台的苹果自己都不能看,除非获得使用者主动的授权才能存取,可以说,苹果智慧就是一种个人可以高度掌控的私有化AI。

为了实践这个隐私优先的设计考量,苹果在生成式AI运作架构上,采取了云地混合的AI基础架构设计,在装置端提供了30亿参数的LLM模型,当地端GAI的能力不足时,才交由云端的LLM模型接手。苹果打造了一套「私有云端运算」(Private Cloud Compute,简称PCC)服务来执行这些云端的LLM模型,确保云端GAI服务能够达到苹果想要的隐私保护要求,这是苹果实践私有AI战略的另一个关键,我会用另一篇文章来说明

虽然云端PCC有很好的隐私安全设计,但是苹果希望最好能在本地端装置上,就能满足使用者日常工作上、家庭中使用的各种GAI应用需求,必须尽可能发挥30亿参数的能力。靠装置端LLM模型能够满足越多使用需求,就能避免将个人资料上传到云端,也越能确保使用者的隐私。苹果克服这项挑战最大的关键就LoRA架构。

LoRA架构是苹果装置端LLM的关键架构

苹果用他们在2023年开源释出的AXLearn框架来训练装置端的LLM模型,也只用苹果网路爬虫机器人搜集到的公开可用资料和其他有授权的资料来进行模型的预训练,也采用了人工标记资料和合成资料来提高训练素材的品质。在后训练中,也采取了人类回馈强化学习RLHF等作法来优化模型。

苹果还采取了大量模型优化作法,例如所用的LoRA转接模型(Adapter)采用了2位元和4位元搭配出平均3.5位元的权重压缩策略,来缩小模型大小。苹果更在2021年秋天,启用了一套互动式的ML模型效能分析工具,让ML工程师可以自己分析模型的行为指标(如准确性、精确度)和硬体指标(模型大小、延迟、功耗)的成效,2年来,苹果内部超过8百人使用,用来分析超过3,600套各式各样的模型。

透过许多模型优化机制,让这个30亿参数的LLM模型,在iPhone 15 Pro回应第一个提示词元(Token)的延迟时间,只需要0.6毫秒,也就是不到千分之一秒,就能生成第一个字的反应速度。目前每秒可以生成30个词元,苹果希望能持续提高生成的速度。

除了各种优化作法,为了让装置端LLM,可以针对使用者各种日常活动来微调,尽可能只靠装置就能完成任务,苹果采取了一个非常关键,甚至可能是装置端架构最重要的设计,苹果采用LoRA(Low-Rank Adaptation)架构来部署LLM模型。这是微软在2021年发布的大型语言模型优化架构,可以大幅减少微调大型语言模型的参数量。

这边不会详细解释LoRA的运作原理,简单来说,LoRA作法是,在对一个大型语言模型进行微调时,可以搭配一个参数量相对小很多的神经网络模型,称为转接模型(Adapters)来计算,训练资料只需要来微调这个转接模型,就能达到媲美直接微调大型语言模型的推论效果。

一般来说30亿参数的LLM模型,采用各种模型压缩技术,可能也需要1、2GB的记忆体,但是,以苹果所用的30亿参数装置端模型,他们采用了16位元,Rank值16设定的转接模型大小,只有数十MB大小。

利用LoRA架构,苹果智慧可以使用同一套装置端LLM模型,来搭配各种不同用途的转接模型,苹果目前已经训练出了语言生成模型的多种转接模型,像是摘要模型,校对模型、邮件回复模型、查询处理模型、友善回应模型、紧急回应模型等,在图片生成也有许多不同用途的专用模型。图片来源/苹果

转接模型只有数MB,用记忆体快取就能快速切换不同模型

因为装置端像是手机、平板的记忆体有限,苹果指出,这个大小的转接模型,就可以动态使用记忆体来快取,切换不同的转接模型。等于只需要载入一份LLM,可以针对不同任务需求,快速切换不用用途的转接模型,就可以让GAI具备不同用途的专门能力,就可以更有效的管理记忆体,也能确保在装置上的回应速度够快。

采取LoRA有两大好处,一是在模型预训练阶段,因为主要针对转接模型进行微调,可以大幅减少需要训练的参数量,很容易可以训练出因应不同用途的转接模型,例如用翻译用转接模型、内容摘要用转接模型等。只需要使用不同用途的训练资料,就能微调出适合不同任务的专用转接模型,而不用每次都花时间和算力来微调大型语言模型。

另一个好处是,一个大型大型语言模型,可以搭配使用不同的转接模型,换了一个转接模型,就能拥有这个转接模型所微调后的效果,例如换上「内容摘要用转接模型」,就能提高LLM摘要内容的能力和品质,甚至,可以串接多个转接模型来叠加效果。

若用专业相机的镜头来比喻LLM模型,不同镜头可以提供不同的功能,但是转接模型就像是镜头的滤镜,一个镜头可以搭配不同功能的滤镜,不用每次都切换笨重的镜头,也能单靠快速更换滤镜,就能拍出不同风格效果的照片,一个镜头还能搭配多个滤镜,来呈现复合的效果。

利用LoRA架构,苹果智慧可以使用同一套装置端LLM模型,来搭配各种不同用途的转接模型,苹果目前已经训练出了语言生成模型的各种转接模型,像是摘要模型,校对模型、邮件回复模型、查询处理模型、友善回应模型、紧急回应模型等,在图片生成也有许多不同用途的专用模型。

可以用不同专门模型,指挥第三方App来执行特定任务

苹果将苹果智慧的功能,高度整合到系统元件中,不同功能用途的元件可以使用对应功能的专用转接模型,来提高执行特定任务的能力。

苹果新增的个人脉络能力,像是语意索引、萤幕文字理解,将使用者当下的画面,或与一项行动所需的相关个人化资讯,也可以用来分辨,装置端LLM模型可以搭配使用哪些转接模型来强化,符合个人化脉络操作需要的能力,更可以搭配苹果的App意图框架,根据不同的App意图,切换适合这项意图的转接模型。

早在2年前的WWDC 2022,苹果就发表了可让Siri控制的App意图,能让使用者用语音指挥Siri来控制某些App的内部行为,更可以透过苹果OS中的捷径功能,组合不同App的行动,打造出一只自动化RPA程式一样,后来发展成了现在App意图框架,到了今年WWDC,App意图是整个系统可以用的基础功能,任何第三方App,都可使用App意图框架,将App内部的核心功能,定义成可以供Siri、Spotlight搜寻或是捷径可以操作的App意图。过去几年已有不少第三方App,自定出了数百项App意图,都成了Siri可以指挥的行动,让苹果智慧呼叫这些第三方App,来完成不同用途的功能。

不只如此,过去几年,苹果不断强化装置端的隐私机制,尽可能让用户拥有更大的资料自主权,从2021年上路的ATT(App Tracking Transparency,ATT)政策,可拒绝广告识别码,来避免跨App追踪,可隐藏真实Email的Hide My Email功能,可隐藏用户IP的Private relay,更容易开关的精细权限控管、揭露度更高的App隐私报告。今年更新增了App层级的隐私控制,可以将一只App所用的资料上锁,没有解锁,就无法看到这只App所用的任何资料。这就让使用者对装置端上的App,有更高的资料主控权,也能让各种装置端AI代理,更安全、在授权下,完成各项App意图所驱动的行动。

苹果采用LoRA架构和种种模型优化技术,让装置端的LLM,可以快速切换搭配不同的专用转接模型,来提供不同任务需要,更专门的GAI能力,还能用来判读,使用者下达的指令背后的意图,可以使用哪些第三方App能支援的行动来满足使用者的需求,这就像是一个以使用者名义来采取各种行动的AI代理,而且苹果智慧的AI代理,还可以只靠装置端LLM,就能完成大部分日常活动需要的任务。

苹果在WWDC主题演讲中,一点都没有提过「AI代理」这个字,这个今年各大科技巨头强打的GAI新主流,但是,采取LoRA架构来实现超强装置端LLM的苹果智慧,早已展开了各项AI代理基础工程的布局。

 相关报导  【苹果私有AI战略关键2】用5大安全设计落实隐私3准则,打造高度私有的云地混合架构