AI趋势周报第237期:苹果提出新方法,行动装置可执行DRAM两倍大的LLM

苹果结合视窗化(Windowing)和列行合并(Row-column bundling)技术,来重复使用已活化的神经元、减少资料传输,以及针对快闪记忆体的序列资料存取优势,来增加快闪记忆体读取资料的大小,成功在DRAM有限的行动装置上,执行DRAM两倍大的LLM。

图片来源: 

苹果

重点新闻(1215~1221)

 DRAM     苹果     LLM  

苹果提出新方法,成功让边缘装置执行DRAM两倍大的LLM

苹果最近提出一种新方法,来解决行动装置DRAM记忆体不足、难以执行大型语言模型(LLM)的难题。进一步来说,LLM虽有出色的语言处理表现,但需耗费大量运算资源和记忆体,很难在资源有限的边缘装置上执行,特别是DRAM有限的行动装置。

于是,苹果团队结合2种技术,将模型参数储存在快闪记忆体上,再依需求,将参数传送到DRAM,让行动装置也有办法执行原本DRAM无法负荷的LLM应用。这2种技术分别是视窗化(Windowing)和列行合并(Row-column bundling),前者透过重复使用已活化的神经元,来减少资料传输,后者针对快闪记忆体的序列资料存取优势,来增加快闪记忆体读取资料的大小。团队测试,采用这些方法,可执行高达DRAM两倍大的模型,而且与单纯的CPU和GPU加载方法相比,推理速度分别提高了4到5倍和20到25倍。

这项研究意义重大,因为苹果计划将生成式AI功能整合到iOS 18作业系统中,来强化Siri和讯息App体验,更有效地回答问题和自动完成句子。不只苹果,三星最近也推出可在行动装置上执行的语言模型Gauss,并计划纳入2024年初要发布的Galaxy S24手机中,他们还打算将这种语言模型整合到其他手机、笔电和平板电脑等设备。另一方面,Google也推出Gemini Nano低阶版语言模型,可在装置上执行,且预计结合Google Pixel 8手机,要提供录音App的摘要功能和Gboard智慧键盘的智慧回应等功能。  GAI    LLMOps      Google  

Google要打造从端到云全套GAI工具链

Google在12月发表不少生成式AI工具,不只有大语言模型Gemini,也在AI开发套件Vertex AI上释出企业用Gemini Pro模型预览版API,开放企业免费试用。同时,他们也推出Web版AI Studio开发工具,将自家MLOps开发平台Vertex AI转为聚焦企业GAI开发的LLMLOps平台,要涵盖开发、部署到维运更多模型生命周期阶段的需求。

进一步来说,就Gemini而言,Google发表高阶Ultra版、中阶Pro和用于行动装置的低阶Nano版模型等3种版本,Ultra版将可同时辨识和理解文字、图片与声音,也能处理几种热门开发语言,如Python、Java、C++。而先上架的Gemini Pro模型API预览版,就是中阶款,包括只支援文字输入和生成的Gemini Pro,以及Gemini Pro Vision端点这2种API,后者可处理文字和影像输入,但只输出文字。

Google还宣布多项Vertex AI新功能,包含模型增强、与外部资料或API的互动、多模型协作框架、自动化模型评比和更多GAI控制机制。其中,Vertex AI增强工具的主要功能有强化搜寻常用的嵌入检索机制、设定配置就能快速建置的RAG工具,能串接外部向量资料库,再以Vertex AI使用Gemini来实现多模态嵌入检索。Vertex AI也将提供到18种GAI负责任控管机制,来把关生成内容,另也会提供3项模型与外部环境互动的能力,不只有8月推出的预览版外挂机制(Extension)、让生成式AI模型即时取得外部资讯,还会新增函数呼叫功能,可将Gemini生成结果自动汇出成一支API或函式程式。另一项新功能是多模型协作调度,Vertex AI将可用来调度多个模型互相搭配,例如在手机上用Nano版模型接收使用者口说的问题,先将问题声音转成文字后,再抛转到云端的Pro版模型来生成回答、传给使用者。不过,Google还没揭露调度框架释出时程。  Mixtral 8x7B     Llama 2     SMoE  

微软更新DirectML,开始支援NPU

微软预告2024年将更新DirectML,将支援神经处理单元(NPU)。NPU是一种专为机器学习工作负载设计的处理单元,适合用于计算密集、不需图型介面互动的工作负载,目前英特尔新款Core Ultra处理器晶片就内建NPU,也会是第一个可在Windows上使用DirectML技术的NPU。

DirectML是一个低阶且硬体抽象化的API,能直接存取GPU等各类加速器,来执行机器学习计算。DirectML也能和其他机器学习框架整合,比如跨平台推理引擎ONNX Runtime、Windows机器学习模型最佳化工具Olive等。得到DirectML支援的NPU,还能加入ONNX生态系,使用如ONNX Model Zoo模型、英特尔Neural Compressor与ONNX Runtime等工具。这次的新支援,对开发者来说,能透过ONNX Runtime等API,将AI模型转移到英特尔NPU上执行。支援NPU的DirectML预计在2024年初,与最新的ONNX Runtime版本一起释出。  Imagen 2     Google     Vertex AI  

Google推出文字生成图像模型Imagen 2

Google最近在自家模型开发和部署平台Vertex AI中,正式上架文字生成图像模型Imagen 2,供等待审核的使用者取用。Google指出,Imagen 2的特点包括更高品质的图像生成、更精准的文字渲染、可制作Logo、产出更贴切的图说和看图问答、多支援6种语言,以及符合Google负责任AI原则。其中,精准的文字渲染,能让生成的图像更贴近文字提示,而支援的语言除了英文,还新添中文、印度语、日文、韩文、葡萄牙文和西班牙文等。

就安全性来说,Google在Imagen 2内建安全机制,确保产生的图像符合规范。例如,生成图像整合DeepMind的SynthID浮水印功能,列入白名单的使用者可用来生成肉眼不可见的浮水印。而且,Google还强调版权赔偿方法,意味著使用者不必担心以Imagen 2生成的作品,可能侵害著作权。图片来源/Google、OpenAI、微软

  AI近期新闻 

1. Google用机器学习技术最佳化编译器配置,强化模型执行效率

2. Mistral AI 将于 2024 年开源 GPT-4 级别模型

资料来源:iThome整理,2023年12月