AI趨勢周報第237期：蘋果提出新方法，行動裝置可執行DRAM兩倍大的LLM

苹果结合视窗化（Windowing）和列行合并（Row-column bundling）技术，来重复使用已活化的神经元、减少资料传输，以及针对快闪记忆体的序列资料存取优势，来增加快闪记忆体读取资料的大小，成功在DRAM有限的行动装置上，执行DRAM两倍大的LLM。

图片来源:

苹果

重点新闻(1215～1221)

DRAM 苹果 LLM

苹果提出新方法，成功让边缘装置执行DRAM两倍大的LLM

苹果最近提出一种新方法，来解决行动装置DRAM记忆体不足、难以执行大型语言模型（LLM）的难题。进一步来说，LLM虽有出色的语言处理表现，但需耗费大量运算资源和记忆体，很难在资源有限的边缘装置上执行，特别是DRAM有限的行动装置。

于是，苹果团队结合2种技术，将模型参数储存在快闪记忆体上，再依需求，将参数传送到DRAM，让行动装置也有办法执行原本DRAM无法负荷的LLM应用。这2种技术分别是视窗化（Windowing）和列行合并（Row-column bundling），前者透过重复使用已活化的神经元，来减少资料传输，后者针对快闪记忆体的序列资料存取优势，来增加快闪记忆体读取资料的大小。团队测试，采用这些方法，可执行高达DRAM两倍大的模型，而且与单纯的CPU和GPU加载方法相比，推理速度分别提高了4到5倍和20到25倍。

这项研究意义重大，因为苹果计划将生成式AI功能整合到iOS 18作业系统中，来强化Siri和讯息App体验，更有效地回答问题和自动完成句子。不只苹果，三星最近也推出可在行动装置上执行的语言模型Gauss，并计划纳入2024年初要发布的Galaxy S24手机中，他们还打算将这种语言模型整合到其他手机、笔电和平板电脑等设备。另一方面，Google也推出Gemini Nano低阶版语言模型，可在装置上执行，且预计结合Google Pixel 8手机，要提供录音App的摘要功能和Gboard智慧键盘的智慧回应等功能。 GAI LLMOps Google

Google要打造从端到云全套GAI工具链

Google在12月发表不少生成式AI工具，不只有大语言模型Gemini，也在AI开发套件Vertex AI上释出企业用Gemini Pro模型预览版API，开放企业免费试用。同时，他们也推出Web版AI Studio开发工具，将自家MLOps开发平台Vertex AI转为聚焦企业GAI开发的LLMLOps平台，要涵盖开发、部署到维运更多模型生命周期阶段的需求。

进一步来说，就Gemini而言，Google发表高阶Ultra版、中阶Pro和用于行动装置的低阶Nano版模型等3种版本，Ultra版将可同时辨识和理解文字、图片与声音，也能处理几种热门开发语言，如Python、Java、C++。而先上架的Gemini Pro模型API预览版，就是中阶款，包括只支援文字输入和生成的Gemini Pro，以及Gemini Pro Vision端点这2种API，后者可处理文字和影像输入，但只输出文字。

Google还宣布多项Vertex AI新功能，包含模型增强、与外部资料或API的互动、多模型协作框架、自动化模型评比和更多GAI控制机制。其中，Vertex AI增强工具的主要功能有强化搜寻常用的嵌入检索机制、设定配置就能快速建置的RAG工具，能串接外部向量资料库，再以Vertex AI使用Gemini来实现多模态嵌入检索。Vertex AI也将提供到18种GAI负责任控管机制，来把关生成内容，另也会提供3项模型与外部环境互动的能力，不只有8月推出的预览版外挂机制（Extension）、让生成式AI模型即时取得外部资讯，还会新增函数呼叫功能，可将Gemini生成结果自动汇出成一支API或函式程式。另一项新功能是多模型协作调度，Vertex AI将可用来调度多个模型互相搭配，例如在手机上用Nano版模型接收使用者口说的问题，先将问题声音转成文字后，再抛转到云端的Pro版模型来生成回答、传给使用者。不过，Google还没揭露调度框架释出时程。 Mixtral 8x7B Llama 2 SMoE

微软更新DirectML，开始支援NPU

微软预告2024年将更新DirectML，将支援神经处理单元（NPU）。NPU是一种专为机器学习工作负载设计的处理单元，适合用于计算密集、不需图型介面互动的工作负载，目前英特尔新款Core Ultra处理器晶片就内建NPU，也会是第一个可在Windows上使用DirectML技术的NPU。

DirectML是一个低阶且硬体抽象化的API，能直接存取GPU等各类加速器，来执行机器学习计算。DirectML也能和其他机器学习框架整合，比如跨平台推理引擎ONNX Runtime、Windows机器学习模型最佳化工具Olive等。得到DirectML支援的NPU，还能加入ONNX生态系，使用如ONNX Model Zoo模型、英特尔Neural Compressor与ONNX Runtime等工具。这次的新支援，对开发者来说，能透过ONNX Runtime等API，将AI模型转移到英特尔NPU上执行。支援NPU的DirectML预计在2024年初，与最新的ONNX Runtime版本一起释出。 Imagen 2 Google Vertex AI

Google推出文字生成图像模型Imagen 2

Google最近在自家模型开发和部署平台Vertex AI中，正式上架文字生成图像模型Imagen 2，供等待审核的使用者取用。Google指出，Imagen 2的特点包括更高品质的图像生成、更精准的文字渲染、可制作Logo、产出更贴切的图说和看图问答、多支援6种语言，以及符合Google负责任AI原则。其中，精准的文字渲染，能让生成的图像更贴近文字提示，而支援的语言除了英文，还新添中文、印度语、日文、韩文、葡萄牙文和西班牙文等。

就安全性来说，Google在Imagen 2内建安全机制，确保产生的图像符合规范。例如，生成图像整合DeepMind的SynthID浮水印功能，列入白名单的使用者可用来生成肉眼不可见的浮水印。而且，Google还强调版权赔偿方法，意味著使用者不必担心以Imagen 2生成的作品，可能侵害著作权。图片来源／Google、OpenAI、微软

AI近期新闻

1. Google用机器学习技术最佳化编译器配置，强化模型执行效率

2. Mistral AI 将于 2024 年开源 GPT-4 级别模型

资料来源：iThome整理，2023年12月

AI趋势周报第237期：苹果提出新方法，行动装置可执行DRAM两倍大的LLM