AI趋势周报第261期:UI萤幕互动成多模态模型新战场,苹果揭露新研究成果

图片来源: 

Apple

重点新闻(1004~1010)

 苹果     UI萤幕     MM1.5  

UI萤幕互动成多模态模型新战场,苹果揭露新研究成果

苹果发表多模态大型语言模型MM1.5系列模型,透过训练阶段精挑细选的资料混合方法,提高了模型对多文字图像理解、视觉引用和定位(Grounding)以及多图像推理的能力。该模型架构以前一代模型MM1架构为基础,训练原则也延续以资料为中心,探索在不同训练周期中,不同的混合资料方法对模型表现的影响。

举例来说,团队在MM1.5持续预训练阶段,导入高品质的OCR资料和合成图说,可大幅提升模型对多文字图像的理解力。又或是在监督式微调阶段,对不同类型资料的影响进行分析,找出最佳的视觉指令微调资料混合方法。MM1.5系列模型的大小从10亿参数到300亿参数不等,采用不同类型架构,如密集模型和专家混合(MoE)模型。团队表示,即使是10亿参数和30亿参数的小规模模型,透过精细的资料管理和训练策略,也能发挥强大表现。

特别的是,苹果还同时打造了专门处理影片理解的模型MM1.5-Video,以及专门理解行动装置UI(如iPhone萤幕)的MM1.5-UI模型。他们强调,将多模态模型应用于行动装置萤幕互动,比如代表使用者与装置互动或与使用者一起理解UI,是一项有潜力的应用场景,可提高使用效率和生产力。而MM1.5-UI单一模型,就能执行多种视觉引用和定位任务,还能摘要UI萤幕上的功能,甚至透过与使用者对话来互动。虽然模型拿下SOTA表现,团队将继续优化模型,比如透过多模态融合方法,将文字、图片和使用者互动资料融合,设计出更复杂的网路架构,来让模型参考多种资料来源、提高对行动装置UI的理解。  影片生成     Meta     配乐  

Meta预告影片生成AI模型Movie Gen

Meta最近揭露AI影片生成模型Meta Movie Gen,可生成高品质的图片和影片、音效或配乐,效能比OpenAI Sora等先进模型要好。不过,Movie Gen还在开发中,Meta在官方部落格称其为AI媒体研究的重大突破,具多模态能力,可处理图片、影像和声音,开发者输入文字提示即可产生影片和音讯、编辑现有影片,或是将图片转化为影片,克服了生成影片常出现的物件扭曲/模糊、动作不自然、或罕见动作不完整等问题。

早在2022年,Meta就发布第一代多模态AI模型Make-A-Scene,能产制影音、图片和3D动画,第二代则是基于扩散模型的Llama Image基础模型,提供更高影音品质及图片编辑功能。Movie Gen属于第三代,融合所有模态,是以经授权或公开可用的资料集训练而成的300亿参数Transformer模型。该模型有4个版本,包括影片生成、个人化影片生成、精准影片编辑和声音生成版本。Meta指出,Movie Gen将成为Meta未来多项新服务的底层引擎,比如明年将用于IG,未来也会整合其他平台产品。  Gemini Nano     Android     Google  

轻量模型Gemini Nano开放测试

Google最近提供开发工具AI Edge SDK,Android开发者可用来试用Gemini Nano模型,打造各种场景的Android应用。进一步来说,Gemini Nano是Google Gemini系列模型之一,专门针对装置端任务设计,模型可在装置端完成所有运算,不需连接云端伺服器。也就是说,敏感资料可留在装置,且模型无需网路连线,也能提供完整功能。

Gemini Nano适用的场景有智慧回复、文本改写、校对或是文件摘要,开发者可透过AI Edge SDK整合,控制输出随机性、Top K和回应最大长度等推理参数,来满足不同应用需求。目前,Google开放给开发者测试的是Gemini Nano 2模型,而且,Google也开发一套Android系统服务AICore,可让开发者简单在装置端执行模型,不必自己发布执行环境、模型和其他元件。  PyTorch     运算效能     torchao  

可大幅改进AI模型运算效能!PyTorch释出torchao函式库

PyTorch最近发布全新原生函式库torchao,透过低精度资料型态、量化和稀疏性技术,减少模型的计算成本和记忆体使用量,让模型执行更有效率。torchao提供一套容易上手的工具组,支援多种模型推论和训练最佳化方法,可广泛用于PyTorch模型,LLaMA 3和Diffusion模型的效能都显著提升。

低精度资料型态是torchao加速的关键之一,该工具支援float8、int4等低精度资料型态,能有效减少计算成本和记忆体使用需求,像是在LLaMA 3 70B模型预训练中,torchao提供了float8训练流程,可将模型运算加速达1.5倍。在推论方面,torchao提供多种量化方式,包括权重量化和动态启动量化。使用者可透过API自行选择适合的量化策略,来达到最佳推论效能。稀疏性技术也是torchao提升模型效率的重要手段,有了稀疏性,torchao可最佳化模型参数计算,降低不必要的运算耗能。图片来源/苹果、Meta、Nvidia

  AI近期新闻 

1. OpenAI释出更快的语音辨识模型Whisper large-v3-turbo

2.