AI趋势周报第264期:从虚拟人到LLM社交智力测试,Meta开源9大研究成果

Meta AI研究院FAIR最近开源9项重要研究成果,包括虚拟人动作控制模型、影片浮水印生成模型、生成框架、LLM社交能力基准测试等。

重点新闻(1213~1219)

 Meta     电脑视觉     LLM  

从虚拟人到LLM社交智力测试,Meta开源9大研究成果

最近,Meta AI研究院FAIR开源今年度9大重点研究成果,从虚拟人型AI代理的动作控制、AI影片生成浮水印、多模态生成框架,再到LLM社交能力基准测试、大型概念模型(LCM)和另类Transformer视觉模型等,都包括在内。FAIR希望开源这些成果,来推动AI技术进步。开源重点如下:

Meta Motivo虚拟人行为基础模型,能控制虚拟人型代理的动作,来完成复杂任务。该模型以非监督增强式学习方法和未标记的大量资料训练而成,能学习人类行为,但也保有零样本推论能力。团队希望该技术能加速元宇宙全身化代理的开发、提高游戏NPC拟真度,或是加速动画角色的普及。
Meta Video Seal影片浮水印生成模型,可在影片中嵌入肉眼看不见的浮水印,就算影片经过模糊化、剪辑或压缩等编辑,依然能辨识,能用来追溯影片来源。
Flow Matching生成框架指南和程式码,可生成多种模态资料,如图像、影片、音讯、音乐和3D结构(如蛋白质)等。Meta已用这个框架开发内部多款生成应用,如Movie Gen、Meta Audiobox等,业界也用来打造不同模型,如Stable-Diffusion-3、Flux等,取代了传统扩散模型。
Meta Explore Theory-of-Mind对抗数据生成框架,能以心智理论(ToM)来强化机器智慧,更能理解和推测人类想法。这个框架可生成资料集,来改善LLM的人际互动表现,还能收集互动资料集,或是作为评估LLM社交智力(Social intelligence)的基准测试。
Large Concept Model(LCM)大型语言概念模型,是一种新型的模型训练方法,不像传统语言模型专门预测下一个字符,而是预测下一个概念或高阶想法,并透过多模态和多语言嵌入空间来表示。这个方法让模型在生成任务中,媲美甚至超越目前最先进的LLM表现。
Dynamic Byte Latent Transformer是一种Transformer模型,因为不需要任何分词(Tokenize)预处理,克服了传统文本分词带来的限制,提高模型在长序列训练和推论的效率。
Memory Layers at Scale扩展记忆层方法,能提高LLM对复杂概念和语言细节的理解。这个方法还能在不增加运算量的情况下,为模型增加额外的参数,进而提高记忆效率。
Image Diversity Modeling负责任的图像生成模型,Meta特别与外部专家合作,请他们用这款模型来进行负责任研究,在模型保持高品质产出的同时,也兼顾安全。
CLIP 1.2视觉-语言编码器,可更好地学习、捕捉图像与语义间的细微关联。Meta这次开源了CLIP 1.2的演算法、训练方法和基础模型。

 

  生成式AI     Nvidia     超级电脑  

Nvidia推出轻巧实惠的生成式AI超级电脑

最近Nvidia推出体积小巧的生成式AI超级电脑,名为Jetson Orin Nano Super开发者套件,价格从499美元降至249美元,使用者可透过软体升级,来以更低价格享有更高效能,打造生成式AI边缘装置。

这个开发者套件约手掌大小,与前代产品相比,这款套件的生成式AI推论效能提高了1.7倍、运算效能提高70%,达到67 INT8 TOPS,记忆体频宽还加大50%,达到每秒102 GB,因此足够执行多种热门的生成式AI模型,或是Transformer类的电脑视觉模型。

Nvidia表示,这款超级电脑可用来打造检索增强生成(RAG)的LLM聊天机器人、视觉AI代理,也能部署AI机器人。对于已拥有Jetson Orin Nano开发者套件的使用者来说,也能升级这款Jetson Orin Nano Super软体更新服务,来提高执行生成式AI的效能。  Veo 2     影像生成     Google DeepMind  

Google DeepMind推Veo 2影像生成模型

在12月初测试影像生成模型Veo后,Google DeepMind最近发布Veo 2版,要挑战Meta和OpenAI Sora模型。Google指出,Veo 2理解力更强了,可以判断实体世界物理作用、人类运动和表情的细微差异,来强化影片的细节和真实性。它也理解电影摄影的独特语言,用户可以指定镜头和想要的影像效果,例如要求从场景中间以低角度平移追踪。

Veo 2最高可以生成一部4K(4096 x 2160)解析度画质、长2分钟的影片。这个能力是OpenAI Sora影片最高解析度的4倍,长度则超过6倍。Google还提供千名使用者评估,Veo 2和其他模型如Meta MovieGen、Sora Turbo相比,Veo 2在整体偏好及提示遵从度,都超过其他模型。Google表示,Veo 2虽然有幻觉问题,但频率大为降低。Veo 2已在Vertex AI上线,Google也在新推的Google Labs影像生成服务VideoFX和实验专案Whisk上,线逐步开放给创作者使用,但仅支援720p和8秒影片生成。  ChatGPT     多模态     统一管理  

OpenAI ChatGPT看得见了

在OpenAI展开的12天直播中,揭露两款新功能Advanced Voice Mode with Vision和Projects,分别让ChatGPT看得见,还能同时储存专案档案和对话了。进一步来说,Advanced Voice Mode是以GPT-4o等多模态模型为基础,赋予ChatGPT听力,能更流畅、更快速和用户交谈。在第6天的新功能发布中,OpenAI为这个功能加入了影片、萤幕共享和图片上传的支援能力,用户可将手机对准电视播放的影片,问ChatGPT问题,或是和ChatGPT视讯对话,让ChatGPT一步步教用户完成手冲咖啡。该功能目前开放给ChatGPT Plus、Pro 方案用户以手机App存取。

另一项新功能Projects则提供对话和档案统一管理的新方法,来简化需要大量交谈的工作。Projects可将对话内容、档案和自订指令储存於单一个地方,以便管理。它还支援OpenAI的现有功能,包括Canvas文件编辑、进阶资料分析、DALL-E和搜寻等。该功能将陆续推向所有ChatGPT 付费用户,包括Teams、Plus、Pro方案,但ChatGPT Enterprise及Edu方案用户要等到明年初。图片来源/Meta、OpenAI、Nvidia、微软、Google、Anthropic

  AI近期新闻 

1. Google开始测试有推理能力的Gemini 2.0 Flash模型

2. Salesforce升级Agentforce 2.0,新技能库要助企业打造高效智慧代理

3. GitHub Copilot推出免费版本

4. Google发表3D场景生成模型Genie 2

资料来源:iThome整理,2024年12月