AI趨勢周報第264期：從虛擬人到LLM社交智力測試，Meta開源9大研究成果

Meta AI研究院FAIR最近开源9项重要研究成果，包括虚拟人动作控制模型、影片浮水印生成模型、生成框架、LLM社交能力基准测试等。

重点新闻（1213～1219）

Meta 电脑视觉 LLM

从虚拟人到LLM社交智力测试，Meta开源9大研究成果

最近，Meta AI研究院FAIR开源今年度9大重点研究成果，从虚拟人型AI代理的动作控制、AI影片生成浮水印、多模态生成框架，再到LLM社交能力基准测试、大型概念模型（LCM）和另类Transformer视觉模型等，都包括在内。FAIR希望开源这些成果，来推动AI技术进步。开源重点如下：

Meta Motivo虚拟人行为基础模型，能控制虚拟人型代理的动作，来完成复杂任务。该模型以非监督增强式学习方法和未标记的大量资料训练而成，能学习人类行为，但也保有零样本推论能力。团队希望该技术能加速元宇宙全身化代理的开发、提高游戏NPC拟真度，或是加速动画角色的普及。
Meta Video Seal影片浮水印生成模型，可在影片中嵌入肉眼看不见的浮水印，就算影片经过模糊化、剪辑或压缩等编辑，依然能辨识，能用来追溯影片来源。
Flow Matching生成框架指南和程式码，可生成多种模态资料，如图像、影片、音讯、音乐和3D结构（如蛋白质）等。Meta已用这个框架开发内部多款生成应用，如Movie Gen、Meta Audiobox等，业界也用来打造不同模型，如Stable-Diffusion-3、Flux等，取代了传统扩散模型。
Meta Explore Theory-of-Mind对抗数据生成框架，能以心智理论（ToM）来强化机器智慧，更能理解和推测人类想法。这个框架可生成资料集，来改善LLM的人际互动表现，还能收集互动资料集，或是作为评估LLM社交智力（Social intelligence）的基准测试。
Large Concept Model（LCM）大型语言概念模型，是一种新型的模型训练方法，不像传统语言模型专门预测下一个字符，而是预测下一个概念或高阶想法，并透过多模态和多语言嵌入空间来表示。这个方法让模型在生成任务中，媲美甚至超越目前最先进的LLM表现。
Dynamic Byte Latent Transformer是一种Transformer模型，因为不需要任何分词（Tokenize）预处理，克服了传统文本分词带来的限制，提高模型在长序列训练和推论的效率。
Memory Layers at Scale扩展记忆层方法，能提高LLM对复杂概念和语言细节的理解。这个方法还能在不增加运算量的情况下，为模型增加额外的参数，进而提高记忆效率。
Image Diversity Modeling负责任的图像生成模型，Meta特别与外部专家合作，请他们用这款模型来进行负责任研究，在模型保持高品质产出的同时，也兼顾安全。
CLIP 1.2视觉-语言编码器，可更好地学习、捕捉图像与语义间的细微关联。Meta这次开源了CLIP 1.2的演算法、训练方法和基础模型。

生成式AI Nvidia 超级电脑

Nvidia推出轻巧实惠的生成式AI超级电脑

最近Nvidia推出体积小巧的生成式AI超级电脑，名为Jetson Orin Nano Super开发者套件，价格从499美元降至249美元，使用者可透过软体升级，来以更低价格享有更高效能，打造生成式AI边缘装置。

这个开发者套件约手掌大小，与前代产品相比，这款套件的生成式AI推论效能提高了1.7倍、运算效能提高70%，达到67 INT8 TOPS，记忆体频宽还加大50%，达到每秒102 GB，因此足够执行多种热门的生成式AI模型，或是Transformer类的电脑视觉模型。

Nvidia表示，这款超级电脑可用来打造检索增强生成（RAG）的LLM聊天机器人、视觉AI代理，也能部署AI机器人。对于已拥有Jetson Orin Nano开发者套件的使用者来说，也能升级这款Jetson Orin Nano Super软体更新服务，来提高执行生成式AI的效能。 Veo 2 影像生成 Google DeepMind

Google DeepMind推Veo 2影像生成模型

在12月初测试影像生成模型Veo后，Google DeepMind最近发布Veo 2版，要挑战Meta和OpenAI Sora模型。Google指出，Veo 2理解力更强了，可以判断实体世界物理作用、人类运动和表情的细微差异，来强化影片的细节和真实性。它也理解电影摄影的独特语言，用户可以指定镜头和想要的影像效果，例如要求从场景中间以低角度平移追踪。

Veo 2最高可以生成一部4K（4096 x 2160）解析度画质、长2分钟的影片。这个能力是OpenAI Sora影片最高解析度的4倍，长度则超过6倍。Google还提供千名使用者评估，Veo 2和其他模型如Meta MovieGen、Sora Turbo相比，Veo 2在整体偏好及提示遵从度，都超过其他模型。Google表示，Veo 2虽然有幻觉问题，但频率大为降低。Veo 2已在Vertex AI上线，Google也在新推的Google Labs影像生成服务VideoFX和实验专案Whisk上，线逐步开放给创作者使用，但仅支援720p和8秒影片生成。 ChatGPT 多模态 统一管理

OpenAI ChatGPT看得见了

在OpenAI展开的12天直播中，揭露两款新功能Advanced Voice Mode with Vision和Projects，分别让ChatGPT看得见，还能同时储存专案档案和对话了。进一步来说，Advanced Voice Mode是以GPT-4o等多模态模型为基础，赋予ChatGPT听力，能更流畅、更快速和用户交谈。在第6天的新功能发布中，OpenAI为这个功能加入了影片、萤幕共享和图片上传的支援能力，用户可将手机对准电视播放的影片，问ChatGPT问题，或是和ChatGPT视讯对话，让ChatGPT一步步教用户完成手冲咖啡。该功能目前开放给ChatGPT Plus、Pro 方案用户以手机App存取。

另一项新功能Projects则提供对话和档案统一管理的新方法，来简化需要大量交谈的工作。Projects可将对话内容、档案和自订指令储存於单一个地方，以便管理。它还支援OpenAI的现有功能，包括Canvas文件编辑、进阶资料分析、DALL-E和搜寻等。该功能将陆续推向所有ChatGPT 付费用户，包括Teams、Plus、Pro方案，但ChatGPT Enterprise及Edu方案用户要等到明年初。图片来源／Meta、OpenAI、Nvidia、微软、Google、Anthropic

AI近期新闻

1. Google开始测试有推理能力的Gemini 2.0 Flash模型

2. Salesforce升级Agentforce 2.0，新技能库要助企业打造高效智慧代理

3. GitHub Copilot推出免费版本

4. Google发表3D场景生成模型Genie 2

资料来源：iThome整理，2024年12月

AI趋势周报第264期：从虚拟人到LLM社交智力测试，Meta开源9大研究成果

重点新闻（1213～1219）