挑戰OpenAI Sora，Meta影片生成AI模型Movie Gen明年登上IG

图片来源:

Meta

Meta上周预告最新AI影片生成模型Meta Movie Gen家族，可生成高品质的图片和影片、音效或配乐，效能优于包括OpenAI Sora等竞争对手。新模型工具预计明年登上IG。

Meta执行长祖克柏（Mark Zuckerberg）透过Threads公布可生成和编辑影片的Movie Gen AI模型，预告2025年将登上Instagram（IG）。祖克柏还展示了Movie Gen将他健身用的腿推机变化成罗马时期、农村、工业机械及太空科技风格的器械，其中罗马时期影片的他还换上了罗马武士服装。

目前Movie Gen还在开发中，在官方部落格中，Meta称它是其AI媒体研究的重大突破，具备多模态能力，包括图片、影像和声音，让开发人员输入文字提示即可产生自制影片和音讯、编辑现有影片，或是将图片转化为影片。Meta声称Movie Gen效能品质在许多任务上已超越业界类似模型，包括Open AI Sora。

Movie Gen为Meta最新一代AI影片生成工具。第一代是2022年公布能产制影音、图片和3D动画的Make-A-Scene，第二代是基于扩散模型的Llama Image基础模型，后者提供更高影音品质及图片编辑功能。Movie Gen属于第三代，融合所有模态，允许使用者更大的影片控制能力。。

Movie Gen是以经授权或公开可用的资料集，所训练而成的300亿参数Transformer模型。它是一组具备引人入胜说故事能力的模型，具备4种模型版本，包括影片生成、个人化影片生成、精准影片编辑及声音生成版本。

Movie Gen基础模型具备物体动作、主题和物件互动、以及相机运动的理解能力，还能学习多种概念的动作，例如它能生成特写、广角、空照、低角度、第一人视角的影片，而且克服了生成影片常出现的物件扭曲／模糊、动作不自然、或罕见动作不完整（如猫熊弹钢琴）。在影片功能上，Movie Gen能产出16 fps的高画质16秒影片。在基础版Movie Gen之外，Meta也提供允许以文字或影片控制、微调生成结果的版本。

此外并有可影片精准编辑版本，让用户以文字或影片提示精准控制想要的效果。这个版本让用户在生成的影片增加、移除或取代部份元素，或是变更背景及修改风格。Meta并强调，不同于别家工具，这项新工具不但具备更精准控制、不需要专业背景，它生成过程会保留原始内容，而只针对相关像素施以变更。

Movie Gen还有一个130亿参数的声音生成模型版本，可接收影片或文字提示，生成最长45秒和影片同步的音讯，包括环境音、音效，或是乐器背景音乐。Meta还提供音讯延长工具，可生成任意长度的影片所需的声音，并兼顾声音品质、影音同步、文字声音同步的效果需求。

Meta论文提供的A/B人为评估测试，比较Movie Gen和市面模型，包括Runway Gen3、OpenAI Sora、Kling 1.5、PikaLabs Sound的整体Net Win Rate，其中在影片生成效果方面，Meta的模型和Kling差不多，优于OpenAI Sora，并大胜Runway Gen 3，其他三项能力则大胜对手模型。

而和前代模型一样，Movie Gen也将成为Meta未来多项新服务的底层引擎。除了IG，Meta预告，新模型未来也会整合在其他平台产品中，包括提供以文字提示生成短影片Reels、或是生成祝福以WhatsApp传送等。

挑战OpenAI Sora，Meta影片生成AI模型Movie Gen明年登上IG