Meta
Meta上周预告最新AI影片生成模型Meta Movie Gen家族,可生成高品质的图片和影片、音效或配乐,效能优于包括OpenAI Sora等竞争对手。新模型工具预计明年登上IG。
Meta执行长祖克柏(Mark Zuckerberg)透过Threads公布可生成和编辑影片的Movie Gen AI模型,预告2025年将登上Instagram(IG)。祖克柏还展示了Movie Gen将他健身用的腿推机变化成罗马时期、农村、工业机械及太空科技风格的器械,其中罗马时期影片的他还换上了罗马武士服装。
目前Movie Gen还在开发中,在官方部落格中,Meta称它是其AI媒体研究的重大突破,具备多模态能力,包括图片、影像和声音,让开发人员输入文字提示即可产生自制影片和音讯、编辑现有影片,或是将图片转化为影片。Meta声称Movie Gen效能品质在许多任务上已超越业界类似模型,包括Open AI Sora。
Movie Gen为Meta最新一代AI影片生成工具。第一代是2022年公布能产制影音、图片和3D动画的Make-A-Scene,第二代是基于扩散模型的Llama Image基础模型,后者提供更高影音品质及图片编辑功能。Movie Gen属于第三代,融合所有模态,允许使用者更大的影片控制能力。。
Movie Gen是以经授权或公开可用的资料集,所训练而成的300亿参数Transformer模型。它是一组具备引人入胜说故事能力的模型,具备4种模型版本,包括影片生成、个人化影片生成、精准影片编辑及声音生成版本。
Movie Gen基础模型具备物体动作、主题和物件互动、以及相机运动的理解能力,还能学习多种概念的动作,例如它能生成特写、广角、空照、低角度、第一人视角的影片,而且克服了生成影片常出现的物件扭曲/模糊、动作不自然、或罕见动作不完整(如猫熊弹钢琴)。在影片功能上,Movie Gen能产出16 fps的高画质16秒影片。在基础版Movie Gen之外,Meta也提供允许以文字或影片控制、微调生成结果的版本。
此外并有可影片精准编辑版本,让用户以文字或影片提示精准控制想要的效果。这个版本让用户在生成的影片增加、移除或取代部份元素,或是变更背景及修改风格。Meta并强调,不同于别家工具,这项新工具不但具备更精准控制、不需要专业背景,它生成过程会保留原始内容,而只针对相关像素施以变更。
Movie Gen还有一个130亿参数的声音生成模型版本,可接收影片或文字提示,生成最长45秒和影片同步的音讯,包括环境音、音效,或是乐器背景音乐。Meta还提供音讯延长工具,可生成任意长度的影片所需的声音,并兼顾声音品质、影音同步、文字声音同步的效果需求。
Meta论文提供的A/B人为评估测试,比较Movie Gen和市面模型,包括Runway Gen3、OpenAI Sora、Kling 1.5、PikaLabs Sound的整体Net Win Rate,其中在影片生成效果方面,Meta的模型和Kling差不多,优于OpenAI Sora,并大胜Runway Gen 3,其他三项能力则大胜对手模型。
而和前代模型一样,Movie Gen也将成为Meta未来多项新服务的底层引擎。除了IG,Meta预告,新模型未来也会整合在其他平台产品中,包括提供以文字提示生成短影片Reels、或是生成祝福以WhatsApp传送等。