Google DeepMind推Veo 2影像生成模型,可生成比Sora解析度高4倍、长度多6倍的影片

图片来源: 

Google

在本月初测试影像生成模型Veo后,Google DeepMind周一再公布Veo 2版、更新版图片生成模型Image 3以及实验计划,挑战Meta和OpenAI Sora。

Google说Veo 2提升了对实体世界物理作用和人类运动和表情细微差异的理解力,可增进影片的细节和真实性。它也理解电影摄影独特语言,用户只要指定文类、镜头以及想要的影像效果。例如用户可以要求从场景中间以低角度平移追踪,或一位科学家观看显微镜的脸部特写。它也能根据用户输入18mm镜头的提示要求生成常用此类镜头的广角影像,或是输入「浅景深」,它会将背景模糊,将焦点集中在主题上。

Veo 2最高能生成一部最高4K(4096 x 2160)解析度画质,最长2分钟的影片。这个能力是OpenAI Sora影片最高解析度的4倍,长度则超过6倍。Sora最高可生成1080p、20秒的影片。

根据Google提供的由千名使用者评估,Veo 2和其他模型如Meta MovieGen、Sora Turbo生成的影片和提示,Veo 2在整体偏好及提示遵从度,都超过其他模型。Google并说Veo 2虽然还是有幻觉问题,但频率大为降低。

Google今天开始谨慎部署Veo 2给用户。除了在Vertex AI上线,Google也推出新的Google Labs影像生成服务VideoFX及新的实验专案Whisk上线逐步开放给创作者。目前仅支援720p和8秒影片生成。

和Google之前的影片和图片生成模型一样,Veo 2输出成果都会包含SynthID浮水印以表明是AI生成物,借此防止假讯息。

Google DeepMind也升级了Image 3,现在可生成更明亮、更具构图感的图像。它现在能更准确渲染更多样化的艺术风格——从写实主义到印象派、抽象艺术或到动漫风。新版Image 3也更能忠实反映提示要求,产出细节和质感更丰富的图片。

对Veo2有兴趣的用户可以在Google Labs加入等候清单等待存取权限。Google计划明年将Veo 2扩大应用到YouTube Shorts及其他产品。Image 3更新版则已在100多个国家部署,于Google Labs下的图片生成工具ImageFX上线。

最后,Google Labs还推出了新的实验工具,名为Whisk,可生成具更丰富表达力的图片。它整合了Image 3和具备视觉理解和描述能力的Gemini模型。用户可上传或生成图片,Gemini会自动撰写详细描述,再把这段文字作为提示送给Image 3,让用户得以混合产生新的主题、场景或风格的图像。Whisk今天在美国上线。