Google DeepMind推Veo 2影像生成模型，可生成比Sora解析度高4倍、長度多6倍的影片

图片来源:

Google

在本月初测试影像生成模型Veo后，Google DeepMind周一再公布Veo 2版、更新版图片生成模型Image 3以及实验计划，挑战Meta和OpenAI Sora。

Google说Veo 2提升了对实体世界物理作用和人类运动和表情细微差异的理解力，可增进影片的细节和真实性。它也理解电影摄影独特语言，用户只要指定文类、镜头以及想要的影像效果。例如用户可以要求从场景中间以低角度平移追踪，或一位科学家观看显微镜的脸部特写。它也能根据用户输入18mm镜头的提示要求生成常用此类镜头的广角影像，或是输入「浅景深」，它会将背景模糊，将焦点集中在主题上。

Veo 2最高能生成一部最高4K（4096 x 2160）解析度画质，最长2分钟的影片。这个能力是OpenAI Sora影片最高解析度的4倍，长度则超过6倍。Sora最高可生成1080p、20秒的影片。

根据Google提供的由千名使用者评估，Veo 2和其他模型如Meta MovieGen、Sora Turbo生成的影片和提示，Veo 2在整体偏好及提示遵从度，都超过其他模型。Google并说Veo 2虽然还是有幻觉问题，但频率大为降低。

Google今天开始谨慎部署Veo 2给用户。除了在Vertex AI上线，Google也推出新的Google Labs影像生成服务VideoFX及新的实验专案Whisk上线逐步开放给创作者。目前仅支援720p和8秒影片生成。

和Google之前的影片和图片生成模型一样，Veo 2输出成果都会包含SynthID浮水印以表明是AI生成物，借此防止假讯息。

Google DeepMind也升级了Image 3，现在可生成更明亮、更具构图感的图像。它现在能更准确渲染更多样化的艺术风格——从写实主义到印象派、抽象艺术或到动漫风。新版Image 3也更能忠实反映提示要求，产出细节和质感更丰富的图片。

对Veo2有兴趣的用户可以在Google Labs加入等候清单等待存取权限。Google计划明年将Veo 2扩大应用到YouTube Shorts及其他产品。Image 3更新版则已在100多个国家部署，于Google Labs下的图片生成工具ImageFX上线。

最后，Google Labs还推出了新的实验工具，名为Whisk，可生成具更丰富表达力的图片。它整合了Image 3和具备视觉理解和描述能力的Gemini模型。用户可上传或生成图片，Gemini会自动撰写详细描述，再把这段文字作为提示送给Image 3，让用户得以混合产生新的主题、场景或风格的图像。Whisk今天在美国上线。

Google DeepMind推Veo 2影像生成模型，可生成比Sora解析度高4倍、长度多6倍的影片