OpenAI公布短影片生成AI模型Sora 能理解指示、產出複雜場景

图片来源:

OpenAI

OpenAI昨（5）日公布最新生成式AI模型Sora，未来能让使用者输入文字即可产生短影片，目前已展开不公开的安全及功能测试。

Sora可依据用户输入的文字描述，产生最长1分钟的高画质影片。Sora能生成具有多个角色、特定动作及具备精准主题细节及背景的复杂场景影片。其底层模型对语言有深度理解能力，使其能精确解释用户的提示要求，产生能表达鲜明情感的人物，它也能在简单一则短影片建立多个场景，并以同样的角色和视觉风格贯穿多场景。目前OpenAI已提供合作的红队演练测试人员，以及少部分视觉设计、摄影师、制片人员试用Sora以取得专业反馈意见。

图片来源／OpenAI

Sora类似Meta和Google释出的类似AI模型，分别名为Emu Video及VideoPoet。

从技术层面而言，Sora是一个扩散模型，能从一个看似静态噪音（static noise）的影格开始，逐步透过去除噪音生成一则影片。Sora是在DALL-E及GPT模型的研究基础上发展，它使用DALL-E 3的重描述（recaptioning）技术，能为视觉训练资料产生高度描述文字，因此能依循用户文字指令产生影片。除了根据文字指示外，该模型也能将静态图片动态化以生成影片。Sora能从无到有生成全新影片，也能延长现有影片，或是将遗失的影格补上。

OpenAI表示，Sora是运行能理解及模拟真实世界的模型之基础，该公司相信是实现通用人工智慧（Artificial General Intelligence，AGI）的重要里程碑。

不过Sora目前还有待加强，因它对复杂场景的描绘，以及特定因果关系的理解还有问题。例如它的人物可能咬了口饼干，但饼干却没有咬痕。它有时也会搞混提示的细节，例如左、右搞错，或无法精准描述发生一段时间的事件，例如无法跟著摄影机的轨迹移动。

在将Sora公开给大众使用前，OpenAI正在强化安全测试。该公司正在进行红队演练，以评估假讯息、仇恨内容及偏见对模型的影响。开发团队也正在打造侦测误导性内容的工具，像是侦测分类器，能在Sora生成影片时加以判读。

为提供辨识，该公司计划未来将该模型部署到OpenAI产品中时，在其生成的影片加入C2PA metadata。C2PA是Meta和业界联盟合作发展的AI内容辨识标准，OpenAI已经在DALL-E3生成的图像中加入C2PA metadata。

此外，OpenAI也会利用团队现有安全技术为Sora加入安全措施，像是文字分类器会拒绝违反使用政策的提示，图像分类器则会检视影片的影格，以确保符合政策。该公司也承诺和立法机关、教育人士及艺术家合作以减少其对AI的疑虑。

OpenAI公布短影片生成AI模型Sora 能理解指示、产出复杂场景