OpenAI
OpenAI昨(5)日公布最新生成式AI模型Sora,未来能让使用者输入文字即可产生短影片,目前已展开不公开的安全及功能测试。
Sora可依据用户输入的文字描述,产生最长1分钟的高画质影片。Sora能生成具有多个角色、特定动作及具备精准主题细节及背景的复杂场景影片。其底层模型对语言有深度理解能力,使其能精确解释用户的提示要求,产生能表达鲜明情感的人物,它也能在简单一则短影片建立多个场景,并以同样的角色和视觉风格贯穿多场景。目前OpenAI已提供合作的红队演练测试人员,以及少部分视觉设计、摄影师、制片人员试用Sora以取得专业反馈意见。
图片来源/OpenAI
Sora类似Meta和Google释出的类似AI模型,分别名为Emu Video及VideoPoet。
从技术层面而言,Sora是一个扩散模型,能从一个看似静态噪音(static noise)的影格开始,逐步透过去除噪音生成一则影片。Sora是在DALL-E及GPT模型的研究基础上发展,它使用DALL-E 3的重描述(recaptioning)技术,能为视觉训练资料产生高度描述文字,因此能依循用户文字指令产生影片。除了根据文字指示外,该模型也能将静态图片动态化以生成影片。Sora能从无到有生成全新影片,也能延长现有影片,或是将遗失的影格补上。
OpenAI表示,Sora是运行能理解及模拟真实世界的模型之基础,该公司相信是实现通用人工智慧(Artificial General Intelligence,AGI)的重要里程碑。
不过Sora目前还有待加强,因它对复杂场景的描绘,以及特定因果关系的理解还有问题。例如它的人物可能咬了口饼干,但饼干却没有咬痕。它有时也会搞混提示的细节,例如左、右搞错,或无法精准描述发生一段时间的事件,例如无法跟著摄影机的轨迹移动。
在将Sora公开给大众使用前,OpenAI正在强化安全测试。该公司正在进行红队演练,以评估假讯息、仇恨内容及偏见对模型的影响。开发团队也正在打造侦测误导性内容的工具,像是侦测分类器,能在Sora生成影片时加以判读。
为提供辨识,该公司计划未来将该模型部署到OpenAI产品中时,在其生成的影片加入C2PA metadata。C2PA是Meta和业界联盟合作发展的AI内容辨识标准,OpenAI已经在DALL-E3生成的图像中加入C2PA metadata。
此外,OpenAI也会利用团队现有安全技术为Sora加入安全措施,像是文字分类器会拒绝违反使用政策的提示,图像分类器则会检视影片的影格,以确保符合政策。该公司也承诺和立法机关、教育人士及艺术家合作以减少其对AI的疑虑。