OpenAI正式发布Sora视频生成功能,十个月后迎来新篇章
2024-12-10 / 阅读约5分钟
来源:ArsTechnica
OpenAI发布了Sora Turbo文本转视频生成模型的新版本,供ChatGPT Plus和Pro订阅用户使用,可生成长达20秒、分辨率为1080p的视频,包含多项安全限制,并计划在2025年初推出专业定价层。


图片来源: OpenAI

周一,OpenAI推出了其文本转视频生成模型Sora Turbo的新版本,并通过专属网站向ChatGPT Plus和Pro订阅用户开放。该模型能够根据文本或图像提示生成时长可达20秒、分辨率高达1080p的视频。

OpenAI宣布,即日起,Sora将面向美国和全球多个地区的ChatGPT Plus和Pro订阅用户开放,但欧洲地区暂不可用。然而,截至周一中午,即便现有Plus订阅用户尝试使用该工具,也会收到因“流量过大”导致“注册暂时不可用”的提示。

出于谨慎考虑,OpenAI目前限制了Sora生成人物视频的能力。在发布初期,涉及人物的上传内容将受到限制,同时OpenAI正致力于完善其深度伪造防护系统。该平台还禁止涉及儿童性虐待材料和性深度伪造的内容。OpenAI表示,已建立主动监控系统,并在发布前进行测试,以识别潜在的滥用场景。

当OpenAI在2月份首次预览时,Sora相对高质量的生成能力令AI专家感到惊讶。然而,在接下来的几个月里,随着Google的Veo、Runway的Gen-3 Alpha、Kling、Minimax以及最近的Hunyuan Video模型等竞争对手的视频合成模型相继问世,Sora的部分光芒有所减弱。

OpenAI展示的一个Sora视频样本,生成提示为:“在一个色彩柔和的浴室里,有一只橡胶小黄鸭,还有一个完全由洗发水泡沫制成的可爱小龙。小龙吐出泡泡。”

尽管如此,OpenAI终于推出了备受瞩目的视频模型,这标志着一个重要里程碑。Sora允许用户以多种纵横比创建视频,并支持将现有资产与AI生成内容混合。OpenAI表示,与2024年2月预览的研究版本相比,Sora Turbo处理视频生成请求的速度更快。

ChatGPT Plus订阅用户(每月20美元)每月最多可创建50个480p分辨率的视频,并可选择生成更少数量的720p质量视频。Pro订阅用户(每月200美元)将享受更多功能,包括更高分辨率选项和更长的视频时长。OpenAI计划在2025年初推出专业定价层。

由加拿大艺术团体Vallée Duhamel使用Sora生成的视频制作的音乐视频。“我们只是拍摄了一些素材,然后使用Sora将其与更有趣、更超现实的视觉效果相结合。”

在周一的直播中——这是OpenAI“OpenAI的12天”活动的第三天——Sora的开发人员展示了一个名为“探索”的新界面,允许用户浏览他人生成的视频以获取灵感。OpenAI表示,任何人都可以免费观看“探索”动态,但生成视频需要订阅。

此外,他们还展示了一个名为“故事板”的新功能,允许用户逐帧指导包含多个动作的视频。

安全措施与限制

除了发布新版本外,OpenAI还首次公布了Sora的系统卡片,其中包含了模型工作原理的技术细节以及公司在发布前进行的安全测试。

“虽然大型语言模型(LLMs)有文本标记,但Sora有视觉补丁,”OpenAI写道,将新的训练块描述为“视觉数据模型的有效表示……在高级别上,我们通过首先将视频压缩到低维潜在空间,然后将表示分解为时空补丁,将视频转换为补丁。”

Sora还采用了一种“重述技术”——类似于公司在DALL-E 3图像生成中使用的技术,以“为视觉训练数据生成高度描述性的字幕”。这反过来使Sora能够“在生成的视频中更忠实地遵循用户的文本指令”,OpenAI指出。

OpenAI提供的由Sora生成的视频,生成提示为:“循环:一只穿着超人服装、戴着面具和斗篷的金毛寻回犬幼犬,冬天站在帝国大厦的顶部,俯瞰着它守护的纽约市夜景。小狗的背部对着相机;它的注意力面向纽约市。”

OpenAI在发布中实施了多项安全措施。该平台在所有生成的视频中嵌入C2PA元数据以进行识别和来源验证,视频默认显示可见水印。OpenAI还开发了一个内部搜索工具来验证Sora生成的内容。

该公司承认当前版本存在技术限制。“这个早期版本的Sora会出错,它并不完美,”一位开发人员在直播发布时表示。据报道,该模型在处理物理模拟和长时间复杂动作方面存在困难。

过去,我们已观察到这类限制与用于训练AI模型的示例视频有关。当前这一代AI视频合成模型在生成真正新颖的内容方面存在挑战,因为底层架构擅长将现有概念转换为新的呈现方式,但迄今为止通常在真正原创性方面表现不佳。然而,AI视频生成仍处于早期阶段,技术正在不断改进。