Sora 的崛起:人工智能如何重新定义视频内容创作的格局

AI动态 2个月前 (07-23) 浏览 223

Sora 是一种渐进式文本转视频 AI 模型,有望彻底改变视频创作的规则。

Adobe 最近宣布计划将生成式 AI 工具集成到其Premiere Pro软件中。此举包括允许用户直接在 Premiere Pro 中访问OpenAI的 Sora 等工具,旨在通过场景操控和干扰消除等 AI 驱动的功能丰富该软件。

尽管 OpenAI 的 Sora 目前尚未向公众开放,但 Adob​​e 展示了其与 Premiere Pro 的集成作为一项实验性功能,但并未提供具体的发布时间表。

Sora 是一种先进的文本转视频 AI 模型,因其有望彻底改变视频创作游戏而受到关注。对于所有与视频制作、动作设计和动画相关的人来说,这项技术都是一种极具前景的极致效果工具,但也带来了重大挑战。

让我们来探索令人难以置信且备受期待的 Sora 的各个方面。

文字转视频?

本质上,Sora 旨在根据文本提示制作栩栩如生、视觉上引人入胜的视频。作为 AI 的创新应用,Sora 旨在简化视频制作流程,并为叙事过程和视觉交流提供新的可能性。

Sora 的功能根植于其解释和执行文本命令以创建引人入胜的视频内容的能力。利用先进的深度学习技术和语言理解,Sora 可以处理输入文本并构建具有角色、设置和动作的相应视觉场景。此过程涉及自然语言处理和视频合成之间的复杂相互作用,从而产生与提供的文本提示紧密一致的输出。

在开发 Sora 的过程中,OpenAI 团队强调了创建一个 AI 模型的重要性,该模型必须包含对语言的深刻理解和对视觉叙事原则的扎实掌握。通过整合自然语言理解和视频合成领域的最新进展,Sora 的设计优先考虑了语言表达和视觉表现的紧密融合。

这怎么可能呢?

因此,Sora 的功能类似于其他处理文本转图像的生成式 AI,是一种扩散模型。这意味着 Sora 以静态噪声开始每一帧,然后将图像转换为类似于给定提示和预期描述的描述。这要归功于机器学习。Sora 视频最长可达 60 秒。

为了解决时间一致性问题,Sora 通过同时考虑多个视频帧进行创新,确保场景中物体移动时的连贯性。

Sora 结合了扩散和变压器模型,采用了类似于 GPT 变压器架构的混合方法。Jack Qiao 强调了这些模型的互补优势,扩散擅长纹理生成但缺乏全局组合,而变压器擅长高级布局确定。这种组合充分利用了变压器组织补丁的能力,而扩散模型则填充了细节。

在 Sora 的实现中,图像被细分为三维块以适应时间持久性。这反映了语言模型中的标记化过程,其中块表示一组图像的元素。此外,还应用了降维步骤来简化计算效率。

为了提高视频保真度,Sora 采用了类似于DALL·E 3 的字幕重写技术,其中 GPT 在视频生成之前用附加细节重写用户提示。这是一种自动提示细化的形式,确保忠实地遵循用户的输入。

Sora 现在有多好?

OpenAI 承认 Sora 当前版本存在一些局限性。值得注意的是,Sora 缺乏对物理学的内在理解,这意味着它可能无法始终遵循现实世界的物理原理。

例如,该模型无法掌握因果关系,从而导致潜在的不一致。同样,物体的空间定位可能会出现不自然的变化。

在可靠性方面,Sora 的状态仍不确定。尽管 OpenAI 已经展示了高质量的示例,但尚不清楚选择性展示的程度如何。在文本到图像的应用程序中,生成多幅图像并选择最佳图像是一种常见的做法。OpenAI 团队在其公告文章中展示视频时制作的确切图像数量尚未披露。这种缺乏透明度可能会阻碍采用,特别是如果需要生成数百或数千个视频才能获得一个可用的结果。为了缓解这种不确定性,我们必须等待该工具的更广泛可用性。

Sora 在哪里有用?

Sora 的功能扩展到从头开始创建视频、延长现有素材以及无缝填充视频中缺失的帧。

与文本转图像的 AI 生成工具彻底改变了无需技术编辑技能的图像创作方式类似,Sora 旨在简化视频制作,而无需图像编辑专业知识。以下是一些主要的应用场景:

  • Sora 可以制作针对 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台定制的短视频。它特别擅长制作使用传统方法难以或不切实际的内容。
  • 传统上,制作广告、宣传视频和产品演示等昂贵的工作可以通过 Sora 等文本转视频 AI 工具大大简化,从而提供经济高效的解决方案。
  • 即使 AI 生成的视频未集成到最终产品中,它们也是快速说明概念的宝贵工具。电影制作人可以在拍摄前利用 AI 制作场景模型,而设计师可以在制造前将产品可视化。例如,一家玩具公司可以聘请 Sora 为新款海盗船玩具制作 AI 模型,以在量产前评估其可行性。
  • 在隐私或可行性问题阻碍使用真实数据的情况下,合成数据被证明是无价之宝。虽然合成数据通常应用于财务记录和个人身份信息等数字数据,但可以生成具有类似属性的合成数据以实现更广泛的可访问性。在视频领域,合成数据可用于训练计算机视觉系统。

与 Sora 相关的挑战

  • 作为一款新推出的产品,Sora 的风险尚未完全阐明;但是,预计其风险与文本转图像模型遇到的风险类似。
  • 如果没有足够的保护措施,Sora 可能会制作令人反感或不当的内容,例如包含暴力、血腥画面、露骨色情内容、贬损特定群体以及宣扬或美化非法活动的视频。不当内容的构成会因用户(例如儿童与成人)和视频制作环境(例如,关于烟花危害的教育视频无意中展示了血腥场景)的不同而有很大差异。
  • OpenAI 分享的示例视频表明,Sora 的一项显著能力是能够创造超越现实的富有想象力的场景。然而,这种能力也使其容易生成“深度造假”视频,即真实的人物或情况被改变以传达虚假信息,无论是无意的(错误信息)还是有意的(虚假信息)。这样的内容可能会导致严重后果。
  • 生成式人工智能模型产生的结果与训练数据有着内在联系。因此,训练数据中嵌入的文化偏见或刻板印象可能会出现在生成的视频中,从而可能导致类似的问题持续存在。

OpenAI团队采取了什么措施来预防上述风险?

目前,Sora 仅供“红队”研究人员使用,这些专家的任务是识别和缓解模型的潜在问题。这些研究人员努力生成可能表现出上述风险的内容,以便 OpenAI 在 Sora 公开发布之前解决和纠正任何问题。

Sora 能让我失业吗?

Sora 能够根据文本提示制作顶级视频内容,这有可能会引发创意就业领域的重大变革。面对这样的进步,摄像、特效和动画领域的传统职位可能会过时。虽然一些创意人员可能会通过磨练监督 AI 功能、合乎道德的 AI 使用以及指导创意方向以利用 AI 能力的专业知识来转型,但这种转变对所有人来说是否可行仍不确定。

另一方面,通过减少与视频制作相关的技术和财务障碍,Sora 有可能让更广泛的个人有能力制作高质量的内容。这种民主化可能会促进多样化和创造性内容分发的兴起。虽然这可能需要现有的媒体实体和内容创作者进行调整并引入创新方法,但这种演变可能预示着积极的结果。

无论如何,大规模发布后,Sora无疑将引发视频及相关行业,以及个人内容创作的变革。

OpenAI Sora 的长期影响

随着 Sora 逐渐融入专业工作流程,其持久影响也逐渐显现:

解锁高价值用例:Sora 跨行业的集成有望带来变革性应用,包括:

  • 加速内容制作:Sora 简化了 VR、AR、游戏和传统娱乐领域的媒体创作,加快了生产周期并促进了创意。
  • 个性化体验:Sora 精心策划符合个人喜好的定制内容,重塑娱乐和教育模式,以适应不同的学习风格和品味。
  • 实时调整:Sora 支持的动态视频编辑允许即时修改内容,以满足观众的偏好和实时反馈。
  • 模糊数字界限:Sora 与 VR 和 AR 的协同作用模糊了物理和数字领域之间的界限,呈现出新颖的沉浸式体验和互动式叙事机会。

从本质上讲,Sora 的出现预示着人工智能驱动内容创作的变革时代的到来,将深刻地重塑行业、叙事和用户体验。

- END -
- 0人点赞 -

发表点评 (1条)