注:本文最初发布于 note 上的 Koa Mio 帐户。

 

上周, 我尝试使用 OpenAI 的Sora 2 制作不同类型的视频。

说实话,这是我第一次觉得它既强大到足以让专业人士满意,又足够简单到任何人都能上手
。我会总结一下它的优点、难点以及如何上手。

图像
本文所有视频均由DeeVid AI+Sora 2模型生成。

 

Sora 2 有哪些新功能?

Sora 2是最新一代机型,可以同时将文本、图像和短片创建成视频和声音
。它具有改进的物理真实感、场景连接和相机“清晰度”,您可以在应用程序内创建、混合和共享所有内容。


我通过触摸学到了什么(经验)

它启动很快。
比如,我添加了以下提示:
黄金时段在威尼斯海滩玩滑板。手持拍摄,浅景深,自然的环境音效。”
拍摄出来的效果看起来和预想的一模一样,甚至连镜头的移动悬挂系统的震动都一模一样。

图像
 

指定参考图像非常有效。
如果您添加一张复古紧凑型汽车的照片,并要求“市中心的电影式雨夜”,车身的颜色和形状就会稳定。模型中经常出现的“形状变化”问题不太可能发生。

图像
 

音频也得到了改进。
短句台词的口型和声音基本同步。虽然要求达到完美的录音室级ADR效果有些过分,但对于社交媒体和预告片来说已经足够了。

相机说明更容易遵循。
“35mm/从低位置跟踪”,“三脚架安装”,“缓慢推入” -我觉得
这些说明更加准确(当然不是全部)。


我仍不擅长的事情

  • 故事很长,而且是多镜头的。
    场景之间的衔接有所改善,但复杂的道具和服装之间的完美搭配有时会失效。

  • 访问和稳定性。
    由于该应用仍处于发布阶段,因此存在等待时间一些小问题,并且该应用的评级也反映出其仍处于开发阶段。


为什么感觉它适合所有人

  1. 距离“可观看质量”的距离很短。
    图像和声音的质感是同时产生的,因此从草稿到出版的距离大大缩短。

  2. 这款应用的体验流畅无阻。
    从创作、混音到分享,一切都在应用内完成。即使是非编辑人员也能轻松创作出逼真的作品。

  3. 生态系统正在不断发展。
    相关服务的预设和工作流程的数量正在增加,从而降低了学习曲线。


十分钟搞定:入门食谱

  1. 写一句剧情梗概。
    例如,“一辆蓝绿色的复古紧凑型轿车在小雨中驶入霓虹灯闪烁的小巷。缓缓驶入。”

  2. 添加有关工艺的注释:
    相机(手持/35 毫米/浅景深)、光线(湿路上的反射)、运动(向右跟踪)、声音(发动机低沉的隆隆声 + 雨声)。

  3. 如有必要,请附上参考图像。这将有助于确保
    颜色和形状的一致性。

  4. 拍摄2-3个镜头,每次只调整一个元素。
    角度、速度和氛围等细微调整最有效。


即用型提示示例

  • 产品英雄 (DTC)
    “一个白色背景的工作室。柔和的三点式照明。一个哑光黑色水瓶缓慢地旋转 360 度。标志的特写。温和的环境声音,正是房间的氛围。”

 

图像
 
  • 旅行心情(B 卷)
    “傍晚的马拉喀什露天市场。手持拍摄,浅景深。布料在风中摇曳。周围环绕着人们说话的声音和脚步声。”

 

图像
 
  • 故事节拍
    :“特写镜头:一位女子站在雨中的窗边。玻璃上的倒影。镜头缓慢推近。一小段钢琴旋律。‘我们走吧’,她低声说道。嘴唇的动作与音频同步。”

 

图像
 

Sora 2 与其他工具(Veo 3、Kling 等)的粗略比较

  •  与Google
    Veo 3 相比,Veo 3 的长焦镜头和运动规划能力也令人印象深刻。然而, Sora 2 更胜一筹的是“制作完成并立即发布”的工作流程,包括声音和社交媒体

  • 与其他托管/集成工具的关系
    :越来越多的服务提供 Sora 2 预设和扩展管道,使其易于融入现有工作流程。


费用和限制说明

Sora 2 目前可在 Sora 应用程序和 DeeVid AI 上使用,后者提供Sora 2 的免费试用版。


安全/权利

虽然Sora 2 的安全设计一直在稳步改进,但关于其公开发布的讨论仍在持续(例如,处理真实人物、敏感内容等)。
对于企业或教育用途,提前准备内部指南(许可提示、素材权利确认、发布前审查)更为安全。
如果您计划使用名人肖像,请务必查看当地法规并确认名人的许可。


结论:有明显的警告,但主要关注的是“每个人”。

优点

  • 很容易达到一口气看完的画质(视频和声音同时生成)。

  • 非编辑友好的应用程序导航。

  • 随着相关工具的增长,它变得易于学习和扩展。

担忧

  • 不同级别的访问(逐步发布/ iOS优先等)。

简而言之
* 向那些想要“在没有摄制组的情况下制作精彩短片”的人推荐的第一个工具。
* 在*专业设置*下它已成为**新型“可写入的相机”,用于预览和创意生成,在某些情况下可直接用于最终结果。