OpenAI Sora 再不颁布就晚了

2024-11-14

出品 | 技术栈（微信号：blog51cto）

变天了！还记得OpenAI刚推出Sora时给人的冷艳感，但在文生视频畛域，Sora想一家独大也没有那么便捷。当初，越来越多体现不俗的代替打算曾经产生。

继Luma AI的Dream Machine初次亮相之后，Runway ML最近推出的Gen-3 Alpha也令人印象深入。与此同时，快手推出了Kling（可灵），这一模型能够以每秒30帧的速度生成1080p高清分辨率的视频。

Gen-3 Alpha通过视频和图像的训练，将为Runway的文字转视频、图像转视频及文字转图像工具提供允许。它还将增强现有的控制形式，如静止画笔、初级摄像机控制和导演形式，并允许行将推出的工具，以便更准确地控制结构、格调和灵活。

正如OpenAI与好莱坞的协作一样，Runway也与顶级文娱和媒体公司协作，开发Gen-3 Alpha的定制版本。这种Gen-3模型的定制化使得对格调和角色分歧性的控制愈加灵敏，可以满足特定的艺术和叙事需求。

与OpenAI不同的是，Runway曾经发表Gen-3 Alpha很快将向一切人开明。

“Gen-3 Alpha仅用四个月便迅速迫近Sora的水平，这象征着Omni也或者在9月前被迎头赶上。Anthropic甚至或者在GPT-5颁布之前就推出他们的自主AI系统。OpenAI面临着要么放慢其战略步调，要么接受退居第二的理想选用。”X平台的一位用户写道。

1.Sora显著滞后

Sora的一大劣势在于，目前它还无法生成具备继续表情和角色特色的真切人像。

例如，在Shy Heads经常使用Sora制造的短片《气球头》中，为了克制Sora的局限性，他们将人物的脸交流成了气球。该短片的创作者Walter Woodman提到，他们经常使用Premiere和After Effects启动了影片编辑。

但是，Gen-3 Alpha善于生成体现力丰盛的人类角色，能够展现宽泛的举措、手势和情感。

正如上方这个示例。揭示词是：一位原本忧郁的中年秃顶女子，当一顶卷曲的假发和墨镜突然落在他头上时，变得开心起来。（Prompt: A middle-aged sad bald man becomes happy as a wig of curly hair and sunglasses fall suddenly on his head.）

值得留意的是，Adobe最近发表正在探求与上游的AI供应商建设协作，包含OpenAI的Sora、RunwayML和Pika等。

此外，Gen-3 Alpha从设计之初就瞄准创意运行，这使得它能够了解并生成多种格调和艺术指令。

除了Gen-3 Alpha之外，Luma AI宣称其Dream Machine与Sora不同，能够了解环球物理原理及理想环球中的事物运作形式。另一个幽默的特点是，它能将现有图像裁减成视频。

“哇，来自@LumaLabsAI的新模型，将图像加长成视频，真是非同凡响。我直觉上以为这很快就会成为或者，但亲眼见到并思索其未来迭代的后劲仍是另一回事。”前OpenAI钻研员，大神Andrej Karpathy说道。

梗图被续写，逐突变成视频。上述示例：劫难女孩（Disaster Girl）

另一个关键区别在于其视频的超真切品质。Luma所驳回的人工自动算法会细心剖析并增强每个细节，从纹理到光照，确保最终输入成果简直与理想环球的镜头难以辨别。不过，Dream Machine也存在一些限度，例如形变、在视频中拔出文字以及相机静止方面的处置。

另一方面，中国的可灵模型能够生生长达两分钟、分辨率为1080p、每秒30帧的视频。该模型以其真切的输入成果和对理想环球物理准确模拟而著称，尤其善于于3D人脸和身材重建，使得生成的内容愈加栩栩如生、富裕体现力。

2.OpenAI 在GPU方面具备长处

Luma AI 完成的一个关键起因是AWS，它为公司提供了急需的GPU资源。

AWS的数据和机器学习服务副总裁Swami Sivasubramanian示意：“很快乐看到AWS H100训练基础设备如何协助Luma AI团队缩小基础模型的训练期间，并允许Dream Machine的颁布。”

但是，在地下上线后不久，网站就因渺小的访问需求而难以应答。在这方面，OpenAI显示出其长处。

作为ChatGPT的开发者，OpenAI能够应用微软Azure，取得最新的NVIDIA GPU资源。在微软Build大会上，CEO萨提亚·纳德拉发表，他们将成为首批经常使用NVIDIA最先进的Blackwell GPU的云服务提供商之一。

OpenAI最近还与甲骨文（Oracle）建设了协作同伴相关，以失掉更多的计算才干。

3.OpenAI 能否会真正推出产品？

与Luma AI相关的还有另一个幽默的故事。在Google I/O大会上，谷歌引见了其视频生成模型Veo。但是，出于安保思索，谷歌尚未颁布该模型。

现为Luma AI钻研迷信家的Dan Kondratyuk此前曾在谷歌上班，他称自己退出谷歌是由于公司没有推出任何产品。

他在X平台上发帖说：“我退出谷歌添加了Luma。我曾是早期介入开发Veo团队的一员，但我知道它很长一段期间内都不会面向群众颁布，就像Sora一样。除非有像Luma这样的公司迫使他们出手，至少我宿愿如此（给我权限吧）”。

与此同时，OpenAI采取了一种战略，即发表产品来争夺谷歌的风头，但实践上并未交付。例如，当谷歌推出Gemini 1.5时，OpenAI在同一天发表了Sora。在2024年Google I/O大会前一天，OpenAI发表了GPT-4o。但是，其语音配置至今仍无法用。

X平台上甚至专门有人发帖调侃OpenAI在演示与颁布阶段一模一样的产品体现

另一方面，谷歌也和OpenAI一样，添加了抢先发表产品的比赛。

最近，该公司推出了其视频转音频（V2A）模型，该模型能为恣意视频生成音频。幽默的是，这个模型可以与Veo配合经常使用，为视频片段配上富裕戏剧性的配乐、真切的音效或与视频角色及基调相婚配的对话。

OpenAI应该趁早颁布Sora，由于竞争不会削弱。

好莱坞演员艾什顿·库彻最近赞扬了OpenAI的Sora，称创作者将能够应用它来渲染整部电影。“我有一个测试版，它相当惊人，”他说道。

在最近接受《华尔街日报》采访时，首席技术官Mira Murati示意，OpenAI很或者在往年晚些时刻让Sora向群众开明。

但理想如何，或者咱们还须要静心以待。

参考链接：

本文转载自技术栈

<<微软提出LLM

打破大言语模型的逻辑瓶颈 Logic>>

OpenAI Sora 再不颁布 就晚了

1.Sora显著滞后

2.OpenAI 在GPU方面具备长处

3.OpenAI 能否会真正推出产品？

您可能还会对下面的文章感兴趣：

随便看看

OpenAI Sora 再不颁布就晚了