OpenAI Sora 再不颁布 就晚了

出品 | 技术栈(微信号:blog51cto)

变天了!还记得OpenAI刚推出Sora时给人的冷艳感,但在文生视频畛域,Sora想一家独大也没有那么便捷。当初,越来越多体现不俗的代替打算曾经产生。

继Luma AI的Dream Machine初次亮相之后,Runway ML最近推出的Gen-3 Alpha也令人印象深入。与此同时,快手推出了Kling(可灵),这一模型能够以每秒30帧的速度生成1080p高清分辨率的视频。

Gen-3 Alpha通过视频和图像的训练,将为Runway的文字转视频、图像转视频及文字转图像工具提供允许。它还将增强现有的控制形式,如静止画笔、初级摄像机控制和导演形式,并允许行将推出的工具,以便更准确地控制结构、格调和灵活。

正如OpenAI与好莱坞的协作一样,Runway也与顶级文娱和媒体公司协作,开发Gen-3 Alpha的定制版本。这种Gen-3模型的定制化使得对格调和角色分歧性的控制愈加灵敏,可以满足特定的艺术和叙事需求。

与OpenAI不同的是,Runway曾经发表Gen-3 Alpha很快将向一切人开明。

“Gen-3 Alpha仅用四个月便迅速迫近Sora的水平,这象征着Omni也或者在9月前被迎头赶上。Anthropic甚至或者在GPT-5颁布之前就推出他们的自主AI系统。OpenAI面临着要么放慢其战略步调,要么接受退居第二的理想选用。”X平台的一位用户写道。

1.Sora显著滞后

Sora的一大劣势在于,目前它还无法生成具备继续表情和角色特色的真切人像。

例如,在Shy Heads经常使用Sora制造的短片《气球头》中,为了克制Sora的局限性,他们将人物的脸交流成了气球。该短片的创作者Walter Woodman提到,他们经常使用Premiere和After Effects启动了影片编辑。

但是,Gen-3 Alpha善于生成体现力丰盛的人类角色,能够展现宽泛的举措、手势和情感。

正如上方这个示例。揭示词是:一位原本忧郁的中年秃顶女子,当一顶卷曲的假发和墨镜突然落在他头上时,变得开心起来。(Prompt: A middle-aged sad bald man becomes happy as a wig of curly hair and sunglasses fall suddenly on his head.)

值得留意的是,Adobe最近发表正在探求与上游的AI供应商建设协作,包含OpenAI的Sora、RunwayML和Pika等。

此外,Gen-3 Alpha从设计之初就瞄准创意运行,这使得它能够了解并生成多种格调和艺术指令。

除了Gen-3 Alpha之外,Luma AI宣称其Dream Machine与Sora不同,能够了解环球物理原理及理想环球中的事物运作形式。另一个幽默的特点是,它能将现有图像裁减成视频。

“哇,来自@LumaLabsAI的新模型,将图像加长成视频,真是非同凡响。我直觉上以为这很快就会成为或者,但亲眼见到并思索其未来迭代的后劲仍是另一回事。”前OpenAI钻研员,大神Andrej Karpathy说道。

梗图被续写,逐突变成视频。上述示例:劫难女孩(Disaster Girl)

另一个关键区别在于其视频的超真切品质。Luma所驳回的人工自动算法会细心剖析并增强每个细节,从纹理到光照,确保最终输入成果简直与理想环球的镜头难以辨别。不过,Dream Machine也存在一些限度,例如形变、在视频中拔出文字以及相机静止方面的处置。

另一方面,中国的可灵模型能够生生长达两分钟、分辨率为1080p、每秒30帧的视频。该模型以其真切的输入成果和对理想环球物理准确模拟而著称,尤其善于于3D人脸和身材重建,使得生成的内容愈加栩栩如生、富裕体现力。

2.OpenAI 在GPU方面具备长处

Luma AI 完成的一个关键起因是AWS,它为公司提供了急需的GPU资源。

AWS的数据和机器学习服务副总裁Swami Sivasubramanian示意:“很快乐看到AWS H100训练基础设备如何协助Luma AI团队缩小基础模型的训练期间,并允许Dream Machine的颁布。”

但是,在地下上线后不久,网站就因渺小的访问需求而难以应答。在这方面,OpenAI显示出其长处。

作为ChatGPT的开发者,OpenAI能够应用微软Azure,取得最新的NVIDIA GPU资源。在微软Build大会上,CEO萨提亚·纳德拉发表,他们将成为首批经常使用NVIDIA最先进的Blackwell GPU的云服务提供商之一。

OpenAI最近还与甲骨文(Oracle)建设了协作同伴相关,以失掉更多的计算才干。

3.OpenAI 能否会真正推出产品?

与Luma AI相关的还有另一个幽默的故事。在Google I/O大会上,谷歌引见了其视频生成模型Veo。但是,出于安保思索,谷歌尚未颁布该模型。

现为Luma AI钻研迷信家的Dan Kondratyuk此前曾在谷歌上班,他称自己退出谷歌是由于公司没有推出任何产品。

他在X平台上发帖说:“我退出谷歌添加了Luma。我曾是早期介入开发Veo团队的一员,但我知道它很长一段期间内都不会面向群众颁布,就像Sora一样。除非有像Luma这样的公司迫使他们出手,至少我宿愿如此(给我权限吧)”。

与此同时,OpenAI采取了一种战略,即发表产品来争夺谷歌的风头,但实践上并未交付。例如,当谷歌推出Gemini 1.5时,OpenAI在同一天发表了Sora。在2024年Google I/O大会前一天,OpenAI发表了GPT-4o。但是,其语音配置至今仍无法用。

X平台上甚至专门有人发帖调侃OpenAI在演示与颁布阶段一模一样的产品体现

另一方面,谷歌也和OpenAI一样,添加了抢先发表产品的比赛。

最近,该公司推出了其视频转音频(V2A)模型,该模型能为恣意视频生成音频。幽默的是,这个模型可以与Veo配合经常使用,为视频片段配上富裕戏剧性的配乐、真切的音效或与视频角色及基调相婚配的对话。

OpenAI应该趁早颁布Sora,由于竞争不会削弱。

好莱坞演员艾什顿·库彻最近赞扬了OpenAI的Sora,称创作者将能够应用它来渲染整部电影。“我有一个测试版,它相当惊人,”他说道。

在最近接受《华尔街日报》采访时,首席技术官Mira Murati示意,OpenAI很或者在往年晚些时刻让Sora向群众开明。

但理想如何,或者咱们还须要静心以待。

参考链接:​ ​​ ​

本文转载自​ ​技术栈​ ​

您可能还会对下面的文章感兴趣: