1080P视频媲美Sora 文生超1分钟谷歌颁布Veo

2024-11-15

5月15日，谷歌召开“ I/O 2024”大会，并发表了100多种产品和大模型。其中，有两款产品令人印象深入，一个是允许跨文本、视频、音频的多模态AI Agent—Project Astra；另外一个便是视频模型Veo。

据悉，Veo允许文本生成超越1分钟的1080P超高清视频，在文本语义恢复、视频举措分歧性方面、运镜、帧与帧之间的连接性、场景切换、光影效果等，可媲美OpenAI的Sora。

不过，Sora颁布至今曾经3个月了不时处于内测阶段，公测遥遥无期。而谷歌曾经将Veo模型整合在文生视频产品Video-Fx中允许放开试用，并且会向开发者放开API。

文章末尾，「AIGC放开社区」还整顿了本次I/O大会的一切关键内容，繁难大家了解谷歌最新的技术趋向。

放开地址：

Veo生成视频参观

因为平台紧缩的要素，视频看起来或者有点糊，实践效果是高清的。 经过文本形容Veo生成的一个1分23秒的超长视频，揭示词： 一个极速穿越于冷落的反乌托邦市区中，明亮的霓虹灯、航行汽车、薄雾、夜晚、镜头眩光和体积光线的镜头。

经过未来主义的市区暴虐极速追踪镜头，明亮的霓虹灯标，天地面的星舰，夜晚。一辆汽车的霓虹全息图以光速行驶，电影般的惊人细节，体积光。汽车退出隧道，回到真实环球的中国香港市区。

在烧烤架上，鸡肉和青椒串烤的特写镜头，火焰在旁熄灭。焦距浅，轻烟袅袅，色调娇艳。

许多斑点水母在水下蠕动。它们的身材透明，在深海中发光。

一名孤独的牛仔骑着马穿越漂亮日落的宽敞平原，柔和的光线，暖和的色调。

一艘宇宙飞船在宇宙的浩瀚中奔驰，星星在其旁划过，高速航行，科幻感十足。

一只金毛寻回犬在弯曲的山间小径上传走，它兴奋地摇着尾巴，探求着荒野的风景和气息。

此外， 谷歌还把Veo的生成视频的界面经过Video-Fx展现了进去 。经常使用方法没啥特意的，就是在文本框输入揭示词，而后点击生成即可。

一次性会生成4个视频，这对主机的算力有着十分高的需要 ，不得不说谷歌为了拼视频模型也是下了血本啦。

这也是Sora迟迟没有片面公测的关键要素之一，还没有预备好弱小的算力矩阵为用户提供服务。

值得一提的是，Veo有一个“Storyboard”形式，允许用户为生成的视频一键减少背景音乐。

Veo模型架构繁难引见

依据谷歌的引见，Veo更像是一个模型大合集，融合了GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、Transformer和Gemini等，谷歌很多出名的技术概念和现有的大模型。

例如，Phenaki是谷歌很早之前便推出的文生视频模型，驳回了一个双向掩码转换器架构。在视频帧之间的切换、分歧性、关联性方面十分低劣。

WALT则是深度学习畛域的一种视频微调技术，可关注模型外部的激活层，经过权重调整来改良模型性能。

Gemini是谷歌最新颁布的性能强、消耗低的大模型，有很多种类型可以与OpenAI的GPT系列媲美。

所以，从这个技术合集就不美观出，谷歌是对Veo下了心血的誓要与OpenAI的Sora一较上下。

谷歌2024年I/O大会，关键事情回忆

其实往年谷歌在I/O大会上颁布的内容十分十分多，尤其是生成式AI畛域成为重头戏 。

但因为颁布的产品真实太多、太杂，这里「AIGC放开社区」就为大家整顿了一切关键事情的简报，繁难了解最新技术趋向。

颁布了Gemini 1.5 Flash： 一个更轻量的大模型，可高效地提供规模化服务。这也是在API 中提供的最快的 Gemini系列模型。

增强Gemini1.5 Pro性能： 用户版提供100万tokens上下文窗口，开发者版提供200万tokens上下文窗口。

颁布最强TPU-Trillium： 这是谷歌颁布的第六代AI解决器，与TPU v5e相比，Trillium TPU每个芯片的峰值计算性能提高了4.7倍，但动力消耗却降落了67%。

颁布最新文生图模型Imagen 3： 生成的图像品质更好、文本语义了解更低劣，目前曾经整合在ImageFX中，允许放开试用。

颁布音乐模型Music AI Sandbox： 经过AI生成超真切的歌曲，包括盛行、摇滚、抒情等。

Gemini的初级订阅用户很快就可以创立定制版本Gem ，只要形容你想要 Gem 口头的操作以及宿愿它如何照应，Gemini 将依据这些说明创立出合乎特定需求的 Gem。

谷歌发表将Gemini系列模型融合到谷歌搜查中 ，提供布局、推理等多模态配置。

Gemini 1.5 Pro如今可以经过 Workspace Labs 在 Gmail、Docs、Drive、Slides 和 Sheets的侧边栏中经常使用 ，下个月会为 Workspace 客户和 Google One AI 初级订阅用户提供服务。

Google Photos中新增“征询照片”配置 ，经常使用户能查找特定记忆或回想图库中蕴含的消息变得愈加繁难。该配置由Gemini模型提供服务，并将在未来几个月内推出。

往年晚些时刻，Gemini Nano模型会成为Android内置的基础模型 ，除了文本生成，还允许语音、视频等多模态推理。

谷歌颁布了PaliGemma ，这是第一个面向视觉-言语的开源模型，针对视觉问答和图像字幕启动了提升。

谷歌预览了Gemma 2 ，驳回了全新架构有270亿参数，性能更强可在单个 TPU 主机上运转。

Gemini模型现已在 Android Studio、IDX、Firebase、Colab、VSCode、Cloud和Intellj中可用，可协助开发人员提高消费劲。

从Chrome126开局，Gemini Nano 模型将内置到Chrome桌面客户端中。

推出LearnLM ，这是基于Gemini模型并经过精纤细调的用于学习的新模型。LearnLM 曾经为谷歌的搜查、YouTube 和 Google Classroom等提供技术允许。

谷歌的SynthID文本水印技术，将在未来几个月内开源。

从下面关键事情不美观出，Gemini系列大模型曾经成为谷歌产品矩阵中关键的基础技术之一，这充沛说明生成式AI时代曾经来临。

只要会用AI的人，才不会被这个时代淘汰，一同加油啦。

原文链接:

<<如何改造关键点检测技术让AI v2 更明亮揭秘DeDoDe 眼科技前沿

大型言语模型 LLM 的历史与未来>>

1080P视频 媲美Sora 文生超1分钟 谷歌颁布Veo

您可能还会对下面的文章感兴趣：

随便看看

1080P视频媲美Sora 文生超1分钟谷歌颁布Veo