Law 贾佳亚团队正应战Scaling 新一代轻量级ControlNeXt火了视频生成控制优化几十倍

2024-11-15

最近，又一款国产 AI 神器吸引了众网友和圈内钻研人员的关注！它就是全新的 图像和视频生成控制工具 —— ControlNeXt，由思谋科技开创人、港科大讲座传授贾佳亚团队开发。

X 平台上出名 AI 博主「AK」介绍

从命名来看，ControlNeXt 「致敬」了斯坦福大学钻研团队在 2023 年 2 月提出的 ControlNet，经过引入一些额外的控制信号，让预训练的图像分散模型（如 Stable Diffusion）依据预设的条件调整和优化，成功线稿生成全彩图，还能做语义宰割、边缘检测、人体姿态识别。

假设说 ControlNet 开启了大模型多样化玩法的先河，那么 ControlNeXt 在生成速度、精准控制和用户友好性等方面迎来全方位优化。关键的是， ControlNeXt 只用不到 ControlNet 10% 的训练参数 ，可以称得上是下一代「小钢炮版」ControlNet 了。

截至目前，ControlNeXt 兼容了多款 Stable Diffusion 家族图像生成模型（包括 SD1.5、SDXL、SD3），以及视频生成模型 SVD。并且，ControlNeXt 对这些模型都做到即插即用，无需额外性能便能轻松玩转各种控制指令，方便性拉满。该名目的 GitHub 星标已达 1.1k。

名目地址：

实战效果终究如何？上方一波 ControlNeXt 的 Demo 示例会给咱们答案。

ControlNeXt 允许 Canny（边缘）条件控制，在 SDXL 中，经过提取下图（最左）输入图像的 Canny 边缘，输入不同格调的图像。

当然，更复杂的画面轮廓和控制线条也能轻松搞定。

ControlNeXt 还允许掩模（mask）和景深（depth）条件控制，下图区分为 SD 1.5 中掩模与景深可控生功效果，很有一笔成画的滋味。

雷同在 SD 1.5 中，ControlNeXt 允许姿态（pose）条件控制，并且无需训练即可无缝集成各种 LoRA 权重。配合经常使用人体姿态控制与 LoRA，在坚持举措相反的前提下，多样格调的人物跃然纸上，比如兵士（Warrior）、原神（Genshin）、国画（Chinese Painting）和动画（Animation）。

经常使用 ControlNeXt 后，SD3 允许了超分辨率（SR），让含糊图像「变身」超高清画质。

在视频生成模型 SVD 中，ControlNeXt 成功了对人体姿态举措的全体控制，尤其连手指举措的模拟都十分精准。

不夸张的说，在视觉条件生成这块，ControlNeXt 成为了更全能的「选手」。它的亮眼视效折服了网友，甚至有人以为「ControlNeXt 是游戏扭转者，在可控图像和视频生成方面体现出色，可以构想未来社区会拿它做更多二创上班。」

而 ControlNeXt 体验全方位优化的面前，离不开贾佳亚团队 在轻量级条件控制模块设计、控制注上天位和方式的选用、交叉归一化技术的经常使用等多个方面的独到思绪 。

正是有了这些翻新，才带来了 ControlNeXt 训练参数、计算开支和内存占用的片面「瘦身」，以及模型训练收敛和推理层面的「提速」。

架构翻新

让 ControlNeXt 更轻、更快、更强

在剖析 ControlNeXt 有哪些翻新之前，咱们先来了解一下可控生成方法的无余，这样更能看到贾佳亚团队在架构上「对症下药」的优化。

以 ControlNet、T2I-Adapter 等典型方法为例，它们经过参与并行分支或适配器来处置和注入额外条件。接上去与去噪主分支并行处置辅佐控制以提取细粒度特色，应用零卷积和交叉留意力来整合条件控制并指点去噪环节。

这些操作往往会带来计算老本和训练开支的清楚参与，甚至造成 GPU 内存参与一倍，还须要引入少量新的训练参数。尤其针对视频生成模型，须要重复处置每个独自帧，应战更大。

贾佳亚团队首先要做的便是架构层面的剪枝。他们以为，预训练的大型生成模型曾经足够弱小，无需引入少量额外参数来成功控制生成才干。 ControlNeXt 移除 ControlNet 中宏大的控制分支（control branch），改而经常使用由多个 ResNet 块组成的轻量级卷积模块 。

ControlNeXt 全体训练流程

该模块的规模比预训练模型小得多，用于从控制条件中提取景深、人体姿态骨骼、边缘图等特色示意，并与去噪特色对齐。环节中更多依赖模型自身来处置控制信号，在训练时期解冻大局部预训练模块，并有选用性地优化模型的一小局部可学习参数，最大水平降落训练环节中或者发生的忘记危险。

从结果来看，在适配 SD、SDXL、SVD 等预训练模型时， ControlNeXt 的训练参数量理论不迭 ControlNet 的 10%，计算开支和内存占用大大降落 。ControlNeXt 在 SD 1.5、SDXL 和 SVD 中的可学习参数量区分为 3000 万、1.08 亿和 5500 万，相较于 ControlNet 有了数量级缩小（3.61 亿、12.51 亿和 6.82 亿）。

同时轻量级模块的引入使得 ControlNeXt 在推理阶段不会发生清楚的提前，因此生成速度会更快。如下图所示，在 SD 1.5、SDXL 和 SVD 模型中，ControlNeXt 的推理时期更短，相较于 ControlNet 更具效率长处。

另一方面，ControlNeXt 在控制条件的注入层面做了翻新。他们观察到，在大少数可控生成义务中，条件控制的方式往往很方便或与去噪特色坚持高度分歧，因此没有必要在去噪网络的每一层重复注入控制信息。

贾佳亚团队选用 在网络两边层聚兼并对齐条件控制特色与去噪特色，这里用到了关键的交叉归一化（Cross Normalization）技术 。该技术让 ControlNeXt 不用像传统方法那样应用零初始化来引入额外学习参数，还处置了初始化阶段的训练不稳固性和收敛速度慢等疑问。

得益于交叉归一化，ControlNeXt 的训练速度失掉优化，并在训练初期也能确保生成控制的有效性，降落对网络权重初始化的敏感度。从下图可以看到，ControlNeXt 成功了更快的训练收敛和数据拟合，只有要步左右便开局收敛。相比之下，ControlNet 则须要走完十倍甚至几十倍的训练步数。

可以说，ControlNeXt 很好处置了以往可控生成方法存在的较高计算老本、GPU 内存占用和推理时延，用更少参数、更低老本成功了与以往方法相当甚至更好的控制效果和泛化性能。

而跳出此次钻研自身，ControlNeXt 也是过去两年贾佳亚团队努力方向的写照，他们努力于拿少参数、少算力来深挖大模型潜能。这显然与大模型畛域的「摩尔定律」Scaling Law 走的是不同的路，后者理论仰仗大参数、大数据和大算力来优化模型性能。

不盲跟 Scaling Law

走出不一样的大模型之路

，Scaling Law 依然在施展着作用，经过「加码」参数、数据和算力来增效是大少数圈内玩家的干流做法，OpenAI 的 GPT 系列模型是其中的典型代表，对大模型畛域发生了深远的影响。

随之而来的是更高的训练老本、更多的数据和计算资源，这些不会对财力雄厚的大厂们形成太多压力。但对那些估算相对无余的科研机构和团体开发者而言，应战很大，尤其是当下 GPU 显卡还越来越贵。

其实，拼 Scaling Law 并不是模型提效的惟一路径，从常年看也有局限性。很多业内人士以为，随着时期推移，当模型参数规模到达必定水平时，性能优化速度或者会放缓。同时高品质训练数据的继续失掉也是亟需处置的一大难题。

往年 6 月，普林斯顿大学计算机迷信系传授 Arvind Narayanan 等二人在他们的文章《AI scaling myths》中示意 AI 行业正派历模型规模下行的压力，过去一年大部离开发上班落在了小模型上，比如 Anthropic 的 Claude 3.5 Sonnet、谷歌的 Gemini 1.5 Pro，甚至 OpenAI 也推出了 GPT-4o mini，参数规模虽小、性能雷同弱小且更廉价。

贾佳亚团队秉持相似理念，没有选用有限堆数据、参数和算力的传统做法。2024 环球机器人大会上，贾佳亚在接受采访时谈到了 Scaling Law，他示意在自己团队的钻研中不会对它启动明白的定义，经常使用 1 万张卡训练进去的模型或系统不必定就比 5000 张卡训练出的更好。

贾佳亚以为应该 更多地在模型算法层面启动翻新，在工程层面最大水高山提高 GPU 显卡的应用率、降落功耗，力图用更少的计算量到达雷同的效果 。

同时关注偏垂类的行业和场景，经过继续的技术迭代，把算力等资源投入集中在一点，将某个畛域的模型做得更精、更专，而不像其余玩家那样耗巨资开发超大规模通用大模型。

小算力也能出大成绩

包括 ControlNeXt 在内，不盲从 Scaling Law 的思绪曾经在贾佳亚团队过去两年的系列成绩中失掉了充沛验证，笼罩了多模态大模型、超长文本裁减技术和视觉言语模型等多个钻研方向。

2023 年 8 月，贾佳亚团队提出 LISA，解锁多模态大模型「推理宰割」才干。LISA 只有要 在 8 张 24GB 显存的 3090 显卡上启动 10000 次迭代训练，即可成功 70 亿参数模型的训练 。

结果标明，LISA 在训练中仅经常使用不蕴含复杂推理的宰割数据，就能在推理宰割义务上展现出优秀的零样本泛化才干，并在经常使用额外的推理宰割数据微调后让宰割效果更上一个台阶。

LISA 效果展现

LISA 的成功只是少算力探求的牛刀小试，贾佳亚团队在 2023 年 10 月提出了超长文本裁减技术 LongLoRA， 在单台 8x A100 设施上，LongLoRA 将 LLaMA2 7B 从 4k 高低文裁减到 100k， LLaMA2 70B 裁减到 32k 。LongLoRA 还被接纳为 ICLR 2024 Oral。

在喂给 LongLoRA 加持的 Llama2-13B 超长篇幅的科幻巨著《三体》后，它可以为你具体总结「史强对整团体类社会的关键性」。

该团队还于 2023 年 12 月提出 LLaMA-VID，旨在处置视觉言语模型在处置长视频时因视觉 token 过多造成的计算累赘，经过将视频中每一帧图像的 token 数紧缩到了 2 个，成功了单图之外短视频甚至 3 小时时长电影的输入处置。

LLaMA-VID 被 ECCV 2024 接纳。此外，贾佳亚团队还提供了 LLaMA-VID 试用版本， 由单个 3090 GPU 成功，允许 30 分钟的视频处置 。感兴味的小同伴可以尝试一下。

往年 4 月，贾佳亚团队又提出了 Mini-Gemini，从高清图像准确了解、高品质数据集、联合图像推理与生成三个层面开掘视觉言语模型的后劲。

为了增强视觉 token，Mini-Gemini 应用额外的视觉编码器来做高分辨率优化。同时 仅经常使用 2-3M 数据，便成功了对图像了解、推理和生成的一致流程 。试验结果标明，Mini-Gemini 在各种 Zero-shot 的榜单上毫不逊色各大厂用少量数据堆进去的模型。

在间断谷歌 Gemini 识别图片内容并给出倡导的才干基础上，Mini-Gemini 还能生成一只对应的毛绒小熊

关于开源社区最大的好信息是，Mini-Gemini 的代码、模型和数据所有开源，让开发者们体验「GPT-4 + Dall-E 3」的弱小组合。贾佳亚泄漏，Mini-Gemini 第二个版本行未来到，届时将接入语音模块。

得益于开源以及算力需求相对低的个性，贾佳亚团队的名目在 GitHub 上遭到了开发者的宽泛喜欢，LISA、LongLoRA 和 Mini-Gemini 的星标数区分到达了 1.7k、2.6k 和 3.1k。

从 LISA 到最新提出的 ControlNeXt，贾佳亚团队走稳了少参数、小算力打破这条路。因为计算资源投入不大，这些模型也更容易成功商业化运行落地。

可以预感，未来在继续技术翻新的驱动下，咱们将看到更多「小而弥坚」的大模型成绩发生。

原文链接:

<<钻研打破多智能体协作瓶颈的新算法谷歌与学术界联手

Markdown编辑器减少Latex数学公式教程>>

Law 贾佳亚团队正应战Scaling 新一代轻量级ControlNeXt火了 视频生成控制优化几十倍

您可能还会对下面的文章感兴趣：

随便看看

Law 贾佳亚团队正应战Scaling 新一代轻量级ControlNeXt火了视频生成控制优化几十倍