自回归可以战败分散模型吗在图像生成畛域

2024-11-14

图像生成畛域，有这么几种方法，Flow-Based、GAN-Based、VAE+Pixel-CNN系列、分散模型自回归。更早期的是基于自编码器的图像生成，各种Auto-Encoder模型，以及影响很大的变分自编码器d-VAE。前面又有Flow-Based，不过仿佛Flow-Based惹起的留意不是那么大。而后是名闻遐迩的GAN。2020年之后，分散模型逐渐炽热，不时到如今缓缓裁减到视频生成、3D生成、指标检测和语义宰割等畛域。

与此同时，自回归模型作为言语模型外面的杠把子，也惹起了大家的关注，早期的Pixel-CNN也算是自回归图像生成的一种，而后过渡到自编码器+自回归，比如VQ-VAE+Pixel-CNN，而后是CVPR 2021 Oral上班VQ-GAN横空入世，VQ-VAE结合自回归Transformer作为先验代替Pixel_CNN。不过同期分散模型的开展仿佛更为炽热一些，提出VQ-GAN的团队也在CVPR 2022提出了日后红极一时的Stable Diffusion系列，可以看作是结合VQ-GAN和分散模型的上班（当然自回归Transformer须要暗藏一下）。

更早之前，OpenAI提出了Diffusion Models Beat GANs on Image Synthesis（），指出在图像生成畛域分散模型可以战败GAN，之后图像生成畛域的盛行范式变成了分散模型（这样说不太准确，其实更早之前，GAN的钻研热度也曾经缓缓降上去了，DDPM和DDIM之后分散模型的钻研也曾经缓缓炽热了）。两三年期间，图像生成的分散模型的钻研也逐渐丰满，结合LLM的上班、极速采样生成图片的上班、结合ViT的上班（Diffusion Image Transformer，DiT）也缓缓浮出水面，大家的钻研热点也缓缓的走向分散模型在视频生成畛域的运行，只管可以自创之前图像生成的一些阅历，遇到的应战也是更大的。

这个时刻其实也是须要思索图像生成中，自回归模型的位置，毕竟之前也有很多低劣的上班，比如OpenAI的iGPT，Meta的MasktGIT。前面也提到过字节也提出了预测下一个level 图像token的自回归图像生成模型 VAR，当天要引见的也是字节和港大提出的一个上班，其名字也是和Diffusion Models Beat GANs on Image Synthesis有必由之路之妙，Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。

文中提到的自回归图像生成模型LlamaGen，模型结构和VQ-GAN是相似的，不过把学习先验的自回归Transformer换成了参数量更大的Llama模型，成功细节也自创了VQ-GAN和ViT-VQ-GAN的做法，比如Codebook用更大的Vocabulary，在特色向量量化之前对特色向量启动降维和 L2-norm，损失函数也添加了perceptual loss和PatchGan的反抗学习的损失。

Llama的结构中，基于RMSNorm成功pre-normalization，SwiGLU激活函数和旋转位置编码，也没有经常使用AdaLN。

文中也提到了一个现象，就是把Codebook的Vocabulary变大之后，想过会更好，当然embedding的usage会降低。然而把Vocabulary的embedding向量的维度降低，也会让embedding的usage提高。

原文链接:

<<打破AI功能瓶颈！揭秘LLaMA

DreamTech联结南大和牛津颁布最强3D内容生成大模型>>

自回归可以战败分散模型吗 在图像生成畛域

您可能还会对下面的文章感兴趣：

随便看看

自回归可以战败分散模型吗在图像生成畛域