自回归可以战败分散模型吗 在图像生成畛域

图像生成畛域,有这么几种方法,Flow-Based、GAN-Based、VAE+Pixel-CNN系列、分散模型自回归。更早期的是基于自编码器的图像生成,各种Auto-Encoder模型,以及影响很大的变分自编码器d-VAE。前面又有Flow-Based,不过仿佛Flow-Based惹起的留意不是那么大。而后是名闻遐迩的GAN。2020年之后,分散模型逐渐炽热,不时到如今缓缓裁减到视频生成、3D生成、指标检测和语义宰割等畛域。

与此同时,自回归模型作为言语模型外面的杠把子,也惹起了大家的关注,早期的Pixel-CNN也算是自回归图像生成的一种,而后过渡到自编码器+自回归,比如VQ-VAE+Pixel-CNN,而后是CVPR 2021 Oral上班VQ-GAN横空入世,VQ-VAE结合自回归Transformer作为先验代替Pixel_CNN。不过同期分散模型的开展仿佛更为炽热一些,提出VQ-GAN的团队也在CVPR 2022提出了日后红极一时的Stable Diffusion系列,可以看作是结合VQ-GAN和分散模型的上班(当然自回归Transformer须要暗藏一下)。

更早之前,OpenAI提出了Diffusion Models Beat GANs on Image Synthesis(),指出在图像生成畛域分散模型可以战败GAN,之后图像生成畛域的盛行范式变成了分散模型(这样说不太准确,其实更早之前,GAN的钻研热度也曾经缓缓降上去了,DDPM和DDIM之后分散模型的钻研也曾经缓缓炽热了)。两三年期间,图像生成的分散模型的钻研也逐渐丰满,结合LLM的上班、极速采样生成图片的上班、结合ViT的上班(Diffusion Image Transformer,DiT)也缓缓浮出水面,大家的钻研热点也缓缓的走向分散模型在视频生成畛域的运行,只管可以自创之前图像生成的一些阅历,遇到的应战也是更大的。

这个时刻其实也是须要思索图像生成中,自回归模型的位置,毕竟之前也有很多低劣的上班,比如OpenAI的iGPT,Meta的MasktGIT。前面也提到过字节也提出了预测下一个level 图像token的自回归图像生成模型 VAR,当天要引见的也是字节和港大提出的一个上班,其名字也是和Diffusion Models Beat GANs on Image Synthesis有必由之路之妙,Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。

文中提到的自回归图像生成模型LlamaGen,模型结构和VQ-GAN是相似的,不过把学习先验的自回归Transformer换成了参数量更大的Llama模型,成功细节也自创了VQ-GAN和ViT-VQ-GAN的做法,比如Codebook用更大的Vocabulary,在特色向量量化之前对特色向量启动降维和 L2-norm,损失函数也添加了perceptual loss和PatchGan的反抗学习的损失。

Llama的结构中,基于RMSNorm成功pre-normalization,SwiGLU激活函数和旋转位置编码,也没有经常使用AdaLN。

文中也提到了一个现象,就是把Codebook的Vocabulary变大之后,想过会更好,当然embedding的usage会降低。然而把Vocabulary的embedding向量的维度降低,也会让embedding的usage提高。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: