首个团圆分散模型准确反演方法! 灵敏准确可控编辑!Dice
文章链接:名目链接:
总结速览
处置的疑问 :团圆分散模型只管在图像生成和mask言语建模等义务中取得了成功,但在准确控制内容编辑方面存在局限性。以前方法无法成功对团圆数据的灵敏编辑和准确重构。
提出的打算 :提出了DICE(可控编辑的团圆反演),这是首个针对团圆分散模型(包括多项分散和mask生成模型)的准确反演方法。DICE经过记载在反向分散环节中的噪声序列和mask形式,成功了无需预约义mask或留意力操作的准确重构和灵敏编辑。
运行的技术 :DICE 方法应用了在反向分散环节中记载的噪声序列和mask形式,运行于团圆数据的准确反演和可控编辑。其评价对象包括VQ-Diffusion、Paella和RoBERTa等模型,逾越图像和文本畛域。
到达的成果 :DICE 保管了较高的数据保真度,并增强了团圆空间中细粒度的内容编辑才干,展现了在图像和文本畛域的有效性,提供了新的内容操控时机。
方法
可控编辑团圆反演
基于非ODE的反演 :基于ODE的生成模型,例如DDIM和流婚配,定义了一个ODE轨迹。由于ODE确实定性个性,可以经过经常使用欧拉法在正向方向上求解ODE来成功反演,确保依据ODE的固有性质启动重构。相比之下,另一类钻研关注基于SDE的模型,如CycleDiffusion和DDPM Inversion。狭义上讲,这些方法经过记载噪声或残差来确珍重构,这些噪声或残差是重现随机轨迹所需的。CycleDiffusion 在从后验启动采样时记载高斯噪声,并经过输入实在的来注入信号消息。另一方面,DDPM Inversion经过将反演环节拟合到由独立的采样获取的人工随机轨迹中,将消息引入。关于CycleDiffusion和DDPM Inversion,两者的关键思维是应用高斯重参数化技巧,,并跟踪“噪声”,这些噪声或者是从均值生成样本的起源。关于团圆分散模型,咱们经常使用Gumbel-Max技巧,。下图2提供了所提方法的直观解释。
多项分散的反演 :相似于Huberman-Spiegelglas et al.,首先经过从启动独立的采样,获取一个随机轨迹序列(沿着的维度填充以下采样操作)。
请留意,在此经常使用了Gumbel Softmax技巧,这同等于从类别散布中采样。
请留意,此处的潜在变量。
在这个反演环节中,潜在空间与固定的团圆分散模型一同惟一地定义了相反的随机轨迹。详细算法见算法2。
反演mask生成模型 :在mask生成建模中,随机轨迹是依据所经常使用模型的特定推理算法构建的。例如,在Paella中,mask是蕴含性的,这象征着随着期间步的参与,被覆盖的tokens汇合会参与。相比之下,Unleashing Transformer在每一步驳回随机mask,其中mask是经过采样函数独立生成的。为简便起见,定义一个去噪函数(由参数化)。该去噪函数依据噪声token输入预测的未覆盖数据的logits。由于在这种状况下,分类采样出当初对去噪器预测的采样中,因此咱们定义一个相应的潜在序列。
经过潜在空间,保障了准确的重构。但是,关于编辑义务而言,假设潜在变量主导了生成环节,这种准确度或者并不现实。详细算法见下算法1。
为了提供更多灵敏性,引入超参数、和,它们准许对编辑环节启动更精细的控制。详细来说,示意编辑环节开局时(也是最大)期间步,控制从原始输入中注入的消息量,而则治理随机噪声的引入。
剖析 :形容一个便捷但典型的DDPM示例,并计算编码潜变量与输入信号之间的互消息。
备注 3.1 :给定一个便捷的高斯DDPM,,潜变量经过DDPM反演取得 (Huberman-Spiegelglas et al., 2024),则与之间的互消息为:
与之间的互消息在图3中启动了说明。观察到,从编码到的消息量随着的参与而缩小,这促使咱们探求不同的调度战略(见下图7)。
试验
本节展现了反演方法在图像和言语分散模型上的有效性。试验标明,这些方法能够在视觉和言语义务中坚持身份,同时成功启动预期的更改。
图像分散模型
关于图像分散模型,关键钻研排汇形态团圆模型,包括一个mask生成模型Paella和一个多项式分散模型VQ-Diffusion。咱们展现了DICE在两个类别中的反演重构才干和图像编辑功能。
数据集 :由Ju等提出的基于揭示的图像编辑基准(PIE-Bench)是一个最近推出的数据集,旨在评价文本到图像(T2I)编辑方法。该数据集在9种不同场景中评价言语疏导的图像编辑,共有700幅图像。基准的详细注释和各种编辑义务关于片面评价咱们方法的才干至关关键,确保与现有方法的偏心分歧的比拟。
反演重构
本节评价不启动编辑时的反演准确性。这是经过首先反转图像,而后经常使用记载的潜在编码重构原始图像来成功的。
评价目的 :在此,评价DICE和掩蔽生成下原始图像与生成图像的图像相似性,目的包括PSNR、LPIPS、MSE和SSIM。
定量剖析 :本文的方法的重构功能,如下表1所示,远远超越了基线插补 + Paella模型的一切目的。在掩蔽插补的状况下,一切图像token都被随机抽样的token交流,象征着模型不足关于原始图像的任何先验消息。因此,重构图像与被反转的图像存在清楚差异,造成相似性评分较低。相比之下,本文的方法展现了近乎完美的重构,正如目的所示,清楚生成了一幅与原图齐全相反的图像,而不会引入VQ-VAE/GAN量化环节理论带来的失误,如(†)token的结果所示。这突显了本文的方法在生成高保真重构方面的出色准确性和分歧性。
编辑功能
本节探讨本文提出的方法的编辑功能。由于不存在团圆分散反演,因此将本文的方法与原文中指出的掩蔽生成启动比拟。此外,还展现了来自延续模型的目的。
评价目的 :为了展现咱们提出的反演方法的有效性和效率,驳回了涵盖三个关键方面的八个目的:结构距离、背景保管和编辑揭示与图像的分歧性,如Ju等(2023)所述。应用Tumanyan等(2023)提出的结构距离目的来测量原始图像和生成图像之间的结构相似性。为了评价背景在标注的编辑掩膜之外的保管成果,咱们经常使用峰值信噪比(PSNR)、学习感知图像块相似性(LPIPS)、均方误差(MSE)和结构相似性指数(SSIM)。还经常使用CLIP相似性得分来评价编辑揭示与生成图像之间的分歧性,该得分是在整幅图像和由编辑掩膜定义的区域内计算的。
结果 :下表2展现了经常使用Paella和VQ-Diffusion的DICE定量结果,并与延续分散模型以及插补启动了比拟。值得留意的是,本文的方法在Paella模型下成功了最低的结构距离11.34,逾越了包括延续分散模型在内的一切其余方法。此外,只管Stable Diffusion v1.4的DDPM反演在全体和编辑区域的CLIP相似性得分中显示出最高,但本文的方法与Paella坚持了竞争力的CLIP相似性。思考到结构距离的清楚降落,本文的方法在结构保管和语义对齐的平衡上体现出色。此外,结合VQ-Diffusion后,本文的方法继续展现出微弱的功能。
表3中的结果明晰地展现了本文的方法在背景保管才干上优于DDIM+SDv1.4。一切四个目的强调了本文的方法在保管图像未编辑区域的结构分歧性。这些结果展现了本文的方法在编辑环节中坚持背景完整性的有效性,并提供了原始图像消息注入DICE潜在空间的证据。
图下4展现了经常使用DICE的Paella和VQ-Diffusion的编辑结果。两个模型都成功地依据目的揭示修正了实在图像。在一切状况下,咱们的结果都展现出对输入图像的高保真度和对目的揭示的遵照。
言语分散模型
钻研者们在RoBERTa上评价DICE,这是一种文本团圆分散模型,用于生成统一情感的句子,同时保管结构相似性。咱们从两个揭示开局——一个是踊跃情感,另一个是消极情感。每个揭示蕴含两个句子:第一个句子批示情感类型并设置高低文背景,第二个句子是反转和生成的目的。最后,咱们经常使用整个揭示作为高低文,反转消极情感揭示的第二个句子,生成该句子的噪声标志示意。接上去,咱们经过将踊跃情感揭示的第一个句子与反转的消极句子的噪声标志拼接在一同,来对模型启动条件设置。这一设置疏导模型生成一新第二句,该句反映了原始消极句的结构,但表白踊跃情感。
评价模型在坚持原始句子结构元素的同时,反转并生成与指定情感分歧的文本的才干。
反演环节
试验中,特意关注于反转第二个句子(在下表6中以白色标出),同时坚持第一个句子(彩色)不变,由于它理论蕴含关键的高低文消息。在反演环节中,咱们的目的是经过从反转阶段取得的噪声标志中复原第二个句子,以启动重建/编辑。
数据集生成
为了评价编辑功能,设计并提出了一个新数据集,称为情感编辑(Sentiment Editing)。该数据集的目的是在坚持句子结构的同时编辑句子的情感,并且遵照句子的主题。这里展现了数据集中两组句子。
反演重建
与图像生成局部相似,首先展现所提方法的反演和重建才干。该环节包括反演句子,而后经常使用相反的揭示生成第二个句子的重建版本。
评价目的 关于重建,经常使用命中率(Hit Rate),定义为每种方法生成与原句相反的句子的比例。此外,咱们计算语义文本相似度(Semantic Textual Similarity,STS)得分,经过测量句子嵌入之间的余弦相似度,经常使用Reimers等人(2019)提出的模型。
定量剖析 下表4比拟了DICE与经常使用RoBERTa的mask生成在两个目的上的体现:准确率和语义文本相似度。咱们的方 法在这两个目的上清楚超越了mask生成,证实咱们的zt潜在空间有效捕捉了被反演句子的消息,并促成了其后续的重建。
句子编辑
在这一局部,咱们评价所提反演方法在RoBERTa上的编辑功能。在表6中,负向揭示列下以彩色显示的句子是在反演环节中输入的。被反演的句子以白色显示。关于编辑,揭示随后被交流为右侧的彩色句子,并在末尾参与噪声以启动正向环节。正向环节中噪声的输入以蓝色出现。
评价目的
关于句子编辑义务,咱们依据两个规范评价生成的句子:(1) 结构保管 ,评价句子的结构能否得以保管,(2) 情感正确性 ,评价编辑后句子的情感能否与原始揭示的情感分歧。结构保管率和情感正确率均经常使用ChatGPT-4作为分类器启动计算。关于经常使用ChatGPT启动评价的详细消息可以在补充资料中检查。
结果 下表5展现了两种文本编辑方法的比拟剖析,这两种方法均驳回RoBERTa,重点关注在结构保管和情感正确性方面的有效性。咱们的方 法在这两个目的上清楚优于mask生成。这一差异突显了咱们反演方法在潜在空间中编码原始文本结构的出色才干,以及更准确地调整情感的灵敏性。
前面表6展现了初始揭示和编辑结果。本文的方法在保管负向揭示的句子结构的同时,将其情感修正为更踊跃的情感。
论断
DICE(可控编辑的团圆反演),一种用于团圆分散模型的反演算法,包括多项式分散和mask生成模型。经过在逆分散环节中应用记载的噪声序列和mask形式,DICE成功了对团圆数据的准确重构和灵敏编辑,而无需预约义的mask或交叉留意力操作。在多个模型和模态(如图像和文本)上的试验展现了DICE在坚持数据保真度的同时增强编辑才干的有效性。此外,还展现了DICE将RoBERTa这一传统上专一于数据了解的模型转变为文本生成和编辑的生成模型的后劲。咱们置信,DICE增强了团圆生成模型的才干,为在团圆空间中的精细内容操控提供了新的时机。
原文链接: