基于MoE的通用图像融合模型 减少2.8%参数成功多项义务
图 1 不同融合义务的源图像对融合结果的主导强度变动
钻研背景与动机
图像融合的目标是将同一场景中不同传感器捕捉的多源图像的互补消息整合到单个图像上。这种形式理论被用于提取图片关键消息和提高视觉品质。
目前,普通的图像融合关键包括多模态、多曝光、多焦图像融合等。融合义务体现出不同的融合机制。多曝光图像融合(MEF)的重点是将具备多个曝光水平的图像序列转换成一个高品质的全曝光图像。每个源图像为融合的图像提供自己的光照和结构消息。可见红外图像融合(VIF)是一种多模态图像融合(MMF),旨在融合红外和可见模态的互补消息,发生鲁棒且消息丰盛的融合图像。红外图像提供更多的强度消息,而可见图像提供更多的纹理和梯度消息。多聚焦图像融合(MFF)的目标是从一系列局部聚焦的图像中生成一个全聚焦的图像。多聚焦融合图像的每个明晰区域理论只有要学习一个源图像。因此,可以观察到,MEF 和 VIF 义务是多源相对对等的融合,而 MFF 是多源位置较为极其的义务,对图像的某一区域而言,往往体现出极化的选用。
随着深度学习技术的极速开展,近年来图像融合畛域取得了很大的停顿,而现有的方法大多只关注繁多图像融合场景,理论为繁多义务驳回特定战略,如为某义务设计的复杂网络或义务特定的损失函数,造成不可间接运行在其余义务上。思考到不同融合义务的实质相反,即整合来自多个源图像的关键消息,最近提出的一些方法,试图经常使用一致的模型处置多种融合义务,构建通用的图像融合。但是,这些方法要么有主导义务偏向,要么为了多义务特性而就义特性,造成次优的功能。这促使咱们探求一个更兼容的融合范式,它可以自顺应地灵活地兼容不同的融合场景。
为了处置这一应战,遭到预训练基座模型弱小的特色示意才干的启示,咱们引入了基座模型作为一个解冻的编码器来提取多源图像的互补特色。与大少数现有方法不同的是,咱们自创了混合专家(MoE)的思维,将每个专家作为一个高效的微调适配器,基于基座模型口头自顺应视觉特色揭示融合。义务特定的路由网络定制这些适配器的混合,为不同的源生成义务特定的融合揭示,构成一种新的义务定制混适合配器(TC-MoA)架构。另外,咱们设计了互消息正则化来解放融合揭示,从而保障了对不同起源的互补性。值得留意的是,融合揭示具备清楚的义务偏向和模态主导强度差异。如图 1 所示,MFF 的揭示比 VIF 和 MEF 的色差更大,说明特色选用在长处模态的强度偏向上具备更多的双极性。咱们的模型有效地感知了繁多模型中不同融合义务之间的融合强度偏向,因此与更宽泛的融合义务相兼容。
少量的试验验证了咱们在通用图像融合方面的优越性,包括多模态、多曝光和多焦点融合。更关键的是,咱们的 TC-MoA 甚至对未知的融合义务显示出了发明性的可控性和泛化性,充沛展现了咱们在更宽泛的融合场景中的后劲。
关键奉献
外围方法
如图 2 所示,给定一对源图像
,网络整合来自不同源的互补消息,取得融合图像
。咱们将源图像输入 ViT 网络,并经过 patch 编码层取得源图像的 Token。ViT 由一个用于特色提取的编码器和一个用于图像重建的解码器组成,这两者都是由 Transformer 块组成的。
在编码器和解码器中,每
个 Transformer 块拔出一个 TC-MoA。网络经过这些 TC-MoA 逐渐调制融合的结果。每个 TC-MoA 由一个特定于义务的路由器银行
,一个义务共享适配器银行
和一个揭示融合层F组成。TC-MoA 包括两个关键阶段:揭示生成和揭示驱动的融合。为了便于表白,咱们以 VIF 为例,假定输入来自 VIF 数据集,并经常使用G来示意
图 2 TC-MoA 的总体架构
揭示生成 。首先,取得后续处置的多源特色。将第 j 个 TC-MoA 之前的网络结构定义为
,并提取揭示生成特色定义为
。咱们将
启动特色降维,得四处置后的多源特色
,如下:
而后,依据 Φ 所属的义务,咱们从路由器银行中选用一个义务特定的路由器来定制路由打算,即,每对源 Token 应该输入适配器银行中的哪个适配器。
最后,咱们对适配器的输入启动加权求和,以取得融合揭示。每个路由器都有义务偏好来定制适合的适配器混合,而后经过适配器混合生成揭示,计算方法如下:
揭示驱动的融合 。义务定制的揭示遭到互消息正则化(MIR)的解放,这保障了对不同源的互补性。因此,揭示可以作为对每个起源中关键消息的比例的预计。经过多源特色和揭示的点乘,咱们在去除冗余消息的同时保管了互补消息。而后,思考到特色示意应该蕴含源相关的偏置(如可见或红外图像),咱们为每个源引入输入有关的可学习参数,即源编码 s。特色在经过揭示润色和源偏置,咱们获取细化的源特色
,而后经过融合层 F 取得融合特色,环节如下:
最终,咱们经过义务定制的揭示取得了一个融合特色。为了激励模型逐渐地提取关键消息,咱们对输入到下一个 Transformer 块的特色定义如下(
是一个超参数):
互消息正则 。为了保障模型在摈弃多源特色冗余消息的同时,灵活地保管互补消息,咱们对揭示符施加了正则化解放。假定特色示意呈线性变动,咱们定义 MIR 如下:
试验成果
定性和定量试验。 如图 3-5 和表 1-3 所示,在三个融合义务上的定性和定量对比标明咱们的方法功能逾越以往的通用融合方法。与特定义务的方法相比,咱们的方法在一切义务上也到达了先进水平,甚至在局部义务(VIF)上到达了上游水平。证实了所提方法的优越性。
图 3 VIF 义务 LLVIP 数据集上的定性比拟试验
图 4 MEF 义务 MEFB 数据集上的定性比拟试验
图 5 MFF 义务数据集上的定性比拟试验
表 1 VIF 义务 LLVIP 数据集上的定量比拟试验
表 2 MEF 义务 LLVIP 数据集上的定量比拟试验
表 3 MFF 义务 LLVIP 数据集上的定量比拟试验
图 6 域内义务的可控性和未知义务的泛化性
可控性和泛化性。 如图 6 所示,经过控制融合揭示的超参数 α 和 β,咱们可以区分控制模型对源图像互补消息的特色选用强度(区域级)和融合图像与某个源图像的相似度(图像级)。咱们可以经过线性变换融合揭示,最终成功生成定制的融合图像。关于已知的义务,如多曝光融合,咱们可以获取定制化的最合乎人类感知的融合结果。关于未知义务,咱们可以调制出最适合的融合参数,将模型泛化到未知义务。
原文链接: