基于深度学习的红外可见光图像融合综述1.红外与可见光图像融合的背景 1.1 红外与可见光成像特点与缺陷可见光图像可以提

1.红外与可见光图像融合的背景

1.1 红外与可见光成像特点与缺陷

可见光图像可以提供目标形态等视觉细节信息，正常光照条件下可以生动地描绘物体。但其容易受到极端天气等因素影响而丢失关键信息。在光照强度低以及烟雾遮挡等情况下，图像所提供信息的可靠性不足。

红外图像能有效抵抗极端条件的干扰，捕捉目标的热辐射，在抗干扰和夜间成像方面有优势。但是红外图像通常分辨率较低，尤其在纹理丰富的区域存在严重的失真。

红外图像对热源目标敏感，而可见光图像对纹理细节敏感，两种不同模态的图像中所含信息具有互补性。两种图像融合，结合源图像中的重要内容生成信息更加丰富的融合图像。

2.基于深度学习的IVIF方法

2.1 基于自编码器的方法

基于AE（auto-encoder）的 IVIF 方法旨在学习输入图像的特征表示和重构过程，强大的非线性建模能力可以自适应融合复杂场景。

引入密集连接块的融合方法，提升了网络的特征提取能力，编码器中每一层的输出都用来构建特征图。密集连接块将每个网络层直接连接到后续所有层，可以更充分地传递并重用特征信息，但手动设计的融合策略，可能会导致最终结果的性能受限

后来在中间层采用卷积操作代替手动设计的融合规则来融合图像特征但额外卷积操作的引入以及金字塔架构金字塔架构是一种在深度学习模型中常用的结构，它具有类似金字塔的形状，通常包含多个下采样（池化）层和上采样（反卷积或插值等）层。在金字塔的不同层级上，会融合不同尺度的特征信息。低层的特征图保留了图像的细节信息，而高层的特征图则更多地包含了语义等抽象信息。随着网络层次的加深，特征表示逐渐从具体的图像像素信息转变为更抽象、更具语义的信息。就像金字塔从底部的大量具体细节逐渐向上汇聚为更概括的信息，模型在不同层次上学习到不同层次的特征，有助于对图像进行更全面和深入的理解。的使用增加了模型的复杂性和训练难度。

由于两张源图像的模态不同，单分支提取的特征不全面，引入双分支多级混合传输网络。其融合层的多个输出结果送入交叉连接的解码器中实现了不同层次特征的信息互补。也可以结合不同模态特征之间的联系与区别，将特征图分解为公共特征和独有特征两部分分别进行融合，充分保留源图像中的特征以提升性能。

由于粒度更小、更密集的特征关注局部的细节，而粒度更大、更稀疏的特征关注全局信息。为了提取多尺度特征，引入多尺度编码器提取特征，通过下采样缩放来实现不同尺度特征的提取，每个尺度的特征都反映了原始图像不同层面的信息。如果只依赖卷积操作提取特征会偏向于局部，所以在融合层引入了注意力机制来建模长距离依赖，实现了全局和局部特征的双重提取。但特征提取中直接采用下采样操作可能会导致信息的丢失，于是在网络中引入了Res2net块，无需下采样就可提取多尺度信息。

2.2 基于卷积神经网络

CNN模型利用显著目标掩膜显著目标掩膜（Salient Object Mask）是一种用于标记图像中 “显著区域”（即人类视觉感知中最吸引注意力的核心目标或区域）的二值化或多值化掩码图像。其核心作用是通过明确标注图像中的关键区域，为模型训练提供监督信号，引导网络在处理（如融合、分割、增强等）时重点关注这些重要部分。对红外图像中较为重要的区域进行标注，并结合特定损失函数为最终融合提供引导。使用残差密集CNN网络可以实现特征重用以提升性能。

图像中不同位置所包含信息具有不同的重要性，为了更好地使网络重点关注关键部分，MDFN、SGFusion以及DNFusion等显著性引导架构被提出，用显著性掩码赋予重要区域更大的权重，引导网络关注这些区域，对重要的信息作最大程度的保留。

但是大多数基于CNN的方法只适用于特定的融合任务，于是开发了统一融合框架来完成多种融合任务，如U2Fusion。U2Fusion可能同时支持 “红外-可见光融合”“多聚焦融合”“多光谱-全色融合” 等任务，输入不同模态的图像对，通过共享编码器提取跨模态通用特征，再根据任务类型选择不同的融合策略（如对红外任务强调显著性区域，对多聚焦任务强调高频细节保留），最终输出对应融合结果。不同融合任务之间相互促进，提升融合质量。

基于梯度和强度比例维护的快速统一融合网络，加入压缩网络和分解网络，同时关注融合和分解两个阶段使得融合结果包含更多的信息

MUFusion统一框架来实现多任务融合，利用网络的中间结果协同监督融合图像。多任务融合是指在一个统一的模型或框架中同时处理多种不同类型的图像融合任务（如红外 - 可见光融合、多聚焦融合、多光谱-全色融合等），通过共享网络结构、特征表示或训练过程，让不同任务之间相互促进，最终提升各任务的融合效果。其核心是利用不同任务的共性知识，避免为每个任务单独设计模型，从而提高效率并增强模型的泛化能力。

为捕获长距离依赖关系，将Transformer引入网络利用 Transformer提升整体网络的上下文建模能力，做到了全局和局部特征的联合提取，有效提升了融合性能。但是 Transformer的使用提高了网络的参数量可能会引起融合效率问题。另外考虑到经验设计的网络架构不能保证既适合又高效地完成融合任务。于是引入神经架构搜索范式，网络可以实现自适应调整架构以提取相应模态信息并实现快速图像融合。

基于 CNN 开发了基于交叉模态图像配准的融合网络，缓解因图像对错位融合引起的伪影效应。在图像融合任务中，伪影效应（Artifacts）是指由于输入图像之间存在空间错位（配准不准确），导致融合后的图像出现不自然的虚假结构、噪声或视觉瑕疵。这些伪影会严重影响融合图像的质量和可靠性，尤其在交叉模态（如红外-可见光、医学影像多模态）融合中更为常见。伪影效应的具体表现：重影、非自然边缘或斑块、结构失真。于是引入RFNet，利用图像融合的反馈来提高融合的精准度。网络中的粗配准模块校正全局视差，细配准模块优化局部偏差。随后的优化版本采用对比学习提取多模态共享信息，提升了配准精度和融合效果。

结合图像融合问题和语义分割问题设计了一个语义感知融合框架 SeAFusion。网络利用语义损失来引导高级语义信息流回图像融合模块，有效地提高了结果在高层视觉任务中的性能。

双子网络架构，融合子网络筛选显著性特征，检测子网络利用融合信息实现精准检测。

由于红外可见光图像之间的分辨率差异容易导致重构图像结果不理想，结合元学习设计可以接受不同分辨率图像的模型。巧妙地利用双向回归结构设计了超分重构网络。

2.3 基于对抗生成网络

GAN可以学习生成逼真的融合图像，模拟真实的图像特征分布。可以将图像融合问题重新定义为生成器和鉴别器的对抗博弈。然而生成的融合结果过于平滑模糊，只依靠对抗训练增加额外的细节信息并不稳定。于是将强度路径和梯度路径引入生成器中，针对两条路径构造了强度和梯度损失，能够迫使生成器生成的图像中保留更多的有用信息。

但是单鉴别器的使用容易引起最终融合结果中两种模态信息的失衡。于是开发了具有两个鉴别器的学习架构，以监督生成器能够捕获全面的特征。

DDcGAN（conditional generative adversarial network with dual discriminators）改进了传统的 GAN模型以保持两种不同模态源图像的特征。双鉴别器分别采用源图像的梯度作为真实数据，避免了单鉴别器可能导致的失衡问题，但同时增加了网络训练的复杂性。

可以在 GAN中引入了各种模块以提高融合性能：将密集块嵌入 GAN 的生成器，有效增强了网络的表示能力。结合多决策图的融合策略设计了 TC-GAN，更好地融合图像的细节信息，有效降低了结果带有附加信息的风险。双注意力特征聚合模块，帮助提升结果质量。

FusionGRAM 、Attention FGAN网络架构、CrossFuse架构、IF-LapGAN架构，将多尺度注意力机制引入 GAN 网络中，帮助生成器自动关注图像中具有辨别力的区域并突出显著特征，减少了无关信息的干扰。

3.IVIF方法对比

方法	类型	优势	适用场景
DenseFuse	AE	密集块嵌入	IVIF
RFN-Nes	AE	可学习融合层	IVIF
MHTNet、CUFD	AE	双分支融合范式	IVIF
SEDRFuse、PACCUD、NestFuse、UNFusion	AE	多尺度，注意力机制	IVIF
Res2Fusion	AE	Res2net模块	IVIF
DeFusion	AE	轻量级范式	实时IVIF
RFVIF	AE	结合配准模块的融合范式	配准IVIF
DIVFusion	AE	视觉感知强化	低光IVIF
CLF-Net	AE	对比学习架构	IVIF
HKDnet	AE	知识蒸馏架构	超分IVIF
STDFusionNet、MDFN、SGFusion、DNFusion	CNN	显著性引导架构	IVIF
RXDNFuse	CNN	残差密集模块	IVIF
U2Fusion、PMGI、SDNet、MUFusion	CNN	多任务融合范式	统一融合
DATFuse、CGTF	CNN	Transformer模块	IVIF
SELAFuse	CNN	架构搜索	IVIF
UMVIF、RFNet、MURF	CNN	错位图像配准	配准IVIF
SeAFusion	CNN	分割损失监督学习	任务驱动IVIF
IRFS	CNN	交互式增强多任务范式	任务驱动IVIF
MetaLearning-Fusion	CNN	超分辨率图像处理	超分IVIF
FusionGAN、GANMcC	GAN	对抗学习	IVIF
DDeGAN	GAN	双鉴别器	IVIF
TC-GAN	GAN	多决策图	IVIF
FusionGRAM、AttentionFGAN、CrossFuse、IF-LapGAN	GAN	多尺度，注意力机制	IVIF
SDDGAN、TarDAL	GAN	下游任务驱动融合范式	任务驱动IVIF
AT-GAN、TL-GAN	GAN	恶劣条件下的鲁棒范式	低质量IVIF
TCGAN	GAN	小波变换嵌入	IVIF

4.评价指标

4.1 融合图像的评价指标

信息熵（EN）
- 原理：衡量图像包含信息的丰富程度，反映图像灰度分布的聚集特征。图像灰度级越丰富，信息熵越大。
- 意义：值越大，说明融合图像保留的源图像信息越多。
标准差（SD）
- 原理：反映图像像素灰度值相对于均值的离散程度，体现图像的对比度。
- 意义：值越大，说明图像灰度级分布越分散，图像越清晰、对比度越高。
平均梯度（AG）
- 原理：反映图像边缘细节和纹理变化的程度，体现图像的清晰度。
- 意义：值越大，表明图像的边缘和细节越清晰，融合图像质量越好。
空间频率（SF）
- 原理：通常借助傅里叶变换分析图像频域特性来获取。傅里叶变换将图像从空间域转换到频率域，其中高频信息对应图像细节和边缘，低频信息对应平滑区域和大块颜色区域。
- 意义：融合图像的空间频率高，意味着成功保留源图像细节信息，尤其在边缘和纹理处。若行、列空间频率均高，表明融合技术在保持细节、增强可读性上表现佳；反之，空间频率低则说明融合中信息丢失多、细节匮乏，可能无法满足应用需求。

4.2 融合图像与源图像的评价指标

1. 互信息（MI）

原理：基于信息论，衡量融合图像与单幅或多幅源图像之间的信息重叠程度。通过计算融合图像与源图像灰度分布的联合概率和边缘概率，利用公式 (MI(A,B) = H(A) + H(B) - H(A,B)) 求解，其中 H 表示熵，A、B 分别为融合图像与源图像。
意义：值越大，表明融合图像从源图像中保留的互补信息越多，融合过程对源图像关键信息的提取和整合效果越好。

均方误差（MSE）

原理：计算融合图像与源图像对应像素之间误差的平方平均值。
意义：值越小，表明融合图像与源图像在像素层面的差异越小，图像保真度越高，但对人眼感知的敏感性较弱。

峰值信噪比（PSNR）

原理：以均方误差为基础，通过对数形式度量图像的最大可能像素值与误差之间的比值。
意义：值越大，表示融合图像与源图像之间的误差越小，图像质量越高，适用于衡量噪声和失真程度，但不能完全反映视觉感知差异。

视觉信息保真度（VIF）

原理：模拟人类视觉系统特性，从频域和空域综合评估融合图像对源图像视觉信息的保留程度。考虑图像的多通道分解（如亮度、对比度）和噪声影响，通过计算视觉敏感信号的保真度得分。
意义：值越接近 1，表明融合图像在视觉感知上与源图像越接近，符合人眼对图像质量的主观评价，尤其适用于以视觉观察为目标的融合任务。

归一化互信息（NMI）

原理：对互信息进行归一化处理，消除图像尺寸和灰度级范围的影响。
意义：值越大，表明融合图像与源图像的信息相关性越强，且不受图像自身复杂度的干扰，可更公平地比较不同尺寸或模态图像的融合效果。

6. 梯度幅度相似性偏差（GMSD）

原理：通过计算融合图像与源图像梯度幅度的相似性，评估边缘和纹理结构的保留程度。梯度幅度反映图像局部变化的强弱，偏差越小说明结构相似性越高。
意义：值越小，表明融合图像在边缘和纹理的梯度分布上与源图像越一致，细节和轮廓的保持效果越好，适用于对图像结构信息要求较高的场景。

7. 空间一致性指数（SCI）

原理：衡量融合图像与源图像在空间结构上的一致性，通过比较对应位置像素的相关性，排除噪声和非相关区域的干扰。
意义：值越接近 1，说明融合图像与源图像在空间布局和结构特征上越相似，融合过程未引入不合理的空间失真或伪影。

8. 相关系数（CC）

原理：常指皮尔逊相关系数，用来衡量融合图像与源图像像素强度间的线性相关程度。其定义为两幅图像像素协方差除以各自标准差乘积。
意义：相关系数的取值范围为 $[-1,1]$ $\rho=1$ 表示两图像完全正线性相关（理想情况下完全相同的灰度分布）， $\rho=-1$ 表示完全反相关， $\rho=0$ 表示无线性相关。融合图像与源图像的相关系数越接近 1，则说明融合后图像在全局灰度分布上与原图更一致，保留了更多原始信息。