一种基于多模态任务驱动增强的水下显著物体检测方法

专利详情

标题一种基于多模态任务驱动增强的水下显著物体检测方法

[标]当前申请(专利权)人南开大学

申请日2024年7月30日

申请号CN202411030992.2

公开(公告)日2024年8月27日

公开(公告)号CN118552841A

专利类型发明申请

发明人张晓宇 | 柳逸文 | 檀盼龙 | 杨诗博

受理局中国

当前申请人(专利权)地址300071 天津市南开区卫津路94号 (天津,天津,南开区)

IPC分类号G06V20/05 | G06N3/0455 | G06N3/0464 | G06N3/084 | G06N3/09 | G06V10/46 | G06V10/764 | G06V10/80 | G06V10/82

国民经济行业分类号-

代理机构天津展誉专利代理有限公司

代理人刘红春

摘要

本发明提供一种基于多模态任务驱动增强的水下显著物体检测方法，包括：通过泛化先验指导的卷积模块建立媒介透射分支，通过媒介透射分支对原始图像进行卷积，获得媒介透射图；通过四叉树算法计算原始图像的全局背景光，获得水下增强图；基于泛化暗通道先验算法计算原始图像中的环境光，获得介质传输图；对媒介透射图及介质传输图计算均方误差损失，通过均方误差损失指导媒介透射分支；将水下增强图与媒介透射图进行跨模态特征融合及多流特征提取，获得显著性图。本发明能够提高对水下特定环境的适应性，而且确保了增强水下图像直接适用于USOD任务，提高了检测的准确性和鲁棒性。

1.一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，包括：
S1：通过泛化先验指导的卷积模块建立媒介透射分支，通过所述媒介透射分支对原始图像进行卷积，获得媒介透射图；
S2：通过四叉树算法计算所述原始图像的全局背景光，获得水下增强图；
S3：基于泛化暗通道先验算法计算原始图像中的环境光，获得介质传输图；
S4：对所述媒介透射图及所述介质传输图计算均方误差损失，通过所述均方误差损失指导所述媒介透射分支；
S5：将所述水下增强图与媒介透射图进行跨模态特征融合及多流特征提取，获得显著性图。
2.根据权利要求1所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S2进一步包括：
S21：通过四叉树算法计算原始图像的全局背景光；
S22：通过所述媒介透射图及所述全局背景光对所述原始图像进行还原，获得水下增强图。
3.根据权利要求2所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S21进一步包括：
S221：将所述原始图像均分为四个一级矩形区块；
S222：对于每个一级矩形区块分别计算当前一级矩形区块的像素值均值及像素值方差，获得每个一级矩形区块的像素值均值及像素值方差的统计量差值；
S223：将所有一级矩形区块中所述统计量差值极大的一级矩形区块均分为四个二级矩形区块，并计算每个二级矩形区块的统计量差值，选择统计量差值极大的二级矩形区块进行进一步均分，直至均分的矩形区块大小小于预设阈值，获得多个次级矩形区块；
S224：由多个次级矩形区块中选取像素值极大的最大像素值矩形区块，将所述最大像素值矩形区块的像素最大值作为所述原始图像的全局背景光。
4.根据权利要求1所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S3中计算获得的所述环境光的表达式为：

其中，为泛化暗通道先验算法计算获得的环境光，为原始图像中的像素索引，原始图像中像素点处的背景光，为原始图像中像素最大值前0.1%的像素位置集合。
5.根据权利要求4所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S3中的所述介质传输图的表达式为：

其中，为估算获得的介质传输图，为颜色通道，为以像素点为中心的局部区域，为以像素点为中心的局部区域中的像素点，为原始图像中像素点处的背景光。
6.根据权利要求1所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S4中的所述均方误差损失的表达式为：

其中，为媒介透射图及介质传输图计算获得的均方误差损失，为像素点总数，为像素点坐标，为媒介透射图在像素点处的值，为介质传输图在像素点处的值。
7.根据权利要求1所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S5中，将所述水下增强图与媒介透射图进行跨模态特征融合的步骤进一步包括：
S51：将所述水下增强图及所述媒介透射图分别通过卷积映射为第一特征图及第二特征图，其中所述第一特征图对应所述水下增强图，所述第二特征图对应所述媒介透射图；
S52：通过一维通道注意力及二维空间注意力聚合所述第一特征图及所述第二特征图的不同域特征，获得所述第一特征图对应的第一增强特征及所述第二特征图对应的第二增强特征；
S53：将所述第一增强特征及所述第二增强特征依次进行元素相乘及最大化，获得融合特征。
8.根据权利要求7所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S53中的所述融合特征的表达式为：

其中，为输出的融合特征，为卷积核尺寸为3的卷积层，为连接操作，为第一特征图，为第二特征图，为一维通道注意力，为二维空间注意力，为第一增强特征，为第二增强特征，为取特征图中的最大值操作，为逐元素乘法，为第一增强特征及第二增强特征最大化获得的特征，为第一增强特征及第二增强特征元素相乘获得的特征。
9.根据权利要求7所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S5中用于多流特征提取的输入包括所述融合特征、所述水下增强图、所述媒介透射图。
10.根据权利要求1所述的一种基于多模态任务驱动增强的水下显著物体检测方法，其特征在于，步骤S5中所述显著性图的损失的表达式为：

其中，为显著性图对应的损失，为媒介透射图及介质传输图计算获得的均方误差损失，为对输出显著物体分割结果的分割损失，为水下增强图对应的损失，为二值交叉熵损失，为交并比损失，为像素空间损失，为灰色世界假设损失。

技术领域
[0001]本发明涉及目标检测技术领域，尤其涉及一种基于多模态任务驱动增强的水下显著物体检测方法。
背景技术
[0002]为了应对水下图像带来的模糊、色偏等固有问题，已经存在许多水下图像增强方法，一些技术通过使用图像增强方法对输入图像进行预处理，为后续检测方法提供增强图像。然而，这些方法可能受到两个限制：增强后的图像通常不是目标检测器所希望的。实验表明，在某些水下环境中，传统的图像增强方法对输入图像进行预处理可能会降低检测器的性能，因为这些传统的方法忽略了有助于目标检测的潜在信息，有时甚至产生误导检测器的失真图像；需要额外的数据集。与检测器联合训练的图像增强方法通常需要额外的成对图像增强数据集来支持增强模块的训练，然而，某些检测任务无法访问这些额外的数据集来使用这些方法。
[0003]尽管目前存在多种利用RGBD信息的显著性目标检测（RGBD-SOD）网络，但它们在水下环境中的应用仍面临着重大挑战，尤其是在深度信息的获取和利用方面，多数现有方法只使用RGB图像进行显著目标检测，少数考虑深度信息的方法则将深度信息作为一个预处理步骤，而非将其集成到检测流程中协同训练，这限制了模型在复杂水下环境中的性能和适应性。
发明内容
[0004]本发明旨在至少解决相关技术中存在的技术问题之一。为此，本发明提供一种基于多模态任务驱动增强的水下显著物体检测方法。
[0005]本发明提供一种基于多模态任务驱动增强的水下显著物体检测方法，包括：
S1：通过泛化先验指导的卷积模块建立媒介透射分支，通过所述媒介透射分支对原始图像进行卷积，获得媒介透射图；
S2：通过四叉树算法计算所述原始图像的全局背景光，获得水下增强图；
S3：基于泛化暗通道先验算法计算原始图像中的环境光，获得介质传输图；
S4：对所述媒介透射图及所述介质传输图计算均方误差损失，通过所述均方误差损失指导所述媒介透射分支；
S5：将所述水下增强图与媒介透射图进行跨模态特征融合及多流特征提取，获得显著性图。
[0006]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S2进一步包括：
S21：通过四叉树算法计算原始图像的全局背景光；
S22：通过所述媒介透射图及所述全局背景光对所述原始图像进行还原，获得水下增强图。
[0007]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S21进一步包括：
S221：将所述原始图像均分为四个一级矩形区块；
S222：对于每个一级矩形区块分别计算当前一级矩形区块的像素值均值及像素值方差，获得每个一级矩形区块的像素值均值及像素值方差的统计量差值；
S223：将所有一级矩形区块中所述统计量差值极大的一级矩形区块均分为四个二级矩形区块，并计算每个二级矩形区块的统计量差值，选择统计量差值极大的二级矩形区块进行进一步均分，直至均分的矩形区块大小小于预设阈值，获得多个次级矩形区块；
S224：由多个次级矩形区块中选取像素值极大的最大像素值矩形区块，将所述最大像素值矩形区块的像素最大值作为所述原始图像的全局背景光。
[0008]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S3中计算获得的所述环境光的表达式为：

其中，为泛化暗通道先验算法计算获得的环境光，为原始图像中的像素索引，原始图像中像素点处的背景光，为原始图像中像素最大值前0.1%的像素位置集合。
[0009]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S3中的所述介质传输图的表达式为：

其中，为估算获得的介质传输图，为颜色通道，为以像素点为中心的局部区域，为以第个像素索引为中心的局部区域中的像素点，为原始图像中像素点处的背景光。
[0010]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S4中的所述均方误差损失的表达式为：

其中，为媒介透射图及介质传输图计算获得的均方误差损失，为像素点总数，为像素点坐标，为媒介透射图在像素点处的值，为介质传输图在像素点处的值。
[0011]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S5中，将所述水下增强图与媒介透射图进行跨模态特征融合的步骤进一步包括：
S51：将所述水下增强图及所述媒介透射图分别通过卷积映射为第一特征图及第二特征图，其中所述第一特征图对应所述水下增强图，所述第二特征图对应所述媒介透射图；
S52：通过一维通道注意力及二维空间注意力聚合所述第一特征图及所述第二特征图的不同域特征，获得所述第一特征图对应的第一增强特征及所述第二特征图对应的第二增强特征；
S53：将所述第一增强特征及所述第二增强特征依次进行元素相乘及最大化，获得融合特征。
[0012]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S53中的所述融合特征的表达式为：

其中，为输出的融合特征，为卷积核尺寸为3的卷积层，为连接操作，为第一特征图，为第二特征图，为一维通道注意力，为二维空间注意力，为第一增强特征，为第二增强特征，为取特征图中的最大值操作，为逐元素乘法，为第一增强特征及第二增强特征最大化获得的特征，为第一增强特征及第二增强特征元素相乘获得的特征。
[0013]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S5中用于多流特征提取的输入包括所述融合特征、所述水下增强图、所述媒介透射图。
[0014]根据本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，步骤S5中所述显著性图的损失的表达式为：

其中，为显著性图对应的损失，为媒介透射图及介质传输图计算获得的均方误差损失，为对输出显著物体分割结果的分割损失，为水下增强图对应的损失，为二值交叉熵损失，为交并比损失，为像素空间损失，为灰色世界假设损失。
[0015]本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法，提出了MES-Net（MultimodalEnhanceSalientNet）模型，对现有技术从多模态信息提取角度进行了改进。与传统的RGB-USOD网络相比，MES-Net通过结合水下图像增强技术和媒介透射信息，提高了水下显著性目标检测的精度和鲁棒性。区别于其他考虑图像增强的USOD模型，MES-Net不仅仅是简单地使用增强图像作为输入，而是采用基于泛化暗通道先验方法，从单一的RGB图像中获取额外的媒介透射信息并协同训练，使得模型可以在不需要额外图像的情况下对媒介透射分支生成的媒介透射信息进行监督，同时水下图像的增强和显著性检测能够在同一个网络架构中共同优化。
[0016]这种集成方法不仅增强了模型对水下特定环境的适应性，而且确保了增强水下图像直接适用于USOD任务，从而提高了检测的准确性和鲁棒性，通过这种创新的网络结构和训练方法，MES-Net显著地提升了在复杂水下环境中显著性目标检测的性能。
[0017]本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0018]为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0019]图1是本发明提供的一种基于多模态任务驱动增强的水下显著物体检测方法流程示意图。
具体实施方式
[0020]为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下实施例用于说明本发明，但不能用来限制本发明的范围。
[0021]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0022]下面结合图1描述本发明的实施例。
[0023]本发明提供一种基于多模态任务驱动增强的水下显著物体检测方法，包括：
S1：通过泛化先验指导的卷积模块建立媒介透射分支，通过所述媒介透射分支对原始图像进行卷积，获得媒介透射图；
在恶劣天气条件下，图像质量退化的影响可以通过一个图像形成物理模型来描述，该模型表示质量退化的图像，广泛应用于图像去雾和水下图像恢复算法中。
[0024]根据该模型，恢复原始图像的关键在于准确估计媒介透射图以及全局背景光，因此本发明在步骤S1阶段中建立水下增强模块，又将建立的水下增强模块分为用于步骤S1的媒介透射分支及用于步骤S2的全局背景光分支，上述的媒介透射图以及全局背景光通过设计的媒介透射分支和全局光照分支获得的。
[0025]其中的媒介透射分支利用深度学习网络，通过分析输入图像的局部和全局特征以及泛化先验指导来估算透射率，而全局光照分支则通过四叉树细分的方法来确定背景光的强度。
[0026]本阶段中基于导向滤波法对原始图像进行卷积，获得媒介透射图，具体来讲首先选取ResNet网络作为主干网络，基于多头注意力机制，通过所述主干网络的多个批量化归一层及多个卷积层，对所述原始图像进行卷积，获得卷积图，通过导向滤波法对所述卷积图进行平滑处理，获得媒介透射图。
[0027]进一步的，水下图像增强中需要的媒介透射图由一个受到泛化先验指导的卷积模块生成，模块称为媒介透射分支，媒介透射分支的主干网络由三层嵌入了大核卷积的残差卷积层组成，分支接受泛化暗先验方法的监督以及后续SOD网络的损失回传。
[0028]首先通过嵌入具有大核卷积的ResNet50前三层来构建一个高效的媒介透射分支主干网络，ResNet以其残差连接的特征，能有效避免在深层网络中出现的梯度消失问题，这使得网络在训练时更为稳定。
[0029]对于每个编码器，其中包含多个残差块，每个残差块内部不仅采用批量归一化（Batch Normalization, BN）以优化训练过程，还采用了ReLU激活函数来增强模型的非线性处理能力，其中的大核卷积的尺寸被设置为32*32，不仅增强了网络对输入图像的空间理解能力，还通过更广的感受野，为网络引入了更多的形状偏置。
[0030]进一步的，通过在大核卷积的前后均使用了1×1的卷积层以及BN层，模仿视觉变换器（Vision Transformer, ViT）中的多头自注意力机制，提高了网络对不同特征的适应能力和区分度。
[0031]在估计媒介透射图阶段，因为水下环境中的媒介透射图常常伴随着模糊和噪声，所以采用了导向滤波作为后处理步骤以进一步精细化媒介透射图，导向滤波是一种边缘保持滤波器，能够在平滑图像的同时保持边缘信息，这对于透射图处理尤为重要。
[0032]S2：通过四叉树算法计算所述原始图像的全局背景光，获得水下增强图；
其中，步骤S2进一步包括：
S21：通过四叉树算法计算原始图像的全局背景光；
其中，步骤S21进一步包括：
S221：将所述原始图像均分为四个一级矩形区块；
S222：对于每个一级矩形区块分别计算当前一级矩形区块的像素值均值及像素值方差，获得每个一级矩形区块的像素值均值及像素值方差的统计量差值；
S223：将所有一级矩形区块中所述统计量差值极大的一级矩形区块均分为四个二级矩形区块，并计算每个二级矩形区块的统计量差值，选择统计量差值极大的二级矩形区块进行进一步均分，直至均分的矩形区块大小小于预设阈值，获得多个次级矩形区块；
S224：由多个次级矩形区块中选取像素值极大的最大像素值矩形区块，将所述最大像素值矩形区块的像素最大值作为所述原始图像的全局背景光。
[0033]S22：通过所述媒介透射图及所述全局背景光对所述原始图像进行还原，获得水下增强图。
[0034]其中，步骤S22中的所述水下增强图的表达式为：

其中，为原始水下图像，为获得的水下增强图，为水下增强图对应的透射图，为水下图像对应的全局背景光。
[0035]在全局光照分支中，采用一种基于四叉树细分的方法来计算全局背景光，具体过程为：首先，将输入的图像分割为四个等大的矩形区块，对于每一个区块，计算其像素值的均值和方差，并将这两个统计量的差异（均值-方差）作为评价指标。
[0036]在这四个区块中，选择具有最大（均值-方差）值的区块进行进一步的细分，同样地，将该区块再次分割为四个更小的矩形区块。这一过程递归地持续进行，每次都选择（均值-方差）值最大的区块进行细分，直到区块的大小降至预设的阈值。
[0037]在最终的迭代中，从这些小区块中选择具有最大像素值的区块，将其像素最大值作为全局背景光的估计值，这种基于四叉树的递归细分方法，不仅提高了全局光照估计的精确度，也增强了方法的鲁棒性，使其更能适应不同的光照条件和环境变异。
[0038]在经过步骤S1至S2的处理后，将媒介透射图及全局背景光代入图像形成模型中，可以计算并重建出质量显著提高的恢复后图像，这种方法不仅显著增强了水下图像的视觉质量，而且通过联合学习的协同训练与水下显著物体分割任务相结合，从而提高了后续SOD网络的检测精度，使其在复杂水下环境中表现出更高的识别能力和更好的性能。
[0039]S3：基于泛化暗通道先验算法计算原始图像中的环境光，获得介质传输图；
本阶段需要在不需要额外图像的情况下对水下图像增强模块生成的增强图像进行有效监督，保证其符合水下成像实际物理过程，所以对其中媒介透射分支生成的媒介透射图进行有效指导是非常重要的，本阶段采用泛化暗通道先验方法的估计透射图，并设计了相应的损失函数，从而提高媒介透射的准确性和网络的整体性能。
[0040]由于在实践中无法获得输入水下图像的相应真实介质传输图，因此训练媒介透射分支生成媒介透射图变得困难。传统的暗通道先验算法（DCP）虽然提供了一种解决方案，但计算的透射率经常无法生成准确的结果。因为水下红光比其他波长衰减得更多，因此基于RGB通道的DCP最终只考虑红色通道，导致传输估计不可靠。
[0041]针对这一问题，我们采用基于泛化暗通道先验算法（GDCP）的方法来获取介质传输图。此方法通过自适应环境光估计算法来提升对水下图像的适应性，进而有效计算介质传输图。GDCP方法在传统暗通道先验的基础上进行优化，增加了对水下特定光照和色彩分布的适应能力，具体的计算环境光的公式如下。
[0042]其中，步骤S3中计算获得的所述环境光的表达式为：

其中，为泛化暗通道先验算法计算获得的环境光，为原始图像中的像素索引，原始图像中像素点处的背景光，为原始图像中像素最大值前0.1%的像素位置集合。
[0043]其中，步骤S3中的所述介质传输图的表达式为：

其中，为估算获得的介质传输图，为颜色通道，为以像素点为中心的局部区域，为以第个像素索引为中心的局部区域中的像素点，为原始图像中像素点处的背景光。
[0044]而针对传输图的估计，其应用中值滤波和线性拉伸来细化传输图的估计，最终估算介质传输图公式如上，如公式所示，介质传输估计与均匀背景光相关，所以本发明中基于深度依赖的颜色变化估计了均匀背景光。
[0045]S4：对所述媒介透射图及所述介质传输图计算均方误差损失，通过所述均方误差损失指导所述媒介透射分支；
在步骤S3之后，将媒介透射分支产生的媒介透射图与泛化暗通道先验生成的传输图求均方误差（MSE）损失,对媒介透射分支进行指导，媒介透射分支由受到步骤S4中获得的均方误差损失，也就是泛化先验指导的卷积模块生成。
[0046]其中，步骤S4中的所述均方误差损失的表达式为：

其中，为媒介透射图及介质传输图计算获得的均方误差损失，为像素点总数，为像素点坐标，为媒介透射图在像素点处的值，为介质传输图在像素点处的值。
[0047]S5：将所述水下增强图与媒介透射图进行跨模态特征融合及多流特征提取，获得显著性图。
[0048]在特征融合阶段，我们将增强水下图像和媒介透射图分别输入双流特征提取网络，以生成层次化的特征。具有跳过连接的U—Net已经在像素级分割任务中显示出其有效性。因此双流特征提取网络通过类似 U-Net 的架构在编码器和解码器之间衔接特征，以在每个解码器中保留有价值的几何前验。
[0049]在水下图像增强过程之后，媒介透射信息T与增强水下图像一起被馈送到双流特征提取网络以生成分层特征。一般来说，从增强水下图像提取的特征包含丰富的语义信息和纹理信息；同时，媒介透射通道的特征包含更具辨别力的场景布局线索，这与 RGB 特征的特征互补。
[0050]先前的研究已证实了从两种异构模态学习对于 RGB-D SOD 的有效性。彩色图像在视觉外观上提供了丰富的信息，而深度图则包含更多空间先验。这两种模态都有助于调节同质的语义信息。因此多模态学习的目标是有效地融合来自不同模态的多样化信息。为此，我们出了鲁棒多模态融合方案，通过交叉注意力线索互补模块，减轻特定域特征中的歧义，从而充分利用跨域线索进行多模态和多层次推理。其包括两个部分，即跨模态特征增强和自适应特征融合。
[0051]其中，步骤S5中，将所述水下增强图与媒介透射图进行跨模态特征融合的步骤进一步包括：
S51：将所述水下增强图及所述媒介透射图分别通过卷积映射为第一特征图及第二特征图，其中所述第一特征图对应所述水下增强图，所述第二特征图对应所述媒介透射图；
S52：通过一维通道注意力及二维空间注意力聚合所述第一特征图及所述第二特征图的不同域特征，获得所述第一特征图对应的第一增强特征及所述第二特征图对应的第二增强特征；
S53：将所述第一增强特征及所述第二增强特征依次进行元素相乘及最大化，获得融合特征。
[0052]进一步的，上述的通过泛化先验指导的卷积模块，与后续特征融合网络是协同训练的。
[0053]其中，步骤S53中的所述融合特征的表达式为：

其中，为输出的融合特征，为卷积核尺寸为3的卷积层，为连接操作，为第一特征图，为第二特征图，为一维通道注意力，为二维空间注意力，为第一增强特征，为第二增强特征，为取特征图中的最大值操作，为逐元素乘法，为第一增强特征及第二增强特征最大化获得的特征，为第一增强特征及第二增强特征元素相乘获得的特征。
[0054]具体来讲，假设有两个配对的多模态特征，也就是输入的水下增强图与媒介透射图，我们首先通过1*1卷积和3*3卷积将输入映射到特征图，获得了轻量级表示之后，下一步是从不同域聚合特征，为此，本发明提出了跨注意力融合方案，具体来说，从每个输入特征图中，我们学习一维通道注意力来确定需要涉及什么信息，以及二维空间注意力来确定需要关注的部分，这样一种模态的特征图可以用来增强另一种模态。此外，为了保留每种模态的原始信息，本发明加入残差连接，将增强后的特征与其原始特征相结合，因此，本发明可以得到两种模态的交叉增强特征表征如上述公式所示，通过从各个特征图中学习到的双重注意力，本发明实现了跨域交互，通过这种方式可以减轻域特定特征中的歧义。
[0055]在融合不同模态的特征可采用多种策略，包括元素相乘和最大化，为了从不同策略的优势中获益，我们采用了元素乘法和最大化法，然后将结果串联，经过提出的交叉注意力线索互补模块，我们可以获得跨模态融合特征，它与从增强水下图像流和媒介透射流提取的原始特征一起，进一步馈送到三个独立的解码器，最后将三个解码器的预测相加以生成最终的显著性图SMap并接受真值图像监督。
[0056]其中，步骤S5中用于多流特征提取的输入包括所述融合特征、所述水下增强图、所述媒介透射图。
[0057]其中，步骤S5中所述显著性图的损失的表达式为：

其中，为显著性图对应的损失，为媒介透射图及介质传输图计算获得的均方误差损失，为对输出显著物体分割结果的分割损失，为水下增强图对应的损失，为二值交叉熵损失，为交并比损失，为像素空间损失，为灰色世界假设损失。
[0058]进一步的，本发明提出的模型名为MES-Net，其损失由针对输出显著物体分割结果的分割损失、针对水下图像增强模块的图像增强损失以及针对媒介透射分支的泛化先验损失组成，分割损失包含两种损失的混合损失函数以对结果与真实值的差距进行综合评估,包含的两种损失分别为二值交叉熵（BCE）损失和交并比（IoU）损失，这种混合损失的有效性也在许多显著性目标分割任务中得到了验证。
[0059]对于损失函数的设计，我们考虑了SOD、媒介透射信息和水下图像增强三个层面的重要性，因此将三类损失相加作为最终的损失函数，共同优化整个网络。其中水下图像增强模块同时收到三个损失的反向传播，从而达到任务驱动水下图像增强的效果，确保生成的增强水下图像直接适用于USOD任务，有助于USOD性能的提升。
[0060]最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

知识产权成果展示

专利详情

摘要