专利详情

标题一种基于泛化先验监督的水下显著物体检测方法
[标]当前申请(专利权)人南开大学
申请日2024年7月16日
申请号CN202410948242.7
公开(公告)日2024年8月16日
公开(公告)号CN118506172A
授权日-
法律状态/事件公开
专利类型发明申请
发明人张晓宇 | 柳逸文 | 檀盼龙 | 杨诗博
受理局中国
当前申请人(专利权)地址300071 天津市南开区卫津路94号 (天津,天津,南开区)
IPC分类号G06V20/05 | G06N3/0455 | G06N3/0464 | G06N3/084 | G06N3/09 | G06V10/46 | G06V10/764 | G06V10/80 | G06V10/82
国民经济行业分类号-
代理机构天津展誉专利代理有限公司
代理人刘红春
被引用专利数量-
专利价值-

摘要

本发明提供一种基于泛化先验监督的水下显著物体检测方法,涉及目标检测技术领域。具体包括:采集待检测图;通过轻量视觉编码器对待检测图进行深度特征提取,获得深度特征图;基于泛化暗通道先验算法计算待检测图中的环境光,获得介质传输图;通过介质传输图监督深度特征图的提取,获得监督特征图;将待检测图及监督特征图进行特征融合,获得显著性图;对显著性图进行目标检测。本发明不仅增强了模型对水下特定环境的适应性,而且提高了检测的准确性和鲁棒性。

1.一种基于泛化先验监督的水下显著物体检测方法,其特征在于,包括:
S1:采集待检测图;
S2:通过轻量视觉编码器对所述待检测图进行深度特征提取,获得深度特征图;
S3:基于泛化暗通道先验算法计算所述待检测图中的环境光,获得介质传输图;
S4:通过所述介质传输图监督所述深度特征图的提取,获得监督特征图;
S5:将所述待检测图及所述监督特征图进行特征融合,获得显著性图;
S6:对所述显著性图进行目标检测。
2.根据权利要求1所述的一种基于泛化先验监督的水下显著物体检测方法,其特征在于,步骤S2进一步包括:
S21:选取主干网络对所述待检测图进行初步特征提取,获得初步特征图;
S22:将所述初步特征图进行卷积处理,并将卷积处理后的初步特征图展平,获得补丁嵌入;
S23:将所述补丁嵌入输入轻量视觉编码器,获得深度特征图。
3.根据权利要求2所述的一种基于泛化先验监督的水下显著物体检测方法,其特征在于,步骤S21中的所述主干网络为ResNet34网络。
4.根据权利要求2所述的一种基于泛化先验监督的水下显著物体检测方法,其特征在于,步骤S23进一步包括:
S231:通过多层卷积层对所述补丁嵌入进行空间细化,获得空间细化特征图;
S232:将所述空间细化特征图进行卷积处理,获得范围注意图;
S233:通过ReLU激活函数传递所述范围注意图,获得深度特征图。
5.根据权利要求1所述的一种基于泛化先验监督的水下显著物体检测方法,其特征在于,步骤S3中的所述介质传输图的表达式为:

其中,为估算获得的介质传输图,为颜色通道,为待检测图中的像素索引,为以像素点为中心的局部区域,为以第个像素索引为中心的局部区域中的像素点,为泛化暗通道先验算法计算获得的环境光,为待检测图中像素点处的背景光。
6.根据权利要求1所述的一种基于泛化先验监督的水下显著物体检测方法,其特征在于,步骤S5进一步包括:
S51:将所述待检测图对应的RGB流通过卷积获得第一输入特征,将所述监督特征图对应的深度流通过卷积获得第二输入特征;
S52:通过全局平均池化分别处理所述第一输入特征及所述第二输入特征,对应获得第一全局统计信息及第二全局统计信息;
S53:将所述第一全局统计信息通过全连接层处理获得第一注意力向量,将所述第二全局统计信息通过softmax激活函数处理获得第二注意力向量;
S54:基于所述第一注意力向量建立第一解码分支,基于所述第二注意力向量建立第二解码分支,基于所述第一注意力向量及所述第二注意力向量建立第三解码分支;
S55:通过包括所述第一解码分支、所述第二解码分支及所述第三解码分支的交叉参考模块进行所述待检测图及所述监督特征图,获得显著性图。
7.根据权利要求1所述的一种基于泛化先验监督的水下显著物体检测方法,其特征在于,步骤S6中用于对所述显著性图进行目标检测的检测网络的损失函数包括:深度信息提取损失、分割损失。
8.根据权利要求7所述的一种基于泛化先验监督的水下显著物体检测方法,其特征在于,所述检测网络的损失函数的表达式为:



其中,为用于显著性图的目标检测的检测网络的损失函数,为深度信息提取损失,为分割损失,为二值交叉熵损失,为交并比损失,为待检测中包括的像素点总数,为待检测图中的像素点坐标,为监督特征图像素点处的值,为介质传输图在像素点处的值。

技术领域
[0001]本发明涉及目标检测技术领域,尤其涉及一种基于泛化先验监督的水下显著物体检测方法。
背景技术
[0002]对于水下显著性目标检测,尽管目前存在多种利用RGBD信息的显著性目标检测(RGBD-SOD)网络,但它们在水下环境中的应用仍面临着重大挑战,尤其是在深度信息的获取和利用方面,多数现有方法只使用RGB图像进行显著目标检测,少数考虑深度信息的方法则将深度信息作为一个预处理步骤,而非将其集成到检测流程中协同训练,这限制了模型在复杂水下环境中的性能和适应性,导致水下显著物体检测的精度差,鲁棒性差。
发明内容
[0003]本发明旨在至少解决相关技术中存在的技术问题之一。为此,本发明提供一种基于泛化先验监督的水下显著物体检测方法。
[0004]本发明提供一种基于泛化先验监督的水下显著物体检测方法,包括:
S1:采集待检测图;
S2:通过轻量视觉编码器对所述待检测图进行深度特征提取,获得深度特征图;
S3:基于泛化暗通道先验算法计算所述待检测图中的环境光,获得介质传输图;
S4:通过所述介质传输图监督所述深度特征图的提取,获得监督特征图;
S5:将所述待检测图及所述监督特征图进行特征融合,获得显著性图;
S6:对所述显著性图进行目标检测。
[0005]本发明提供一种基于泛化先验监督的水下显著物体检测方法,步骤S2进一步包括:
S21:选取主干网络对所述待检测图进行初步特征提取,获得初步特征图;
S22:将所述初步特征图进行卷积处理,并将卷积处理后的初步特征图展平,获得补丁嵌入;
S23:将所述补丁嵌入输入轻量视觉编码器,获得深度特征图。
[0006]本发明提供一种基于泛化先验监督的水下显著物体检测方法,步骤S21中的所述主干网络为ResNet34网络。
[0007]本发明提供一种基于泛化先验监督的水下显著物体检测方法,步骤S23进一步包括:
S231:通过多层卷积层对所述补丁嵌入进行空间细化,获得空间细化特征图;
S232:将所述空间细化特征图进行卷积处理,获得范围注意图;
S233:通过ReLU激活函数传递所述范围注意图,获得深度特征图。
[0008]本发明提供一种基于泛化先验监督的水下显著物体检测方法,步骤S3中的所述介质传输图的表达式为:

其中,为估算获得的介质传输图,为颜色通道,为待检测图中的像素索引,为以像素点为中心的局部区域,为以第个像素索引为中心的局部区域中的像素点,为泛化暗通道先验算法计算获得的环境光,为待检测图中像素点处的背景光。
[0009]本发明提供一种基于泛化先验监督的水下显著物体检测方法,步骤S5进一步包括:
S51:将所述待检测图对应的RGB流通过卷积获得第一输入特征,将所述监督特征图对应的深度流通过卷积获得第二输入特征;
S52:通过全局平均池化分别处理所述第一输入特征及所述第二输入特征,对应获得第一全局统计信息及第二全局统计信息;
S53:将所述第一全局统计信息通过全连接层处理获得第一注意力向量,将所述第二全局统计信息通过softmax激活函数处理获得第二注意力向量;
S54:基于所述第一注意力向量建立第一解码分支,基于所述第二注意力向量建立第二解码分支,基于所述第一注意力向量及所述第二注意力向量建立第三解码分支;
S55:通过包括所述第一解码分支、所述第二解码分支及所述第三解码分支的交叉参考模块进行所述待检测图及所述监督特征图,获得显著性图。
[0010]本发明提供一种基于泛化先验监督的水下显著物体检测方法,步骤S6中用于对所述显著性图进行目标检测的检测网络的损失函数包括:深度信息提取损失、分割损失。
[0011]本发明提供一种基于泛化先验监督的水下显著物体检测方法,所述检测网络的损失函数的表达式为:



其中,为用于显著性图的目标检测的检测网络的损失函数,为深度信息提取损失,为分割损失,为二值交叉熵损失,为交并比损失,为待检测中包括的像素点总数,为待检测图中的像素点坐标,为监督特征图像素点处的值,为介质传输图在像素点处的值。
[0012]本发明提供的一种基于泛化先验监督的水下显著物体检测方法,提出了ADANet(AquaDepthAwareNet)模型,用于水下显著物体检测,从深度信息提取角度进行了改进,与RGB-USOD网络相比,ADANet通过结合RGB和深度信息,提高了水下显著性目标检测的精度和鲁棒性。
[0013]此外,区别于其他考虑深度信息的USOD模型,ADANet不仅仅是简单地添加深度信息作为输入,而是采用基于泛化暗通道先验的深度估计模块,从单一的RGB图像中提取深度信息并协同训练,使得模型可以在不需要额外图像的情况下对深度提取模块生成的深度信息进行监督,同时深度信息的提取和显著性检测能够在同一个网络架构中共同优化,不仅增强了模型对水下特定环境的适应性,而且确保了提取的深度信息直接适用于USOD任务,从而提高了检测的准确性和鲁棒性,通过这种创新的网络结构,ADANet显著地提升了在复杂水下环境中显著性目标检测的性能。
[0014]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0015]为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本发明提供的一种基于泛化先验监督的水下显著物体检测方法流程图。
[0017]图2是本发明提供的通过轻量视觉编码器对待检测图进行深度特征提取的方法流程图。
[0018]图3是本发明提供的将待检测图及监督特征图进行特征融合的方法流程图。
具体实施方式
[0019]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下实施例用于说明本发明,但不能用来限制本发明的范围。
[0020]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0021]为了更好地理解本发明,下面对本发明的背景及关联技术进行解释说明。
[0022]显著物体检测(SOD)是计算机视觉领域的一项关键技术,受神经科学中“视觉显著性”概念的启发,旨在快速识别观察场景中的视觉显著性物体。SOD已经成为计算机视觉和机器人领域的一个研究热点,因为它可以作为许多实际视觉任务的助推器,例如图像分割,目标检测,图像风格转换,避障和操纵,近年来SOD在陆地领域的快速发展,许多实用的SOD模型已经被提出并在智能平台上实现。
[0023]水下显著目标检测(USOD)是为满足水下环境日益增长的需求而发展起来的一个新的分支,其目标是从水下图像中检测视觉显著性物体。由于其在许多水下视觉任务中的辅助作用,也已成为一个热门的技术领域。但目前相关技术研究较少,性能距离实际应用仍有距离。通过引入多模态信息获取进行水下显著目标检测研究可以获得更高的识别成功率和鲁棒性。
[0024]尽管该领域的关注已经转移到这一领域,USOD研究仍处于非常早期的发展阶段。USOD研究界面临的主要瓶颈是现有的USOD数据集规模小,缺乏多样性,不能充分反映水下环境的本质。尽管随着大规模挑战性数据集的可用性,陆地SOD研究界已经出现了许多强大的模型,许多上级RGB SOD模型的性能通常在水下世界中降低,因为水下图像的视觉内容由于特定域的对象类别、水体图案和大量光学失真伪影而独特地多样化
此外,在陆地域中,使用商业化的RGB-D传感器可以容易地捕获所观察场景的深度信息(例如,Microsoft Kinect和Intel RealSense)来提供用于改进的SOD推断的附加空间信息。这种额外的信息的获取使得陆地域中RGB-D SOD方法的性能普遍强于RGB SOD方法。但RGB-D传感器无法在水下环境中使用。由于光在水中传播时会被散射和吸收,因此使用上述传感器无法获得水下环境中的精确深度信息。水下场景深度信息的缺乏也使得强大的RGB-D SOD方法无法直接应用于USOD任务。即在陆地数据集上训练的最先进的(SOTA)SOD模型不能现成地用于水下图像,因此USOD研究中构建深度信息提取方式是一个紧迫的问题,但现有技术针对USOD任务中深度信息的获取很少展开研究。
[0025]综上,陆地显著性目标检测(SOD)研究在过去几十年中取得了显著进展。尽管与SOD相比,水下显著性目标检测(USOD)的历史较短,但与此话题相关的研究作品数量却相当可观。现有的USOD方法可以分为基于手工特征的方法和基于深度学习的方法。
[0026]基于手工特征的方法探索低层视觉特征(例如颜色、纹理和轮廓)从水下图像中获取显著性地图。在SOD的开创性工作中,Itti等人使用图像区域中的局部特征对比来推断视觉显著性,取得了巨大成功。受此启发,随后提出了几种USOD方法。Jian等人提出了一种新颖的框架,通过利用四元数距离基的韦伯描述符、模式区别性和局部对比度来检测水下视觉显著性。在另一项研究中,提出了一种基于改进的直方图均衡算法的新颖图像显著性检测算法,以解决由于水下图像低对比度和质量差导致的水下视觉显著性地图检测效果不满意的问题。此外,最近,Chen等人提出了一种结合手工制作的二维(颜色和强度)和三维(深度图)视觉特征的新颖USOD方法。Islam等人提出了一种高效的解决方案,通过采用自下而上和自上而下的学习在编解码器架构中进行显著性引导的视觉注意力建模。
[0027]此外,Chen等人提出了一种融合了手工制作的二维(颜色和强度)及三维(深度图)视觉特征的创新USOD方法。Islam等人则通过在编解码器架构中融合自下而上与自上而下的学习方法,有效地实现了显著性引导的视觉注意力建模。最近的一项工作中,USOD10K数据集的引入推动了USOD领域的研究。这个数据集包括了超过1万张水下图像,涵盖了70种显著物体类别,为USOD研究提供了丰富的数据资源。基于USOD10K数据集,研究者们开发了TC-USOD模型,这是一个结合了变压器和卷积操作的混合架构模型,用于提高水下显著性目标检测的性能。
[0028]尽管目前存在多种利用RGBD信息的显著性目标检测(RGBD-SOD)网络,但它们在水下环境中的应用仍面临着重大挑战,尤其是在深度信息的获取和利用方面。多数现有方法只使用RGB图像进行显著目标检测。少数考虑深度信息的方法则将深度信息作为一个预处理步骤,而非将其集成到检测流程中协同训练,这限制了模型在复杂水下环境中的性能和适应性。
[0029]为了应对这些挑战,提高USOD方法的准确度与鲁棒性,我们针对现有单模态水下RGB-SOD网络提取信息渠道单一的问题,提出了水下深度感知网络(AquaDepthAwareNet,ADANet)。
[0030]ADANet采用了三流SOD网络作为主干,其中一条分支接收水下图像作为输入。另一支则通过设计的基于泛化先验监督的深度估计模块,实现了从单一的RGB水下图像中提取深度信息。ADANet的所有组成部分均采用协同训练的方式进行优化,这是一种任务驱动的训练策略,能够有效地联合优化网络的各个模块,确保在水下环境中显著性检测的效果和可靠性。通过这种创新的方法,我们的模型不仅实现了在水下图像中应用多模态SOD网络的可能,还显著提升了显著物体检测的准确性和鲁棒性。这一研究的成果不仅推动了水下图像处理技术的发展,也为相关领域的研究提供了新的思路和工具。
[0031]下面结合图1至图3描述本发明实施例。
[0032]如图1所示,本发明提供一种基于泛化先验监督的水下显著物体检测方法,包括:
S1:采集待检测图;
S2:通过轻量视觉编码器对所述待检测图进行深度特征提取,获得深度特征图;
在步骤S2阶段中,首先利用resnet34作为基础网络提取特征,随后通过一个三层空洞卷积解码器生成初步的深度特征图。
[0033]如图2所示,步骤S2进一步包括:
S21:选取主干网络对所述待检测图进行初步特征提取,获得初步特征图;
其中,步骤S21中的所述主干网络为ResNet34网络。
[0034]进一步来讲,在步骤S21中,采用基于ResNet34的编解码器主干网络,因为其在处理深度特征时表现出色。ResNet34以其残差连接的特征,能有效避免在深层网络中出现的梯度消失问题,这使得网络在训练时更为稳定。
[0035]作为编码器,ResNet34包含多个残差块,每个块中使用批量归一化和ReLU激活函数来增强模型的非线性表达能力。每层解码器则设计为由一个上采样模块和三个卷积层组成,以逐步恢复深度图像的细节和尺寸。
[0036]具体的,首先通过上采样层增大特征图的尺度,随后三个卷积层进一步细化特征,使得输出精确度更高。其中前两个卷积层使用空洞卷积替换普通卷积以提高感受野同时减少计算量,提高运算速度。最后一个卷积层调整为输出48个滤波器,生成320×480分辨率的图像,以产生适合后续网络的深度特征图。这种结构不仅保证了特征的有效传递,也优化了网络的计算效率,适合在需要快速准确提取深度信息的应用场景中使用。
[0037]S22:将所述初步特征图进行卷积处理,并将卷积处理后的初步特征图展平,获得补丁嵌入;
S23:将所述补丁嵌入输入轻量视觉编码器,获得深度特征图。
[0038]其中,步骤S23进一步包括:
S231:通过多层卷积层对所述补丁嵌入进行空间细化,获得空间细化特征图;
S232:将所述空间细化特征图进行卷积处理,获得范围注意图;
S233:通过ReLU激活函数传递所述范围注意图,获得深度特征图。
[0039]在步骤S21阶段后,深度图通过MVIT模块进一步优化。考虑到VisionTransformers(ViT)的高计算成本,本发明采用了更为轻量的mViT架构。
[0040]具体来讲,从主干提取的48个滤波器的输出,通过1×1卷积进行处理并展平为补丁嵌入,作为mViT编码器的输入,这些补丁嵌入进一步经过3×3卷积层进行空间细化处理;紧接着,1×1卷积核计算生成范围注意图,该图将自适应的全局信息与CNN提供的局部像素级信息结合;最终,通过ReLU激活的另一嵌入传递至多层感知器头部,输出一个80维的特征向量,这有助于深度图的最终细化和优化。
[0041]S3:基于泛化暗通道先验算法计算所述待检测图中的环境光,获得介质传输图;
为了在不需要额外图像的情况下对深度提取模块生成的深度信息进行有效监督,本发明采用泛化暗通道先验(Generalization of the Dark Channel Prior)方法的估计透射图。
[0042]水下显著物体检测中,根据在恶劣天气下的图像形成模型,采集的图像会质量退化,由于介质传输率与物体与相机的距离成正相关,因此通过估计水下图像的介质传输图,即可提取水下图像中蕴含的深度信息。
[0043]由于在实践中无法获得输入水下图像的相应真实介质传输图,因此训练深度神经网络提取深度信息变得困难,传统的暗通道先验算法(DCP)虽然提供了一种解决方案,但计算的透射率经常无法生成准确的结果,因为水下红光比其他波长衰减得更多,因此基于RGB通道的DCP最终只考虑红色通道,导致传输估计不可靠。
[0044]针对上述问题,本发明采用基于泛化暗通道先验算法(GDCP)的方法来获取介质传输图,该方法通过自适应环境光估计算法来提升对水下图像的适应性,进而有效计算介质传输图,GDCP方法在传统暗通道先验的基础上进行优化,增加了对水下特定光照和色彩分布的适应能力,而针对传输图的估计,该方法应用中值滤波和线性拉伸来细化传输图的估计,从而获得了如下的最终估算的介质传输图。
[0045]其中,步骤S3中的所述介质传输图的表达式为:

其中,为估算获得的介质传输图,为颜色通道,为待检测图中的像素索引,为以像素点为中心的局部区域,为以第个像素索引为中心的局部区域中的像素点,为泛化暗通道先验算法计算获得的环境光,为待检测图中像素点处的背景光。
[0046]S4:通过所述介质传输图监督所述深度特征图的提取,获得监督特征图;
在采用泛化暗通道先验的方法估计透射图后,步骤S4阶段中设计了相应的损失函数,也就是在获得了上述的传输介质图之后,将提取的深度信息,即深度特征图与泛化暗通道先验生成的传输图求均方误差(MSE)损失,用于对步骤S2中的用于深度信息提取的深度提取模块进行监督,从而提高深度估计的准确性和网络的整体性能。
[0047]S5:将所述待检测图及所述监督特征图进行特征融合,获得显著性图;
在特征融合阶段,本发明将RGB图像和提取到的深度信息分别输入双流特征提取网络,以生成层次化的特征,每个流都采用编码器-解码器结构作为主干网络,随后,采用特征融合策略:交叉参考模块(CRM)旨在将来自RGB特征和深度特征的有价值的线索集成到跨模式融合特征中,设计了三个解码分支,分别处理RGB、深度和融合层次的特征,并将相应的输出相加,以生成最终的显著性图。
[0048]具体来讲,在深度提取过程之后,深度信息与RGB图像一起被馈送到双流特征提取网络以生成分层特征,我们保留具有丰富语义特征的最后三个卷积块并删除前两个高分辨率的卷积块以平衡计算成本,一般来说,从RGB通道提取的特征包含丰富的语义信息和纹理信息,同时,深度通道的特征包含更具辨别力的场景布局线索,这与RGB特征的特征互补,为了整合跨模态信息,我们设计了名为交叉参考模块(CRM)的融合策略。
[0049]如图3所示,步骤S5进一步包括:
S51:将所述待检测图对应的RGB流通过卷积获得第一输入特征,将所述监督特征图对应的深度流通过卷积获得第二输入特征;
S52:通过全局平均池化分别处理所述第一输入特征及所述第二输入特征,对应获得第一全局统计信息及第二全局统计信息;
S53:将所述第一全局统计信息通过全连接层处理获得第一注意力向量,将所述第二全局统计信息通过softmax激活函数处理获得第二注意力向量;
S54:基于所述第一注意力向量建立第一解码分支,基于所述第二注意力向量建立第二解码分支,基于所述第一注意力向量及所述第二注意力向量建立第三解码分支;
S55:通过包括所述第一解码分支、所述第二解码分支及所述第三解码分支的交叉参考模块进行所述待检测图及所述监督特征图,获得显著性图。
[0050]所提出的交叉参考模块(CRM)旨在从深度和RGB特征中挖掘并组合最具辨识性的通道,并生成更具信息量的特征,具体来说,对于来自RGB流和深度流的第个卷积块产生的两个输入特征和,首先使用全局平均池化(GAP)来获取RGB和深度视图的全局统计信息;然后,这两个特征向量分别被输入到一个全连接层和一个softmax激活函数中,以获得对应的通道注意力向量和,分别反映了RGB特征和深度特征的重要性,注意力向量随后以通道方式乘在输入特征上,通过这种方式,CRM将显式地关注重要特征并抑制不必要的特征,以便于场景理解。
[0051]S6:对所述显著性图进行目标检测。
[0052]其中,步骤S6中用于对所述显著性图进行目标检测的检测网络的损失函数包括:深度信息提取损失、分割损失。
[0053]其中,所述检测网络的损失函数的表达式为:



其中,为用于显著性图的目标检测的检测网络的损失函数,为深度信息提取损失,为分割损失,为二值交叉熵损失,为交并比损失,为待检测中包括的像素点总数,为待检测图中的像素点坐标,为监督特征图像素点处的值,为介质传输图在像素点处的值。
[0054]进一步的,ADANet的损失由针对输出显著物体分割结果的分割损失以及针对深度信息提取模块的深度信息提取损失组成,分割损失包含两种损失的混合损失函数以对结果与真实值的差距进行综合评估,包含的两种损失分别为二值交叉熵(BCE)损失和交并比(IoU)损失,这种混合损失的有效性也在许多显著性目标分割任务中得到了验证。
[0055]其中二值交叉熵损失在二元分类任务中被广泛使用,而SOD任务在像素级别上可同样被视为二元分类问题所以同样适用,而交并比损失主要用于判断两个集合的相似程度。
[0056]对于损失函数的设计,我们考虑了SOD和深度信息提取两个层面的重要性。因此将分割损失和深度信息提取损失相加作为最终的损失函数,共同优化整个网络。其中深度信息提取模块同时收到两个损失的反向传播,从而达到任务驱动深度提取的效果,确保提取的深度信息直接适用于USOD任务,有助于USOD性能的提升。
[0057]本发明提供的一种基于泛化先验监督的水下显著物体检测方法,提出了一种创新的网络模型,名为ADANet,旨在解决水下图像中的显著物体检测问题,传统的RGB基于显著性目标检测(RGB-SOD)网络往往因为单一模态的限制而在精度上不足,而现有的RGBD-SOD(利用RGB和深度信息)网络在水下环境中遭遇了显著的挑战,因为水下环境通常不允许使用深度相机来生成准确的深度图。为了克服这一限制,ADANet采用三流SOD网络作为主干,同时通过集成泛化监督深度信息提取网络从单一的RGB水下图像中提取深度信息。
[0058]ADANet的核心设计包括两个阶段:联合深度信息提取阶段和三流特征融合阶段。在深度提取阶段,我们首先利用resnet34作为基础网络提取特征,随后通过一个三层空洞卷积解码器生成初步的深度特征图。接着,使用MVIT模块进一步细化这些深度特征。最终,通过泛化暗通道先验方法对深度特征进行自监督,使其能够有效地反映水下场景中物体的深度信息。
[0059]在特征融合阶段,首先将RGB图像和提取到的深度信息分别输入双流特征提取网络,以生成层次化的特征,每个流都采用编码器-解码器结构作为主干网络,随后,采用特征融合策略:交叉参考模块旨在将来自RGB特征和深度特征的有价值的线索集成到跨模式融合特征中,设计了三个解码分支,分别处理RGB、深度和融合层次的特征,并将相应的输出相加,以生成最终的显著性图。
[0060]本发明提供的一种基于泛化先验监督的水下显著物体检测方法,不仅增强了模型对水下特定环境的适应性,而且确保了提取的深度信息直接适用于USOD任务,从而提高了检测的准确性和鲁棒性,通过本发明提供的网络结构和训练方法,ADANet显著地提升了在复杂水下环境中显著性目标检测的性能。
[0061]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。