一种双transformer结合卷积神经网络的小目标小样本学习方法

专利详情

标题一种双transformer结合卷积神经网络的小目标小样本学习方法

[标]当前申请(专利权)人南开大学

申请日2024年6月3日

申请号CN202410708532.4

公开(公告)日2024年8月9日

公开(公告)号CN118470499A

专利类型发明申请

发明人张晓宇 | 靳小琴 | 檀盼龙 | 李寿鹏

受理局中国

当前申请人(专利权)地址300071 天津市南开区卫津路94号 (天津,天津,南开区)

IPC分类号G06V10/82 | G06V10/30 | G06V10/80 | G06N3/0464 | G06V10/75 | G06V10/764 | G06N3/0455

国民经济行业分类号-

代理机构天津展誉专利代理有限公司

代理人刘红春

摘要

本发明涉及图像处理技术领域，提供一种双transformer结合卷积神经网络的小目标小样本学习方法，通过transformer网络和卷积神经网络获得第一特征图、第二特征图、第三特征图；通过编码器对第三特征图进行自注意力处理，通过噪声滤除模块对第一特征图、第二特征图、处理后的第三特征图进行噪声信息滤除处理，通过跨尺度特征融合模块进行特征融合，通过IoU感知查询选择模块获得对象查询；通过解码器获得预测特征图；通过对输入图像添加随机噪声，通过解码器获得去噪组预测特征图；通过对预测特征图和去噪图预测特征图进行二分图匹配计算损失，获得检测特征图。本发明提高了声纳图像检测的准确性、识别速度和自动化水平。

1.一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，包括：
S101：通过卷积层提取输入图像的初级特征图，通过transformer网络和卷积神经网络处理初级特征图，获得第一特征图、第二特征图以及第三特征图；
S102：通过编码器对第三特征图进行自注意力处理，获得第三注意力特征图；
S103：通过噪声滤除模块对第一特征图、第二特征图以及第三注意力特征图进行噪声信息滤除处理，通过跨尺度特征融合模块将处理后的第一特征图、第二特征图以及第三注意力特征图进行特征融合，获得记忆特征图；
S104：通过IoU感知查询选择模块对记忆特征图进行查询处理，获得内容查询，通过边界框预测模块对内容查询处理，获得位置查询，通过将内容查询和位置查询相加，获得对象查询；
S105：通过解码器对对象查询进行自注意力处理以及通过解码器对对象查询和记忆特征图进行交叉注意力处理，获得预测特征图；
S106：通过对输入图像添加随机噪声，获得去噪组查询图，通过解码器对去噪组查询图和记忆特征图进行交叉注意力处理，获得去噪组预测特征图；
S107：通过对预测特征图进行二分图匹配计算损失，通过去噪组预测特征图进行二分图匹配计算损失，获得检测特征图。
2.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，所述S101步骤中，transformer网络包括Swin transformer模块、平均池化层，transformer网络分为四个阶段，每个阶段包括不同数量的Swin transformer模块并输出不同尺度的特征图，通过平均池化层进行初级特征图的下采样。
3.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，所述S101步骤中，卷积神经网络分为四个阶段，每个阶段包括不同数量和不同类型的卷积模块并输出不同尺度的特征图，通过卷积模块进行初级特征图的下采样。
4.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，所述S103步骤中，噪声滤除模块包括上通道和下通道，输入特征图通过上通道的深度分离卷积层和下通道的卷积层分别进行处理，将两个通道的输出特征图进行拼接，通过通道注意力模块将拼接后的特征图进行通道权重调整，通过卷积层对调整后的特征图进行信息融合并调整特征图通道数。
5.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，所述S104步骤中，IoU感知查询选择模块为解码器选择对象查询，并初始化对象查询的目标边界框信息和类别信息。
6.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，所述S105步骤中，交叉注意力处理采用可变形注意力机制。
7.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，所述S107步骤中，去噪组预测特征图计算损失函数使用二值交叉熵损失函数和IoU损失函数，使用二值交叉熵计算目标类别预测结果损失，使用IoU损失函数计算目标边界框预测结果损失，去噪组预测特征图损失为：

其中，为去噪组预测特征图损失，、，为目标真实类别，为真实目标边界框，为由、构成的矢量，为预测目标类别，为预测目标边界框，为由、构成的矢量，为目标类别预测结果的二值交叉熵损失，为目标边界框预测结果的IoU损失；
预测特征图的损失计算函数需要将IoU损失加入到目标类别损失计算中以保证IoU感知查询选择模块筛选时能够综合考虑目标边界框与真实目标边界框的IoU损失与目标类别损失，预测特征图的损失为：

其中，为预测特征图的损失；
IoU损失函数计算表达式为：

式中，为预测边框，为真实边框，为取交集，为取并集。
8.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，双transformer结合卷积神经网络的目标检测模型的搭建流程包括：
S201：选取Transformer为基线网络架构，搭建TCDCNet主干网络；
S202：通过编码器和跨尺度特征融合模块搭建Neck网络；
S203：设置IoU感知查询选择模块以及边界框预测模块；
S204：设置解码器模块及解码器对应的检测头，每个解码器包含一次对象查询的自注意力处理和对象查询和记忆特征图交互的交叉注意力处理；
S205：设置噪声滤除模块，指导检测头与解码器对对象查询进行有效地处理与映射；
S206：使用二值交叉熵损失函数和IoU损失函数计算损失。
9.根据权利要求1所述的一种双transformer结合卷积神经网络的小目标小样本学习方法，其特征在于，双transformer结合卷积神经网络的目标检测模型的训练过程包括：
S301：使用遥感图像目标检测任务的公开大型遥感数据集对双transformer结合卷积神经网络的目标检测模型进行预训练；
S302：根据网络中噪声滤除模块的参数量占总体网络的参数量的比例从遥感图像目标检测任务的公开大型遥感数据集中随机提取目标类别数均匀的图像，并添加随机噪声，获得遥感图像噪声数据集；
S303：根据网络中噪声滤除模块的参数量占总体网络的参数量的比例，从声纳图像数据集中随机提取目标类别数均匀的图像，并添加随机噪声，获得声纳图像噪声数据集；
S304：使用遥感图像噪声数据集及声纳图像噪声数据集组建噪声滤除数据集；
S305：使用噪声滤除数据集训练双transformer结合卷积神经网络的目标检测模型中的噪声滤除模块；
S306：使用声纳图像数据集训练IoU感知查询选择模块，使用声纳图像数据集训练用于初始化对象查询的边界框预测模块，使用声纳图像数据集训练与每个解码器对应的检测头。

技术领域
[0001]本发明涉及目标检测技术领域，尤其涉及一种双transformer结合卷积神经网络的小目标小样本学习方法。
背景技术
[0002]声纳是目前水下目标探测中最常用、最关键的设备，非常适合于探测海底的各种情况，为各种水下活动提供准确的先验信息，然而水下环境极具复杂性，因而声纳图像表现出小目标居多，目标形状轮廓模糊，特征细节差，易与周围环境发生混淆等特点。此外，由于真实场景声纳数据采集极为困难，技术成熟性能稳定的声纳设备较为昂贵，且后期声纳数据处理算法发展受限等原因，目前网络上公开的声纳数据集极为稀缺。再加上声学图像和光学图像本身存在一定的差异，因而目前基于深度学习方法的声纳图像目标检测算法的开发较为受限。进一步考虑各种水下目标检测任务对水下实况信息的实时需求，希望目标检测器的模型体积足够小，能够被部署应用于小型船舶能够搭载的低算力平台上对采集到的数据进行实时处理，避免和陆地设备之间数据传输产生的延迟，同时其推理速度足够快，使得前端设备或者人员能够快速得到目标定位与识别结果，以便于快速做出下一步的决策。基于上述需求，设计出小目标检测效果好、抗干扰能力强、模型体积小、推理速度快、且可以适用于各种类型水下声纳图像的目标检测器是一项非常有实际意义的任务。
[0003]目前目标检测领域的检测器主要分为两大主流架构：基于卷积神经网络架构（CNN-based）的目标检测器和基于transformer架构（Transformer-based）的目标检测器。CNN-based目标检测器一般包括卷积层、下采样层和全连接层，卷积层用来提取并细化来自一幅图像的特征信息，下采样层用来选取特征图上的感兴趣区域，全连接层建立特征与输出之间的映射关系。但是CNN-based目标检测器一般需要更为繁杂的人工筛选步骤和后处理过程，例如预选框预选取和非极大值抑制处理，这使得CNN-based目标检测器并非真正意义上的端到端检测器。Transformer-based的目标检测器一般包含卷积层、编码器、解码器和全连接层，在编码器中对卷积层提取的特征图信息进行自注意力处理，自注意力处理通过计算特征图各元素之间的注意力权重，能够捕捉全局上下文和长距离依赖关系，建立全局特征相关性，提高模型性能。解码器中一般包含自注意力处理和交叉注意力处理，交叉注意力处理能够建立可学习的对象查询（object query）与编码器输出特征之间的全局关联，并利用检测头对object query进行映射输出，最后利用二分图匹配方法进行匹配。基于Transformer的端到端目标检测网络（Detection Transformer，简称 DETR）抛弃了CNN-based目标检测器必须非极大值抑制处理及预选框选取等，实现真正意义上的端到端监测。
[0004]声呐数据集图像的小样本问题会导致检测器难以被充分地训练，且易造成过拟合情况。目前主要解决方案为迁移学习及样本扩充。样本扩充主要利用深度神经网络或其他方法生成类似的图像；迁移学习主要使用大规模图像数据集对检测器进行充分预训练，使检测器的各个模块具有强大的图像特征提取与处理能力，最后小样本声呐数据集上对检测器的部分模块进行单独微调训练。然而其使用的检测器都是基于CNN架构的目标检测器，虽然检测速度能够取得较为满意的效果，但是其仍然差异性地存在着小目标检测效果差，鲁棒性差等问题，其根本原因在于CNN是利用滑动窗口逐步地提取图像的局部特征并加以利用，难以考虑图像的全局特征，且其针对带噪声的图像并没有很好的解决方法。无法处理声呐图像的小目标较多、图像模糊及细节特征差等问题。
发明内容
[0005]本发明旨在至少解决相关技术中存在的技术问题之一。为此，本发明提供一种双transformer结合卷积神经网络的小目标小样本学习方法，本发明提高了声纳图像检测的准确性以及识别速度，提高了目标检测识别任务的自动化、智能化水平。
[0006]本发明提供一种双transformer结合卷积神经网络的小目标小样本学习方法，包括：
S101：通过卷积层提取输入图像的初级特征图，通过transformer网络和卷积神经网络处理初级特征图，获得第一特征图、第二特征图以及第三特征图；
S102：通过编码器对第三特征图进行自注意力处理，获得第三注意力特征图；
S103：通过噪声滤除模块对第一特征图、第二特征图以及第三注意力特征图进行噪声信息滤除处理，通过跨尺度特征融合模块将处理后的第一特征图、第二特征图以及第三注意力特征图进行特征融合，获得记忆特征图；
S104：通过IoU感知查询选择模块对记忆特征图进行查询处理，获得内容查询，通过边界框预测模块对内容查询处理，获得位置查询，通过将内容查询和位置查询相加，获得对象查询；
S105：通过解码器对对象查询进行自注意力处理以及通过解码器对对象查询和记忆特征图进行交叉注意力处理，获得预测特征图；
S106：通过对输入图像添加随机噪声，获得去噪组查询图，通过解码器对去噪组查询图和记忆特征图进行交叉注意力处理，获得去噪组预测特征图；
S107：通过对预测特征图进行二分图匹配计算损失，通过去噪组预测特征图进行二分图匹配计算损失，获得检测特征图。
[0007]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括所述S101步骤中，transformer网络包括Swin transformer模块、平均池化层，transformer网络分为四个阶段，每个阶段包括不同数量的Swin transformer模块并输出不同尺度的特征图，通过平均池化层进行初级特征图的下采样。
[0008]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括所述S101步骤中，卷积神经网络分为四个阶段，每个阶段包括不同数量和不同类型的卷积模块并输出不同尺度的特征图，通过卷积模块进行初级特征图的下采样。
[0009]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括所述S103步骤中，噪声滤除模块包括上通道和下通道，输入特征图通过上通道的深度分离卷积层和下通道的卷积层分别进行处理，将两个通道的输出特征图进行拼接，通过通道注意力模块将拼接后的特征图进行通道权重调整，通过卷积层对调整后的特征图进行信息融合并调整特征图通道数。
[0010]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括所述S104步骤中，IoU感知查询选择模块为解码器选择对象查询，并初始化对象查询的目标边界框信息和类别信息。
[0011]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括所述S105步骤中，交叉注意力处理采用可变形注意力机制。
[0012]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括所述S107步骤中，去噪组预测特征图计算损失函数使用二值交叉熵损失函数和IoU损失函数，使用二值交叉熵计算目标类别预测结果损失，使用IoU损失函数计算目标边界框预测结果损失，去噪组预测特征图损失为：

其中，为去噪组预测特征图损失，、，为目标真实类别，为真实目标边界框，为由、构成的矢量，为预测目标类别，为预测目标边界框，为由、构成的矢量，为目标类别预测结果的二值交叉熵损失，为目标边界框预测结果的IoU损失；
[0013]预测特征图的损失计算函数需要将IoU损失加入到目标类别损失计算中以保证IoU感知查询选择模块筛选时能够综合考虑目标边界框与真实目标边界框的IoU损失与目标类别损失，预测特征图的损失为：

其中，为预测特征图的损失；
[0014]IoU损失函数计算表达式为：

式中，为预测边框，为真实边框，为取交集，为取并集。
[0015]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括，双transformer结合卷积神经网络的目标检测模型的搭建流程包括：
S201：选取Transformer为基线网络架构，搭建TCDCNet主干网络；
S202：通过编码器和跨尺度特征融合模块搭建Neck网络；
S203：搭建IoU感知查询选择模块以及边界框预测模块；
S204：搭建6个解码器模块及解码器对应的检测头，每个解码器包含一次对象查询的自注意力处理和对象查询和记忆特征图交互的交叉注意力处理；
S205：设置噪声滤除模块，指导检测头与解码器对对象查询进行有效地处理与映射；
S206：使用二值交叉熵损失函数和IoU损失函数计算损失。
[0016]根据本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，还包括双transformer结合卷积神经网络的目标检测模型的训练过程包括：
S301：使用遥感图像目标检测任务的公开大型遥感数据集对双transformer结合卷积神经网络的目标检测模型进行预训练；
S302：根据网络中噪声滤除模块的参数量占总体网络的参数量的比例从遥感图像目标检测任务的公开大型遥感数据集中随机提取目标类别数均匀的图像，并添加随机噪声，获得遥感图像噪声数据集；
S303：根据网络中噪声滤除模块的参数量占总体网络的参数量的比例，从声纳图像数据集中随机提取目标类别数均匀的图像，并添加随机噪声，获得声纳图像噪声数据集；
S304：使用遥感图像噪声数据集及声纳图像噪声数据集组建噪声滤除数据集；
S305：使用噪声滤除数据集训练双transformer结合卷积神经网络的目标检测模型中的噪声滤除模块；
S306：使用声纳图像数据集训练IoU感知查询选择模块，使用声纳图像数据集训练用于初始化对象查询的边界框预测模块，使用声纳图像数据集训练与每个解码器对应的检测头。
[0017]本发明实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：
本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，主干网络使用Transformer与卷积两个通道分别对图像的全局特征及局部特征进行信息提取，并在不同阶段对其融合，提高检测器对声呐图像信息特征的利用效率；噪声滤除模块能够在信息层面滤除声呐图像中包含的噪声信息，同时不损害图像中的有用信息，从而提升检测器的实时性能。基于迁移学习思想设计了专属的训练方法，有效解决了声纳图像数据集小样本问题造成的检测器训练不充分问题。通过本发明的网络模型，可以提高对声纳图像检测的准确性以及识别速度，从而提高目标检测识别任务的自动化、智能化水平。
[0018]本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0019]为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0020]图1是本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法的流程示意图。
[0021]图2是本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法的双transformer结合卷积神经网络（T2C-DETR）模型搭建流程示意图。
[0022]图3是本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法的双transformer结合卷积神经网络（T2C-DETR）模型训练流程示意图。
具体实施方式
[0023]为使本发明的目的、技术方案和优点更加清楚，下面将对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下实施例用于说明本发明，但不能用来限制本发明的范围。
[0024]下面结合图1至图3描述本发明的一种双transformer结合卷积神经网络的小目标小样本学习方法。
[0025]搭建双transformer结合卷积神经网络（T2C-DETR）模型包括：
S201：选取Transformer为基线网络架构，搭建TCDCNet主干网络，TCDCNet主干网络用于提取输入图像的初级特征。
[0026]S202：通过编码器和跨尺度特征融合模块搭建Neck网络；Neck 网络用于将初级特征图调整为IoU感知查询选择模块能够处理的形式。
[0027]S203：搭建IoU感知查询选择模块以及边界框预测模块；IoU感知查询选择模块主要为解码器选择并初始化合适的高质量object query，降低query优化难度，加速模型的训练收敛；边界框预测模块用于使得到的object query包含更优质的目标边界框信息与类别信息。
[0028]S204：搭建6个解码器模块及解码器对应的检测头，每个解码器包含一次对象查询的自注意力处理和对象查询和memory交互的交叉注意力处理；交叉注意力机制采用可变形（deformable）注意力机制，能够显著减小注意力操作所需的计算损耗，加快模型收敛。
[0029]S205：设置噪声滤除模块，指导检测头与解码器对对象查询进行有效地处理与映射，加速模型的训练收敛。
[0030]S206：使用二值交叉熵损失函数和IoU损失函数计算损失。
[0031]在考虑了全局网络的情况下，还加入了对IoU感知query选择模块的考虑，在二值交叉熵损失（BCE）函数中加入IoU损失，在对全局结果并没有影响的情况下调节IoU感知query选择模块使其更倾向于选择同时具有高分类分数和高IoU的token来初始化解码器中的object query，也使得筛选剔除的token同时具有低分类分数和低IoU，达到更容易加速模型收敛的目的。
[0032]双transformer结合卷积神经网络（T2C-DETR）模型的训练过程包括：
S301：使用遥感图像目标检测任务的公开大型遥感数据集（DOTA遥感大型公开数据集）对双transformer结合卷积神经网络的目标检测模型进行预训练；
训练超参数的设置如下：训练迭代次数（epochs）为 72次、每次输入图像数量batch-size为 8、初始学习率为0.0001、使用指数移动平均（Exponential MovingAverage，简称EMA）方式进行训练、学习率衰减为0.9、权重衰减设置为 0.0005、输入图像分辨率为 640×640、优化器选择AdamW优化器（Adam Weight Decay Optimizer，简称AdamW）、动量为0.9。数据增强方法包括随机颜色变化、随机扩展、随机裁剪、随机翻转、随机尺寸变化与马赛克（mosaic）增强方法。
S302：根据网络中噪声滤除模块的参数量占总体网络的参数量的比例从遥感图像目标检测任务的公开大型遥感数据集中随机提取目标类别数均匀的图像，并添加随机噪声，获得遥感图像噪声数据集；
[0033]从步骤S301中使用的DOTA遥感大型公开数据集中随机抽取目标类别数均匀500张图像并保证其包含的目标类别数均匀，对其随机添加噪声。
S303：根据网络中噪声滤除模块的参数量占总体网络的参数量的比例，从声纳图像数据集中随机提取目标类别数均匀的图像，并添加随机噪声，获得声纳图像噪声数据集；
[0034]从自建声纳图像数据集中随机抽取200张图像并保证其包含的目标类别数均匀。
S304：使用遥感图像噪声数据集及声纳图像噪声数据集组建噪声滤除数据集；
S305：使用噪声滤除数据集训练双transformer结合卷积神经网络的目标检测模型中的噪声滤除模块；
[0035]训练 epochs数量为 24次，每次输入图像数量 batch-size为 8、初始学习率为0.0001、使用EMA方式进行训练、学习率衰减为0.9、权重衰减设置为 0.0005、输入图像分辨率为 640×640、优化器选择AdamW优化器、动量为0.9。数据增强方法包括随机颜色变化、随机扩展、随机裁剪、随机翻转、随机尺寸变化与mosaic增强方法。
[0036]S306：使用声纳图像数据集训练IoU感知查询选择模块，使用声纳图像数据集训练用于初始化对象查询的边界框预测模块，使用声纳图像数据集训练与每个解码器对应的检测头。
[0037]基于迁移学习思想进行训练，训练 epochs数量为 24次，每次输入图像数量batch-size为 8、初始学习率为0.0001、使用EMA方式进行训练、学习率衰减为0.9、权重衰减设置为 0.0005、输入图像分辨率为 640×640、优化器选择AdamW优化器、动量为0.9。数据增强方法包括随机颜色变化、随机扩展、随机裁剪、随机翻转、随机尺寸变化与mosaic增强方法。
[0038]通过以上训练得到适用于声呐图像目标检测任务的双transformer结合卷积神经网络的目标检测模型。
[0039]一种双transformer结合卷积神经网络的小目标小样本学习方法，包括：
S101：通过卷积层提取输入图像的初级特征图，通过transformer网络和卷积神经网络处理初级特征图，获得第一特征图、第二特征图以及第三特征图；
本实施例中，选用TCDCNet作为主干网络，图像尺寸是的输入图像首先经过一个的卷积层进行初级特征提取，获得初级特征图，然后将得到的初级特征图分别送入Transformer通道和Convolution通道中进行处理；
Transformer通道主要由一系列的Swin transformer模块、平均池化层与激活函数组成；Transformer通道包括四个阶段，每个阶段包括不同数量的Swin transformer模块并输出不同尺度的特征图；
Convolution通道主要由一系列不同的Convolution模块与激活函数组成；Convolution通道包括四个阶段，每个阶段包括不同数量和不同类型的Convolution模块并输出不同尺度的特征图。
[0040]优选地，Convolution通道中通过步长为2的卷积来执行特征图的下采样操作，Transformer通道中通过平均池化层来执行特征图的下采样操作，用以减小图像下采样中的信息损失。
在Convolution通道和Transformer通道不同阶段的结尾都会输出相同尺度的特征图信息，Transformer通道输出的特征图包含关于图像的全局信息，Convolution通道输出的特征图包含关于图像的局部信息；
[0041]本实施例中，将Transformer通道输出的特征图与Convolution通道输出的特征图进行concat拼接处理并经过一个卷积进行信息融合及调整通道数，获得尺寸为的第一特征图、尺寸为的第二特征图以及尺寸为的第三特征图，第一特征图、第二特征图以及第三特征图分别包含不同的语义信息与位置信息。
S102：通过编码器对第三特征图进行自注意力处理，获得第三注意力特征图；
S103：通过噪声滤除模块对第一特征图、第二特征图以及第三注意力特征图进行噪声信息滤除处理，通过跨尺度特征融合模块将处理后的第一特征图、第二特征图以及第三注意力特征图进行特征融合，获得记忆（memory）特征图；
本实施例中，将第一特征图、第二特征图以及第三注意力特征图分别送入噪声滤除模块（RNIM模块）进行噪声信息滤除处理；将处理后的第一特征图、第二特征图以及第三注意力特征图送入跨尺度特征融合模块进行特征融合，将融合处理后的三个特征图沿通道维度展开并拼接，调整为IoU感知查询（query）选择模块能够处理的memory特征图；
[0042]本实施例中，噪声滤除模块是双通道结构，噪声滤除模块包括上通道和下通道，输入特征图通过上通道的深度分离卷积层和下通道的卷积层分别进行处理，将两个通道的输出特征图进行拼接，通过通道注意力模块将拼接后的特征图进行通道权重调整，通过卷积层对调整后的特征图进行信息融合并调整特征图通道数。噪声滤除模块能够从信息层面将特征图中的噪声有效滤除，避免了使用常规手段去除滤波噪声带来的原图失真，最大限度保证信息的完整性。
S104：通过IoU感知query选择模块对记忆特征图进行查询处理，获得内容查询（content query），通过边界框预测模块对内容查询处理，获得位置查询（positionquery），通过将content query和position query相加，获得对象查询（object query）；
IoU感知query选择模块主要为解码器选择并初始化合适的高质量object query，降低query优化难度，加速模型的训练收敛；
本实施例中，目标的信息都包含在memory特征图中，且解码器所需的objectquery包含关于图像中感兴趣目标的边界框信息与语义信息，因而从memory中选取优质的token来初始化object query是合理的做法；
将memory特征图通过IoU感知query选择模块得到每一个token对应的类别评分，根据类别评分高低选择得分最高的300个token作为content query，并将这些token通过边界框预测模块得到对应的边界框预测结果，将其编码为position query，将content query与position query相加得到初始化的object query；
[0043]通过该方法得到的object query包含更优质的目标边界框信息与类别信息，在模型训练中更易于优化，加快模型的收敛速度。
S105：通过解码器对对象查询进行自注意力处理以及通过解码器对对象查询和记忆特征图进行交叉注意力处理，获得预测特征图；
本发明中目标检测器包含多个解码器模块，其具体数量可以根据检测任务对实时性的需求灵活调整且不需要重新训练，每个解码器都有对应检测头以输出检测结果；
在每个解码器中包含一次object query的自注意力处理和object query与memory交互的交叉注意力处理，
[0044]优选地，交叉注意力处理采用可变形（deformable）注意力机制，deformable注意力机制能够显著减小注意力操作所需的计算损耗，加快模型收敛。
S106：通过对输入图像添加随机噪声，获得去噪组查询图，通过解码器对去噪组查询图和记忆特征图进行交叉注意力处理，获得去噪组预测特征图；
[0045]去噪组的设置能够指导检测头和解码器对object query进行更有效地处理与映射，加速模型的训练收敛。
S107：通过对预测特征图进行二分图匹配计算损失，通过去噪组预测特征图进行二分图匹配计算损失，获得检测特征图；
[0046]去噪组预测特征图计算损失函数使用二值交叉熵损失函数和IoU损失函数，使用二值交叉熵计算目标类别预测结果损失，使用IoU损失函数计算目标边界框预测结果损失，去噪组预测特征图损失为：

其中，为去噪组预测特征图损失，、，为目标真实类别，为真实目标边界框，为由、构成的矢量，为预测目标类别，为预测目标边界框，为由、构成的矢量，为目标类别预测结果的二值交叉熵损失，为目标边界框预测结果的IoU损失；
[0047]将IoU损失加入到目标类别损失中，用以计算预测特征图的损失，预测特征图的损失为：

其中，为预测特征图的损失；
[0048]IoU损失函数计算表达式为：

式中，为预测边框，为真实边框，为取交集，为取并集。
[0049]IoU感知查询选择模块筛选时能够综合考虑目标边界框与真实目标边界框的IoU损失与目标类别损失，使最终筛选出的token同时具有较高的目标类别分数与检测框分数。
[0050]对于损失函数的设计，在考虑了全局网络的情况下，还加入了对IoU感知query选择模块的考虑，在二值交叉熵损失（BCE）函数中加入IoU损失，在对全局结果并没有影响的情况下调节IoU感知query选择模块使其更倾向于选择同时具有高分类分数和高IoU的token来初始化解码器中的object query，也使得筛选剔除的token同时具有低分类分数和低IoU，达到更容易加速模型收敛的目的。
[0051]本发明的有益效果是：本发明提供的一种双transformer结合卷积神经网络的小目标小样本学习方法，主干网络使用Transformer与卷积两个通道分别对图像的全局特征及局部特征进行信息提取，并在不同阶段对其融合，提高检测器对声呐图像信息特征的利用效率；噪声滤除模块能够在信息层面滤除声呐图像中包含的噪声信息，同时不损害图像中的有用信息，从而提升检测器的实时性能。基于迁移学习思想设计了专属的训练方法，有效解决了声纳图像数据集小样本问题造成的检测器训练不充分问题。通过本发明的网络模型，可以提高对声纳图像检测的准确性以及识别速度，从而提高目标检测识别任务的自动化、智能化水平。
[0052]最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

知识产权成果展示

专利详情

摘要