专利详情

标题一种基于Transformer架构的红外图像目标检测方法
[标]当前申请(专利权)人南开大学
申请日2024年6月7日
申请号CN202410734068.6
公开(公告)日2024年9月24日
公开(公告)号CN118314333B
授权日2024年9月24日
法律状态/事件授权发明
专利类型授权
发明人张晓宇 | 杜祥润 | 檀盼龙 | 杨诗博
受理局中国
当前申请人(专利权)地址300071 天津市南开区卫津路94号 (天津,天津,南开区)
IPC分类号G06V10/25 | G06N3/0455 | G06N3/0464 | G06V10/44 | G06V10/764 | G06V10/80 | G06V10/82
国民经济行业分类号-
代理机构天津展誉专利代理有限公司
代理人齐文娟
被引用专利数量-
专利价值-

摘要

本发明涉及红外图像目标检测领域,提供一种基于Transformer架构的红外图像目标检测方法,该方法包括:通过主干网络提取红外图像中的特征信息,采用逐层卷积的方式,依次获得第一特征、第二特征和第三特征;通过AIFI模块对第三特征进行尺度交互,得到第四特征,将第四特征和第一特征、第二特征分别作为三个输入特征传递到特征融合模块进行融合,获得特征融合结果;通过感知查询模块对特征融合结果进行查询,获得候选框与目标图像间的交互信息;通过解码器对交互信息进行解码,获得候选框;通过检测头对候选框进行分类和定位,获得目标检测结果。本发明实现了具有更小算法规模和更高检测精度的红外图像目标检测方法。

1.一种基于Transformer架构的红外图像目标检测方法,其特征在于,包括如下步骤:
S1:通过主干网络提取红外图像中的特征信息,采用逐层卷积的方式,依次获得第一特征、第二特征和第三特征,包括:
S11:对红外图像进行卷积和最大池化计算,获得第一浅层特征;
S12:通过第一特征提取模块对第一浅层特征进行特征提取,获得第二浅层特征;
S13:对第二浅层特征进行卷积,实现特征通道扩充,通过第二特征提取模块对通道扩充结果进行特征提取,获得第一特征,同时将第一特征保存到第一存储模块,第二特征提取模块特征提取过程为:对通道扩充结果依次进行部分卷积、升维卷积、BN层、激活函数和降维卷积处理,实现特征映射,获得第一特征;
S14:对第一存储模块中的第一特征进行卷积,实现特征通道扩充,通过第三特征提取模块对通道扩充结果进行特征提取,获得第二特征,同时将第二特征保存到第二存储模块;
S15:对第二存储模块中的第二特征进行卷积,实现特征通道扩充,通过第四特征提取模块对通道扩充结果进行特征提取,获得第三特征,第四特征提取模块特征提取过程为:对通道扩充结果依次进行部分卷积、升维卷积、BN层、激活函数和降维卷积处理,实现特征映射,获得第三特征;
S2:通过AIFI模块对第三特征进行尺度交互,得到第四特征,将第四特征和第一特征、第二特征分别作为三个输入特征传递到特征融合模块进行融合,获得特征融合结果,过程包括:
S21:对第四特征上采样,实现与第二特征统一尺寸,获得第五特征,对第五特征进行CBS处理,对处理结果和第二特征进行拼接,通过第一注意力模块对拼接结果进行特征提取,获得第一注意力特征,同时将第一注意力特征保存到第一注意力存储模块,第一注意力模块特征提取过程包括:
S211:对拼接结果进行CBS处理,获得第一拼接层,同时将第一拼接层保存到第一拼接存储模块;
S212:通过第一注意力子模块对第一拼接层进行融合信息提取,获得第一融合特征;
S213:对第一融合特征和第一拼接存储模块中的第一拼接层进行求和,对求和结果进行CBS处理,获得第一注意力特征;
S22:对第一注意力特征上采样,实现与第一特征统一尺寸,获得第六特征,对第六特征进行CBS处理,对处理结果和第一特征进行拼接,通过第二注意力模块对拼接结果进行特征提取,获得第二注意力特征,同时将第二注意力特征保存到第二注意力存储模块,第二注意力模块特征提取过程包括:
S221:对拼接结果进行CBS处理,获得第二拼接层,同时将第二拼接层保存到第二拼接存储模块;
S222:通过第二注意力子模块对第二拼接层进行融合信息提取,获得第二融合特征;
S223:对第二融合特征和第二拼接存储模块中的第二拼接层进行求和,对求和结果进行CBS处理,获得第二注意力特征;
S23:对第二注意力特征进行CBS处理,对处理结果和第一注意力存储模块中的第一注意力特征进行拼接,通过第三注意力模块对拼接结果进行特征提取,获得第三注意力特征,同时将第三注意力特征保存到第三注意力存储模块,第三注意力模块特征提取过程包括:
S231:对拼接结果进行CBS处理,获得第三拼接层,同时将第三拼接层保存到第三拼接存储模块;
S232:通过第三注意力子模块对第三拼接层进行融合信息提取,获得第三融合特征;
S233:对第三融合特征和第三拼接存储模块中的第三拼接层进行求和,对求和结果进行CBS处理,获得第三注意力特征;
S24:对第三注意力特征进行CBS处理,对处理结果和第四特征进行拼接,通过第四注意力模块对拼接结果进行特征提取,获得第四注意力特征,第四注意力模块特征提取过程包括:
S241:对拼接结果进行CBS处理,获得第四拼接层,同时将第四拼接层保存到第四拼接存储模块;
S242:通过第四注意力子模块对第四拼接层进行融合信息提取,获得第四融合特征;
S243:对第四融合特征和第四拼接存储模块中的第四拼接层进行求和,对求和结果进行CBS处理,获得第四注意力特征;
S25:对第二注意力存储模块中的第二注意力特征、第三注意力存储模块中的第三注意力特征和第四注意力特征进行拼接,获得特征融合结果;
S3:通过感知查询模块对特征融合结果进行查询,获得候选框与目标图像间的交互信息;
S4:通过解码器对交互信息进行解码,获得候选框;
S5:通过检测头对候选框进行分类和定位,获得目标检测结果。
2.根据权利要求1所述的一种基于Transformer架构的红外图像目标检测方法,其特征在于,步骤212中,第一注意力子模块提取过程为:对第一拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第一拼接存储模块中的第一拼接层进行求和,获得第一融合特征;
步骤222中,第二注意力子模块提取过程为:对第二拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第二拼接存储模块中的第二拼接层进行求和,获得第二融合特征;
步骤232中,第三注意力子模块提取过程为:对第三拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第三拼接存储模块中的第三拼接层进行求和,获得第三融合特征;
步骤242中,第四注意力子模块提取过程为:对第四拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第四拼接存储模块中的第四拼接层进行求和,获得第四融合特征。
3.根据权利要求1所述的一种基于Transformer架构的红外图像目标检测方法,其特征在于,步骤S3中,感知查询模块采用贪婪查询或基于匈牙利算法的最佳匹配查询策略。
4.根据权利要求1所述的一种基于Transformer架构的红外图像目标检测方法,其特征在于,步骤S5中,检测头包括分类器和回归器,通过分类器对候选框进行目标类别确定,通过回归器对候选框进行定位。

技术领域
[0001]本发明涉及红外图像目标检测技术领域,尤其涉及一种基于Transformer架构的红外图像目标检测方法。
背景技术
[0002]红外图像的距离、噪声、空间分辨率差以及对环境温度变化的敏感性等特点,限制了红外图像模型的构建。传统的目标检测算法严重依赖于人工设计的特征和区域建议方法,包括基于滑动窗口和图像分割的技术。一些研究探索了利用空间滤波、频域滤波和稀疏表示等方法检测红外图像中目标的可能性。然而,这些传统的红外图像目标检测方法受到特定应用场景的限制,识别速度慢,泛化能力弱,并且在多场景和实时检测应用中难以提取重要特征。
[0003]早期的RCNN(区域卷积神经网络)系列算法在目标检测领域具有重要地位,它们通过候选框的生成和分类来检测目标,但存在一些不足之处。首先,这些方法通常需要独立的候选框生成和分类网络,导致算法复杂性较高,训练和推理过程较为耗时。其次,候选框的生成和分类是分开进行的,可能会导致一些候选框被重复检测或漏检的情况。此外,这些方法对于小目标的检测效果不佳,因为候选框的生成通常采用滑动窗口或选择性搜索等方法,容易丢失小目标或产生大量的候选框,增加了计算开销。YOLO(You Only Look Once)系列(如YOLOv1到YOLOv5)算法采用单个神经网络端到端地完成目标检测,具有实时性和简洁性的优点,但也存在一些缺点。首先,YOLO算法对小目标和密集目标的检测效果不如其他方法好,容易产生漏检或误检;其次,由于YOLO网络采用单一尺度的特征图进行目标检测,因此在处理多尺度目标时性能不够理想;此外,YOLO算法对目标的定位精度相对较低,容易产生边界框的偏差或错位。SSD(单步多框目标检测)系列算法通过引入多层卷积网络和多尺度特征图来改善目标检测性能,但也存在一些不足之处。首先,SSD算法采用固定尺度的默认框来进行目标检测,可能导致对不同尺度目标的适应性不足;其次,SSD算法在处理小目标和密集目标时性能较差,容易产生漏检或误检的情况;另外,SSD算法对于目标的定位精度不够高,可能会导致边界框的偏差或不准确。
[0004]RT-DETR(一种基于Transformer的实时目标检测架构)算法是一种基于Transformer网络的端到端目标检测方法,算法通过引入注意力机制和Transformer网络来实现端到端的目标检测,具有较好的性能和准确性。虽然具有很多优势,但也存在一些不足之处。RT-DETR由于Transformer网络在处理全局信息时的特性,在处理小目标和密集目标时可能效果不佳。RT-DETR网络结构的复杂性高,导致了较高的计算复杂度,在训练和推理过程中,需要大量的计算资源,限制了算法的实时性和适用性,其官方最小模型使用ResNet18为检测模型的主干网络,但仍有约20M的参数量和58 GFLOPs(每秒进行的十亿次浮点运算数量),其模型规模仍旧是巨大的,对于一些低算力的计算设备仍不友好。
发明内容
[0005]本发明旨在至少解决RT-DETR模型参数量和计算量大,对于低算力计算设备不友好和处理小目标效果不佳存在的技术问题之一。为此,本发明提供一种基于Transformer架构的红外图像目标检测方法。
[0006]本发明提供的一种基于Transformer架构的红外图像目标检测方法,包括如下步骤:
[0007]S1:通过主干网络提取红外图像中的特征信息,采用逐层卷积的方式,依次获得第一特征、第二特征和第三特征;
[0008]S2:通过AIFI模块对第三特征进行尺度交互,得到第四特征,将第四特征和第一特征、第二特征分别作为三个输入特征传递到特征融合模块进行融合,获得特征融合结果;
[0009]S3:通过感知查询模块对特征融合结果进行查询,获得候选框与目标图像间的交互信息;
[0010]S4:通过解码器对交互信息进行解码,获得候选框;
[0011]S5:通过检测头对候选框进行分类和定位,获得目标检测结果。
[0012]根据本发明提供的一种基于Transformer架构的红外图像目标检测方法,步骤S1包括:
[0013]S11:对红外图像进行卷积和最大池化计算,获得第一浅层特征;
[0014]S12:通过第一特征提取模块对第一浅层特征进行特征提取,获得第二浅层特征;
[0015]S13:对第二浅层特征进行卷积,实现特征通道扩充,通过第二特征提取模块对通道扩充结果进行特征提取,获得第一特征,同时将第一特征保存到第一存储模块;
[0016]S14:对第一存储模块中的第一特征进行卷积,实现特征通道扩充,通过第三特征提取模块对通道扩充结果进行特征提取,获得第二特征,同时将第二特征保存到第二存储模块;
[0017]S15:对第二存储模块中的第二特征进行卷积,实现特征通道扩充,通过第四特征提取模块对通道扩充结果进行特征提取,获得第三特征。
[0018]根据本发明提供的一种基于Transformer架构的红外图像目标检测方法,步骤S13中,第二特征提取模块特征提取过程为:对通道扩充结果依次进行部分卷积、升维卷积、BN层、激活函数和降维卷积处理,实现特征映射,获得第一特征;
[0019]步骤S15中,第四特征提取模块特征提取过程为:对通道扩充结果依次进行部分卷积、升维卷积、BN层、激活函数和降维卷积处理,实现特征映射,获得第三特征。
[0020]根据本发明提供的一种基于Transformer架构的红外图像目标检测方法,步骤S2中,将第四特征和第一特征、第二特征分别作为三个输入特征传递到特征融合模块进行融合,获得特征融合结果过程包括:
[0021]S21:对第四特征上采样,实现与第二特征统一尺寸,获得第五特征,对第五特征进行CBS处理,对处理结果和第二特征进行拼接,通过第一注意力模块对拼接结果进行特征提取,获得第一注意力特征,同时将第一注意力特征保存到第一注意力存储模块;
[0022]S22:对第一注意力特征上采样,实现与第一特征统一尺寸,获得第六特征,对第六特征进行CBS处理,对处理结果和第一特征进行拼接,通过第二注意力模块对拼接结果进行特征提取,获得第二注意力特征,同时将第二注意力特征保存到第二注意力存储模块;
[0023]S23:对第二注意力特征进行CBS处理,对处理结果和第一注意力存储模块中的第一注意力特征进行拼接,通过第三注意力模块对拼接结果进行特征提取,获得第三注意力特征,同时将第三注意力特征保存到第三注意力存储模块;
[0024]S24:对第三注意力特征进行CBS处理,对处理结果和第四特征进行拼接,通过第四注意力模块对拼接结果进行特征提取,获得第四注意力特征;
[0025]S25:对第二注意力存储模块中的第二注意力特征、第三注意力存储模块中的第三注意力特征和第四注意力特征进行拼接,获得特征融合结果。
[0026]根据本发明提供的一种基于Transformer架构的红外图像目标检测方法,步骤S21中,第一注意力模块特征提取过程包括:
[0027]S211:对拼接结果进行CBS处理,获得第一拼接层,同时将第一拼接层保存到第一拼接存储模块;
[0028]S212:通过第一注意力子模块对第一拼接层进行融合信息提取,获得第一融合特征;
[0029]S213:对第一融合特征和第一拼接存储模块中的第一拼接层进行求和,对求和结果进行CBS处理,获得第一注意力特征;
[0030]步骤S22中,第二注意力模块特征提取过程包括:
[0031]S221:对拼接结果进行CBS处理,获得第二拼接层,同时将第二拼接层保存到第二拼接存储模块;
[0032]S222:通过第二注意力子模块对第二拼接层进行融合信息提取,获得第二融合特征;
[0033]S223:对第二融合特征和第二拼接存储模块中的第二拼接层进行求和,对求和结果进行CBS处理,获得第二注意力特征;
[0034]步骤S23中,第三注意力模块特征提取过程包括:
[0035]S231:对拼接结果进行CBS处理,获得第三拼接层,同时将第三拼接层保存到第三拼接存储模块;
[0036]S232:通过第三注意力子模块对第三拼接层进行融合信息提取,获得第三融合特征;
[0037]S233:对第三融合特征和第三拼接存储模块中的第三拼接层进行求和,对求和结果进行CBS处理,获得第三注意力特征;
[0038]步骤S24中,第四注意力模块特征提取过程包括:
[0039]S241:对拼接结果进行CBS处理,获得第四拼接层,同时将第四拼接层保存到第四拼接存储模块;
[0040]S242:通过第四注意力子模块对第四拼接层进行融合信息提取,获得第四融合特征;
[0041]S243:对第四融合特征和第四拼接存储模块中的第四拼接层进行求和,对求和结果进行CBS处理,获得第四注意力特征。
[0042]根据本发明提供的一种基于Transformer架构的红外图像目标检测方法,步骤212中,第一注意力子模块提取过程为:对第一拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第一拼接存储模块中的第一拼接层进行求和,获得第一融合特征;
[0043]步骤222中,第二注意力子模块提取过程为:对第二拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第二拼接存储模块中的第二拼接层进行求和,获得第二融合特征;
[0044]步骤232中,第三注意力子模块提取过程为:对第三拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第三拼接存储模块中的第三拼接层进行求和,获得第三融合特征;
[0045]步骤242中,第四注意力子模块提取过程为:对第四拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第四拼接存储模块中的第四拼接层进行求和,获得第四融合特征。
[0046]根据本发明提供的一种基于Transformer架构的红外图像目标检测方法,步骤S3中,感知查询模块采用贪婪查询或基于匈牙利算法的最佳匹配查询策略。
[0047]根据本发明提供的一种基于Transformer架构的红外图像目标检测方法,步骤S5中,检测头包括分类器和回归器,通过分类器对候选框进行目标类别确定,通过回归器对候选框进行定位。
[0048]本发明实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
[0049]本发明提供的一种基于Transformer架构的红外图像目标检测方法,通过设计的主干网络提取红外图像中有用的特征信息,获得更能概括目标图像的第一特征、第二特征和第三特征,通过AIFI(尺度内特征交互)模块只对尺度最小、包含更丰富语义信息的第三特征进行自注意力处理,获得第四特征,减少了计算量;通过设计的特征融合模块对输入的第四特征和第一特征、第二特征进行融合,构建出更多样化和更具代表性的特征融合结果;通过感知查询模块、解码器和检测头,将特征融合结果转换为目标检测结果,提高目标检测的效率和目标检测的精度。
[0050]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0051]为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0052]图1是本发明提供的一种基于Transformer架构的红外图像目标检测方法的流程示意图。
具体实施方式
[0053]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下实施例用于说明本发明,但不能用来限制本发明的范围。
[0054]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0055]下面结合图1描述本发明提供的一种基于Transformer架构的红外图像目标检测方法。
[0056]本发明提供的一种基于Transformer架构的红外图像目标检测方法,包括如下步骤:
[0057]S1:通过主干网络提取红外图像中的特征信息,采用逐层卷积的方式,依次获得第一特征、第二特征和第三特征;
[0058]主干网络采用Faster-resnet18架构,Faster-resnet18是以ResNet18(网络深度是18层的残差网络)为基础的架构改进,其中ResNet18包括四个阶段(第一阶段、第二阶段、第三阶段和第四阶段)的残差模块。Faster-resnet18针对ResNet18中参数量较大的第二阶段和第四阶段的残差模块使用Fasternet(快速网络)中FasterBlock(快速块)进行替换,一方面减少在红外图像特征提取过程中对冗余特征的检测,从而减少主干网络参数量和计算量,实现轻量化降低算力浪费;另一方面继承ResNet18的残差模块,最大程度上保证主干网络的提取特征精度。
[0059]其中步骤S1包括:
[0060]S11:对红外图像进行卷积和最大池化计算,获得第一浅层特征;
[0061]最大池化可以保留红外图像中的主要特征,同时减少红外图像的大小,降低计算量;第一浅层特征的通道数为64。
[0062]S12:通过第一特征提取模块对第一浅层特征进行特征提取,获得第二浅层特征;
[0063]第一特征提取模块采用ResNet18第一阶段的残差模块,其中残差模块可以学习到残差信息,解决主干网络中梯度消失和梯度爆炸的问题,更好地进行特征提取和处理;第二浅层特征的通道数为64。
[0064]S13:对第二浅层特征进行卷积,实现特征通道扩充,通过第二特征提取模块对通道扩充结果进行特征提取,获得第一特征,同时将第一特征保存到第一存储模块;
[0065]采用卷积(卷积核尺寸为1×1)方式,实现特征通道扩充,即增加特征的通道数,这样能够捕捉到更复杂的特征,将第二浅层特征通道数扩充为128;其中第二特征提取模块采用8个FasterBlock,一方面FasterBlock仅对局部特征进行提取,减少冗余特征对算力的消耗,另一方面FasterBlock可以有效利用所有通道的特征信息,保证特征的多样性;第一特征的通道数为128。
[0066]S14:对第一存储模块中的第一特征进行卷积,实现特征通道扩充,通过第三特征提取模块对通道扩充结果进行特征提取,获得第二特征,同时将第二特征保存到第二存储模块;
[0067]采用卷积(卷积核尺寸为1×1)方式,将第一特征通道数扩充为256;第三特征提取模块采用ResNet18第三阶段的残差模块,与ResNet18第一阶段的残差模块作用一致;第二特征的通道数为256。
[0068]S15:对第二存储模块中的第二特征进行卷积,实现特征通道扩充,通过第四特征提取模块对通道扩充结果进行特征提取,获得第三特征;
[0069]采用卷积(卷积核尺寸为1×1)方式,将第二特征通道数扩充为512;第四特征提取模块采用2个FasterBlock;第三特征的通道数为512。
[0070]其中步骤S13中,第二特征提取模块特征提取过程为:对通道扩充结果依次进行部分卷积、升维卷积、BN层、激活函数和降维卷积处理,实现特征映射,获得第一特征;
[0071]其中步骤S15中,第四特征提取模块特征提取过程为:对通道扩充结果依次进行部分卷积、升维卷积、BN层、激活函数和降维卷积处理,实现特征映射,获得第三特征。
[0072]进一步地,第二特征提取模块和第四特征提取模块均采用FasterBlock,FasterBlock中依次进行部分卷积、升维卷积、BN层、激活函数和降维卷积处理,减少主干网络参数量和计算量的同时有效利用所有通道的特征信息,保证特征的多样性。
[0073]进一步地,部分卷积仅对四分之一的特征进行普通卷积以进行局部特征的提取,以减少冗余特征对算力的消耗并且摒弃了内存访问频率极大的深度可分离卷积。部分卷积浮点运算次数计算为:
[0074]
[0075]其中,是特征图的高,是特征图的宽,是卷积核的大小,是常规卷积作用的通道数。
[0076]在实际场景中实现时一般有,其中表示和两者的比值,是输入张量的全部通道数。所以仅仅为常规卷积浮点运算次数的1/16。
[0077]部分卷积内存访问数量计算为:
[0078]
[0079]仅仅为常规卷积内存访问数量的,其余的个通道不参与计算,所以无需进行内存访问。
[0080]为了充分有效地利用来自所有通道的信息,在部分卷积之后增加了点卷积进行所有特征的共同映射,所有特征映射浮点运算次数为:
[0081]
[0082]进一步地,升维卷积采用点卷积的方式增加通道数,实现升维,降维卷积采用点卷积的方式减少通道数,实现降维;采用升维卷积和降维卷积结合的方式,有效利用了所有通道的信息,进行所有特征的共同映射;在升维卷积和降维卷积之间依次添加BN(批量归一化)层和ReLU(修正线性单元)激活函数,一方面减少特征冗余,减少网络参数量和计算量,另一方面进行特征整合,保证特征的多样性,但是添加BN层和ReLU激活函数数量不宜过多,防止特征多样性受限。
[0083]S2:通过AIFI模块对第三特征进行尺度交互,得到第四特征,将第四特征和第一特征、第二特征分别作为三个输入特征传递到特征融合模块进行融合,获得特征融合结果;
[0084]通过主干网络输出的第一特征、第二特征和第三特征,全部输入到编码器中,其中编码器包括一个AIFI(尺度内特征交互)模块和一个PAN-FPN(路径聚合网络-特征金字塔网络)结构的特征融合模块,编码器负责对主干网络提取的特征在不同层次上进行处理和融合,增强特征的表达能力。
[0085]进一步地,AIFI模块仅对尺度最小、包含更丰富语义信息的第三特征进行尺度交互,即进行自注意力处理,提升尺度内特征交互能力,进行全局信息整合,得到第四特征。
[0086]进一步地,设计的特征融合模块采用以RT-DETR(一种基于Transformer的实时目标检测架构)特征融合部分为基础的PAN-FPN结构,包括四个注意力模块(第一注意力模块、第二注意力模块、第三注意力模块和第四注意力模块),四个注意力模块的结构和作用是一样的,一方面使得参数量显著减少、计算量降低,另一方面提高有效特征提取和融合的效率;第四特征和第一特征、第二特征分别作为三个输入特征通过特征融合模块进行特征融合,获得第二注意力特征、第三注意力特征和第四注意力特征;PAN-FPN结构,充分实现全局特征信息的融合,提升特征融合的效率。
[0087]其中步骤S2中,将第四特征和第一特征、第二特征分别作为三个输入特征传递到特征融合模块进行融合,获得特征融合结果过程包括:
[0088]S21:对第四特征上采样,实现与第二特征统一尺寸,获得第五特征,对第五特征进行CBS处理,对处理结果和第二特征进行拼接,通过第一注意力模块对拼接结果进行特征提取,获得第一注意力特征,同时将第一注意力特征保存到第一注意力存储模块;
[0089]S22:对第一注意力特征上采样,实现与第一特征统一尺寸,获得第六特征,对第六特征进行CBS处理,对处理结果和第一特征进行拼接,通过第二注意力模块对拼接结果进行特征提取,获得第二注意力特征,同时将第二注意力特征保存到第二注意力存储模块;
[0090]S23:对第二注意力特征进行CBS处理,对处理结果和第一注意力存储模块中的第一注意力特征进行拼接,通过第三注意力模块对拼接结果进行特征提取,获得第三注意力特征,同时将第三注意力特征保存到第三注意力存储模块;
[0091]S24:对第三注意力特征进行CBS处理,对处理结果和第四特征进行拼接,通过第四注意力模块对拼接结果进行特征提取,获得第四注意力特征;
[0092]S25:对第二注意力存储模块中的第二注意力特征、第三注意力存储模块中的第三注意力特征和第四注意力特征进行拼接,获得特征融合结果。
[0093]对高语义特征上采样后,使得高语义特征长宽与对应的低语义特征相同;CBS处理为依次经过一组卷积核尺寸为1×1的卷积、BN层和SiLU激活函数的处理,实现特征图及特征信息的保留;拼接采用concat(特征连接)的方式进行,将不同特征按照通道维度拼接在一起,以充分利用来自不同层次的特征信息,实现多尺度特征融合。
[0094]进一步地,每个注意力模块包括3个注意力子模块(即第一注意力模块包括3个第一注意力子模块,第二注意力模块包括3个第二注意力子模块,第三注意力模块包括3个第三注意力子模块,第四注意力模块包括3个第四注意力子模块)。其中每一个注意力子模块的结构和作用是一样的,减少参数量的同时高效地进行特征融合。
[0095]其中步骤S21中,第一注意力模块特征提取过程包括:
[0096]S211:对拼接结果进行CBS处理,获得第一拼接层,同时将第一拼接层保存到第一拼接存储模块;
[0097]S212:通过第一注意力子模块对第一拼接层进行融合信息提取,获得第一融合特征;
[0098]S213:对第一融合特征和第一拼接存储模块中的第一拼接层进行求和,对求和结果进行CBS处理,获得第一注意力特征;
[0099]其中步骤S22中,第二注意力模块特征提取过程包括:
[0100]S221:对拼接结果进行CBS处理,获得第二拼接层,同时将第二拼接层保存到第二拼接存储模块;
[0101]S222:通过第二注意力子模块对第二拼接层进行融合信息提取,获得第二融合特征;
[0102]S223:对第二融合特征和第二拼接存储模块中的第二拼接层进行求和,对求和结果进行CBS处理,获得第二注意力特征;
[0103]其中步骤S23中,第三注意力模块特征提取过程包括:
[0104]S231:对拼接结果进行CBS处理,获得第三拼接层,同时将第三拼接层保存到第三拼接存储模块;
[0105]S232:通过第三注意力子模块对第三拼接层进行融合信息提取,获得第三融合特征;
[0106]S233:对第三融合特征和第三拼接存储模块中的第三拼接层进行求和,对求和结果进行CBS处理,获得第三注意力特征;
[0107]其中步骤S24中,第四注意力模块特征提取过程包括:
[0108]S241:对拼接结果进行CBS处理,获得第四拼接层,同时将第四拼接层保存到第四拼接存储模块;
[0109]S242:通过第四注意力子模块对第四拼接层进行融合信息提取,获得第四融合特征;
[0110]S243:对第四融合特征和第四拼接存储模块中的第四拼接层进行求和,对求和结果进行CBS处理,获得第四注意力特征。
[0111]注意力子模块(包括第一注意力子模块、第二注意力子模块、第三注意力子模块和第四注意力子模块)为瓶颈结构,利用部分卷积,有效减少参数的数量,可能会导致特征提取效率下降,从而在一定程度降低融合效率,再利用EMA(无需降维的高效多尺度注意力),将部分通道重塑为批处理维度,避免特征通道维度减少,以保留每个通道的信息并降低计算成本,不仅对全局信息进行编码以调整并行子网络的信道权重,而且通过跨维交互将两个并行子网络的输出特征整合在一起,进一步轻量化同时提高有效特征融合效率和精度,从而提升目标检测精度。
[0112]其中步骤212中,第一注意力子模块提取过程为:对第一拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第一拼接存储模块中的第一拼接层进行求和,获得第一融合特征;
[0113]其中步骤222中,第二注意力子模块提取过程为:对第二拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第二拼接存储模块中的第二拼接层进行求和,获得第二融合特征;
[0114]其中步骤232中,第三注意力子模块提取过程为:对第三拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第三拼接存储模块中的第三拼接层进行求和,获得第三融合特征;
[0115]其中步骤242中,第四注意力子模块提取过程为:对第四拼接层依次进行部分卷积、BN层、EMA、BN层、激活函数和CBS处理,对处理结果和第四拼接存储模块中的第四拼接层进行求和,获得第四融合特征;
[0116]进一步地,EMA最初将输入特征映射沿着通道维度分成G组,记为:
[0117]
[0118]其中,表示第组的输入特征映射,表示第通道,为经过特征分组后特征图张量维度形状。
[0119]通过2条在1×1分支和1条在3×3分支上的平行路径来提取分组特征图的权重描述符,在1×1分支中采用了2个1维全局平均池化操作沿着2个空间方向对信息通道进行编码,并将2个编码特征连接起来,使其在1×1分支保持维度。再将1×1卷积后的输出重新分解为2个向量,使用2个Sigmoid非线性激活函数来拟合线性卷积上的2维二进制分布,最后通过乘法聚合通道注意力实现跨通道交互。在3×3分支中用1个3×3卷积以捕获多尺度特征表示,同时扩大特征空间。在跨空间学习部分利用二维全局平均池化对1×1支路的输出进行全局空间信息编码,2维全局池化计算为:
[0120]
[0121]其中,表示第通道的输入特征,表示个像素,表示个像素,和都是从1开始。
[0122]通过Softmax非线性函数来拟合线性变换,在3×3分支中用1个3×3卷积以捕获多尺度特征表示,扩大特征空间。同样利用二维全局平均池化在3×3分支编码全局空间信息,最后对两个空间的注意力权重进行整合,并通过Sigmoid函数捕获权重与特征图像素级的成对关系,得到不降维的融合特征。
[0123]S3:通过感知查询模块对特征融合结果进行查询,获得候选框与目标图像间的交互信息;
[0124]其中步骤S3中,感知查询模块采用贪婪查询或基于匈牙利算法的最佳匹配查询策略;
[0125]S4:通过解码器对交互信息进行解码,获得候选框;
[0126]S5:通过检测头对候选框进行分类和定位,获得目标检测结果;
[0127]其中步骤S5中,检测头包括分类器和回归器,通过分类器对候选框进行目标类别确定,通过回归器对候选框进行定位。
[0128]进一步地,采用RT-DETR的感知查询模块、解码器和检测头,用来保证高检测精度。
[0129]具体地,感知查询模块首先计算每个目标图像与所有候选框之间的交并比(IOU),得到一个交并比矩阵,然后对特征融合结果进行查询操作获取候选框与目标图像间的交互信息,为解码器提供高质量的初始化查询,这个过程可以采用贪婪查询或基于匈牙利算法的最佳匹配查询等策略。
[0130]感知查询模块获取的候选框与目标图像间交互信息输入解码器,通过解码器对交互信息解码后生成候选框。
[0131]检测头是红外图像目标检测方法的关键组成部分,包括分类器和回归器,负责在解码器输出的候选框基础上,通过分类器对候选框进行目标类别确定,通过回归器对候选框进行定位,生成最终的目标检测结果。检测头结构的内部通常由多个全连接层和卷积层组成,用于从解码器输出的候选框中提取目标类别和位置信息。检测头的设计考虑到了目标检测任务的特点,旨在实现高精度和高效率的目标检测。
[0132]在一个具体实施例中:
[0133]A1:组建红外图像目标检测训练集与验证集;
[0134]在模型训练的第一阶段,本发明方法选用FLIR(菲利尔公司)热红外图像目标检测数据集(在2018年7月发行,帮助开发人员开发并训练卷积神经网络)对本发明设计的目标检测网络架构(包括主干网络、编码器、感知查询模块、解码器和检测头)进行训练。
[0135]FLIR热红外数据集通过安装在车辆上的热像仪获得,使用前视红外热像仪FLIRTau2,参数设置为13mm f/1.0,45度水平视角(HFOV)和37度垂直视角(VFOV)获取热图像,两个摄像头都在默认模式下运行工作。红外热像仪FLIR Tau2的数据集一共包含14452张带标注的热图像,其中10228张来自短视频,4224张来自144秒的连续视频。
[0136]对数据集中三类标签数量较为合理的对象进行训练实验,最终分别选择“人”、“自行车”和“车”作为实验对象,训练集中的目标标注数量分别为“人”22372个、“自行车”3986个、“车”41260个,验证集中有“人”5779个、“自行车”471个、“车”5432个。训练以cocodataset-detection-eval(COCO数据集,已成为图像字幕的标准测试平台)作为准确性评估标准。
[0137]A2:对网络模型进行训练;
[0138]基于Pytorch深度学习框架对整体网络模型进行训练,并利用验证集对网络模型的性能进行验证。实验过程中均使用NVIDIA GeForce RTX 3080Ti显卡进行训练测试,实验参数设置如表1所示。
[0139]表1 实验参数设置
[0140]
[0141]其中,epochs代表模型训练轮数,batch size代表训练过程中每次选择批量数据的大小,workers代表指数据装载时cpu所使用的线程数,image size代表图片尺寸,amp代表自动混合精度训练,mosaic (probability)代表数据增强,optimizer代表优化器,finallr代表前馈神经网络学习速率,momentum代表动量,weight_decay代表权重衰减,旨在减少模型的复杂性,防止过拟合,warmup_epochs代表模型预热的训练轮数,warmup_momentum代表预热训练时的动量设置。
[0142]A3:组建新的红外图像目标检测数据集;
[0143]微调网络模型训练参数如batch size、final lr 、momentum等,对算法构建的网络模型进行多次训练以获得更优的训练结果,使网络模型具备更优的目标检测性能。
[0144]A4:输入训练好的目标检测模型,得到红外目标检测结果。
[0145]使用现有公共数据集以及使用红外成像设备获取红外图像并通过人工标注图像目标方式,混合组建新的红外图像目标检测数据集。选择使用PC(个人计算机)设备,将新组建的红外图像目标检测数据集图像输入训练好的本发明设计的网络模型中,获得最终的红外图像目标检测结果,实验结果如表2所示。
[0146]表2 实验结果
[0147]
[0148]其中,mAP(0.5)代表IOU(交并比)=0.5时目标检测平均准确率,mAP(0.5:0.95)代表IOU=0.5、0.55、0.6……0.95时目标检测平均准确率,mAR(0.5)代表平均召回率,Parameters(M)代表网络模型参数量,FLOPs(G)代表网络模型计算量。
[0149]mAP(0.5)、mAP(0.5:0.95)和mAR(0.5)数值越高,目标检测的准确度越高;Parameters(M)、FLOPs(G)数值越低,目标检测的网络模型越轻量化。
[0150]对于主干网络的轻量化,其参数的简化导致了一定程度上的精度下降;单独更换特征融合模块的改进在精度的指标上略高于RT-DETR模型;
[0151]对于本发明采用Faster-resnet18和特征融合模块并存的实验结果表明,具备部分卷积和EMA的特征融合模块在简化模型参数地同时将更多的注意力放在具体的物体特征上,能够实现更高效地特征提取,验证了提出的特征融合模块的有效性。
[0152]100轮左右训练后达到极为相近的精度水平。本发明提出的红外图像目标检测方法最高mAP(0.5:0.95)与RT-DETR模型达到相同数值,且本发明提出的红外图像目标检测方法相比较于RT-DETR模型方法的参数量降低约36.5%,计算量减少约27.4%,实现了一种具有更小的算法规模和更高的检测精度的红外图像目标检测方法。
[0153]本发明的有益效果是:本发明提出的一种基于Transformer架构的红外图像目标检测方法继承了RT-DETR的优秀之处,将物体检测任务转化为一个端到端的序列建模问题,通过自注意力机制实现了对物体序列的全局建模,不再依赖先验的候选框,从而消除了锚框的需求,具备优秀的红外图像目标检测精度。
[0154]本发明的红外图像目标检测方法使用了设计的主干网络Faster-resnet18,通过对特征进行部分卷积减少对冗余特征的检测,减少了模型参数量和计算量,实现了红外图像目标检测轻量化,同时继承ResNet18的残差模块,最大程度上保证主干网络的提取特征精度,从而保证红外图像目标检测的精度;本发明设计的特征融合模块利用部分卷积有效地减少了模型的参数数量,但这种轻量级的方法可能会导致特征提取效率下降,从而在一定程度上降低检测精度,同时本发明设计的特征融合模块在部分卷积的基础上利用高效多尺度注意力机制增加对有用特征的关注度实现有用特征筛选提取,避免了由于部分卷积带来的精度下降问题,实现了模型规模轻量化和检测精度的提高。
[0155]综上,本发明设计的Faster-resnet18构成轻量化红外图像目标检测主干网络,设计的特征融合模块通过部分卷积和多尺度注意力机制构成轻量且高效的融合模块,并沿用RT-DETR的后处理模块,实现了具有更小算法规模和更高检测精度的红外图像目标检测方法。
[0156]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。