专利详情

标题一种基于协同监督的海面小行人检测方法
[标]当前申请(专利权)人南开大学
申请日2021年12月6日
申请号CN202111478512.5
公开(公告)日2024年8月2日
公开(公告)号CN114170633B
授权日2024年8月2日
法律状态/事件授权发明
专利类型授权
发明人盛晓颖 | 王恺 | 李涛
受理局中国
当前申请人(专利权)地址300350 天津市津南区同砚路38号 (天津,天津,津南区)
IPC分类号G06V40/10 | G06V10/82 | G06N3/045 | G06N3/084
国民经济行业分类号-
代理机构天津创智睿诚知识产权代理有限公司
代理人王海滨
被引用专利数量-
专利价值-

摘要

本发明公开一种基于协同监督的海面小行人检测方法,包括以下步骤:预处理小行人检测数据集,划分为训练集和测试集;根据人工标注的目标包围框生成小行人中心点标签、中心点精度偏移标签以及中心点到包围框上下左右边界的垂直距离标签;在训练过程中,根据预测的中心点精度偏移,自适应地调整中心点到包围框垂直距离标签,促使检测框回归任务协同优化;前向传播计算三种标签对应的损失,以特定的权重进行融合;损失层梯度反向传播,更新网络模型中的参数,引导模型筛选行人显著特征。本发明根据预测中心点偏移量的变化,自适应地改变中心点到包围框垂直距离标签,有效地弥补中心点预测难度高带来的检测框回归偏差,提高了模型小行人检测的能力。

1.一种基于协同监督的海面小行人检测方法,其特征在于,包括以下步骤:
步骤1:预处理海面小行人检测数据集,利用滑动窗口对训练图像进行裁剪;
步骤2:对裁剪后的小行人图像做数据增强,输入特征提取网络模型;
步骤3:在海面小行人检测数据集上优化训练特征提取网络模型;
步骤4:利用步骤3的特征提取网络模型提取海面小行人图像的高维特征矩阵;
步骤5:将步骤4提取的高维特征矩阵输入小行人检测网络模型,小行人检测网络模型包括三个并行的检测分支,分别为:中心点分类分支、中心点精度偏差回归分支、以及检测框边界回归分支,其中,所述中心点分类分支用于预测行人区域中心点的位置,输出特征图上各个像素点是行人区域中心点的置信度;所述中心点精度偏差回归分支用于预测步骤3的特征提取网络模型下采样带来的中心点精度偏差;所述检测框边界回归分支用于预测由前两个分支确定的中心点位置到检测框上下左右边界的垂直距离;
步骤6:前向传播,获取中心点分类分支预测的中心点置信度信息、中心点精度偏差回归分支预测的中心点精度偏差量信息以及检测框边界回归分支预测的中心点到检测框边界的距离向量信息;
步骤7:小行人检测网络模型训练阶段,根据中心点精度偏差回归分支预测的中心点精度偏差量信息,动态的计算预测的中心点位置到目标包围框的距离向量作为检测框边界回归分支的监督信息;
步骤8:计算小行人检测网络模型的三个检测分支的损失函数,将三个检测分支的损失以权重进行融合;
步骤9:损失层梯度反向传播,同步更新特征提取模型和检测分支的权值参数;
步骤10:重复步骤4-9,直至小行人检测网络模型收敛。
2.根据权利要求1所述的基于协同监督的海面小行人检测方法,其特征在于:步骤1中,使用滑动窗口对图像进行裁剪,两个滑动窗口之间沿当前方向的重叠为50像素,最终所有裁剪后的子图像的大小均为宽640、高512。
3.根据权利要求1所述的基于协同监督的海面小行人检测方法,其特征在于:步骤2中,数据增强包括:随机缩放、随机反转、随机裁剪、颜色空间变换、减均值除方差;其中,随机裁剪为在随机缩放后的图像上进行。
4.根据权利要求1所述的基于协同监督的海面小行人检测方法,其特征在于:步骤4中,将海面小行人图像数据输入特征提取网络模型,获取特征提取网络模型的最后一层输出的特征图。
5.根据权利要求4所述的基于协同监督的海面小行人检测方法,其特征在于:步骤4中,输出的特征图小于原图的大小。
6.根据权利要求1所述的基于协同监督的海面小行人检测方法,其特征在于:步骤7中,动态的计算预测的中心点位置到目标包围框的距离向量作为检测框边界回归分支的监督信息的公式化表示如下:

其中,分别表示预测的中心点位置到包围框上、下、左、右四条边的距离,和为目标包围框的高宽,和分别表示沿x轴和y轴方向的中心点精度偏差的真值,sx和sy分别表示沿x轴和y轴方向的中心点精度偏差的预测值。
7.根据权利要求6所述的基于协同监督的海面小行人检测方法,其特征在于:步骤8中,检测框边界回归分支的损失函数为Lsize,

其中,分别表示预测的中心点到第k个包围框上下左右四条边的距离,tk,lk,rk,bk则表示对应的预测值,N为目标包围框的个数;
中心点预测分支采用交叉熵损失Lcenter,中心点精度偏差回归分支采用L1回归损失Loffset;
将三个并行分支计算的中心点分类损失、中心点精度偏差损失和检测框大小损失以特定的权重融合,小行人检测网络模型的损失表示如下:
L=λ1Lcenter+λ2Loffset+λ3Lsize
λ1、λ2和λ3为权重。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被执行时实现如权利要求1至7中任一项所述的方法的步骤。

技术领域
[0001]本发明属于神经网络技术领域,具体涉及一种基于协同监督的海面小行人检测方法。
背景技术
[0002]海面小行人检测,即在海岸和海面情景下,对密集且微小的行人区域进行定位,可应用于海面搜救,海岸危险预警。相比于传统的目标检测任务有两大难点:其一,行人区域普遍较小,最小的区域面积仅为4个像素,为特征提取和检测任务设计均增加了难度。其二,海面情境下人体大部分区域被海水遮挡,且有很多仅露出头部的情况,易与波纹或其他异物混淆。海面小行人检测任务公开数据集TinyPerson,共包含746张训练集图像,786张测试集图像,数据采集自网络图像和视频片段。
[0003]目前的检测技术根据是否预设候选框,分为两大研究方向:Anchor-Based和Anchor-Free。Anchor-Based方法以Faster RCNN,SSD,RetinaNet为代表,在网络输出的一组特征图上,为每个像素点设置一组不同尺度和宽高比的预设候选框,将检测任务简化为候选框的分类和候选框位置的优化回归。Anchor-Free方法以CornerNet,FCOS,CenterNet为代表,将检测任务转化为预测检测框的关键点,采用分割的思想来解决目标检测问题,该类方法受益于FocalLoss和FPN,检测结果超过了部分Anchor-Based方法。
[0004]基于中心点的小行人检测方法存在两大问题,其一表现为中心点概念的模糊,考虑到人体姿态和形态的多样性,仅以包围框的中心点作为小行人的中心点是不稳定的。其二表现为中心点到包围框的距离向量对中心点偏差具有很强的依赖性,即随着中心点偏差向量的变化,中心点到包围框的距离向量也会随之改变,考虑到在网络训练前期,中心点偏差的预测会出现较大的抖动,如采用固定的包围框宽高作为标签,会极大的增加检测框边界回归分支收敛的难度。以往的研究中不得不为检测框边界回归分支设置较小的权重,但这直接造成了模型收敛缓慢,无法得到最优解。
发明内容
[0005]本发明的目的在于克服现有技术的不足,提供一种基于协同监督的海面小行人检测方法。该方法能够消除网络训练前期中心点位置预测不准带来的检测框回归偏差,引导检测网络模型在训练的过程中自适应地定位行人区域,加快回归分支的收敛速度,从而增大检测框与目标包围框的重叠率,提升检测性能。
[0006]本发明是通过以下技术方案实现的:
[0007]一种基于协同监督的海面小行人检测方法,包括以下步骤:
[0008]步骤1:预处理海面小行人检测数据集,利用滑动窗口对训练图像进行裁剪;
[0009]步骤2:对裁剪后的小行人图像做数据增强,输入特征提取网络模型;
[0010]步骤3:在海面小行人检测数据集上优化训练特征提取网络模型;
[0011]步骤4:利用步骤3的特征提取网络模型提取海面小行人图像的高维特征矩阵;
[0012]步骤5:将步骤4提取的高维特征矩阵输入小行人检测网络模型,小行人检测网络模型包括三个并行的检测分支,分别为:中心点分类分支、中心点精度偏差回归分支、以及检测框边界回归分支,其中,所述中心点分类分支用于预测行人区域中心点的位置,输出特征图上各个像素点是行人区域中心点的置信度;所述中心点精度偏差回归分支用于预测步骤3的特征提取网络模型下采样带来的中心点精度偏差;所述检测框边界回归分支用于预测由前两个分支确定的中心点位置到检测框上下左右边界的垂直距离;
[0013]步骤6:前向传播,获取中心点分类分支预测的中心点置信度信息、中心点精度偏差回归分支预测的中心点精度偏差量信息以及检测框边界回归分支预测的中心点到检测框边界的距离向量信息;
[0014]步骤7:小行人检测网络模型训练阶段,根据中心点精度偏差回归分支预测的中心点精度偏差量信息,动态的计算预测的中心点位置到目标包围框的距离向量作为检测框边界回归分支的监督信息;
[0015]步骤8:计算小行人检测网络模型的三个检测分支的损失函数,将三个检测分支的损失以权重进行融合。
[0016]步骤9:损失层梯度反向传播,同步更新特征提取模型和检测分支的权值参数;
[0017]步骤10:重复步骤4-9,直至模型收敛。
[0018]在上述技术方案中,步骤1中,使用滑动窗口对图像进行裁剪,两个滑动窗口之间沿当前方向的重叠为50像素,最终所有裁剪后的子图像的大小均为宽640、高512。
[0019]在上述技术方案中,步骤2中,数据增强包括:随机缩放、随机反转、随机裁剪、颜色空间变换、减均值除方差;其中,随机裁剪为在随机缩放后的图像上进行,裁剪出宽640、高512大小的区域,如果缩放后的图像大小小于这一尺寸,填0扩充,扩充到宽640、高512。
[0020]在上述技术方案中,步骤4中,将海面小行人图像数据输入特征提取网络模型,获取特征提取网络模型的最后一层输出的特征图。
[0021]在上述技术方案中,步骤4中,输出的特征图会小于原图的大小。
[0022]在上述技术方案中,步骤7中,动态的计算预测的中心点位置到目标包围框的距离向量作为检测框边界回归分支的监督信息的公式化表示如下:
[0023]
[0024]
[0025]
[0026]
[0027]其中,分别表示预测的中心点位置到包围框上、下、左、右四条边的距离,和为目标包围框的高宽,和分别表示沿x轴和y轴方向的中心点精度偏差的真值,sx和sy分别表示沿x轴和y轴方向的中心点精度偏差的预测值。
[0028]在上述技术方案中,步骤8中,检测框边界回归分支的损失函数为Lsize,
[0029]
[0030]其中,分别表示预测的中心点到第k个包围框上下左右四条边的距离,tk,lk,rk,bk则表示对应的预测值,N为目标包围框的个数;
[0031]中心点预测分支采用交叉熵损失Lcenter,中心点精度偏差回归分支采用L1回归损失Loffset;
[0032]将三个并行分支计算的中心点分类损失、中心点精度偏差损失和检测框大小损失以特定的权重融合,小行人检测网络模型的损失表示如下:
[0033]L=λ1Lcenter+λ2Loffset+λ3Lsize
[0034]λ1、λ2和λ3为权重。
[0035]本发明的优点和有益效果为:
[0036]本发明中采用双回归分支协同监督的思想,在训练过程中,根据中心点偏差的预测,自适应地调整中心点到包围框的距离向量标签,保证了检测框边界回归的一致性,可以加快模型收敛速度,更加精准地捕获海面行人区域。
[0037]考虑到海面小行人区域较小,本发明采用分割的思想来解决海面小行人检测问题。与CenterNet(ZhouXingyi等人于2019年发表在arxiv上的文章,“Objects as Points”)不同之处有两点,其一本发明使用滑动窗口预先裁剪的图像作为输入,而非在训练时随机裁剪,增强了训练的稳定性,提升了检测准确率;其二本发明设计了双回归分支协同监督的策略,在训练阶段根据中心点精度变化,动态调整包围框位置回归监督信息,增加了预测检测框的精准度。与专利“基于改进SSD算法的目标检测模型、方法及应用”(河北科技大学,甄然,CN112464982A)相比,本发明基于新的Anchor-Free技术,专注于海面特殊情景,考虑到小目标检测对于回归任务精度要求更高,且目前的指标当IoU阈值较高时精度下降较大,提出了针对小物体检测的回归分支协同监督优化策略。与专利“一种基于多任务损失函数的目标检测方法及系统”(北京电信易通信息技术股份有限公司,文彬,CN113313082A)相比,本发明的不同点在于借助损失函数间的关联性对检测框进行优化,而非通过设计多种相对独立任务的损失函数。
附图说明
[0038]图1是本发明基于协同监督的海面小行人检测方法的流程图;
[0039]图2是本发明中使用的TinyPerson数据集部分展示;
[0040]图3是本发明中检测框边界回归分支训练阶段损失变化曲线;
[0041]图4是本发明的海面小行人检测效果示意图。
[0042]对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
[0043]为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施例进一步说明本发明的技术方案。
[0044]实施例一
[0045]一种基于协同监督的海面小行人检测方法,如图所示,其包括以下步骤:
[0046]步骤1:预处理海面小行人检测数据集,划分为训练集和测试集(本实施例中采用TinyPerson公开数据集中的图像作为海面小行人检测数据集,共包含746张训练集图像,786张测试集图像,数据采集自网络图像和视频片段),使用滑动窗口对图像进行裁剪,两个滑动窗口之间沿当前方向的重叠为50像素,最终所有裁剪后的子图像的大小均为宽640、高512。部分裁剪后的图像如图2所示。
[0047]步骤2:对裁剪后的子图像进行数据增强,数据增强包括:随机缩放、随机反转、随机裁剪、颜色空间变换、减均值除方差;其中,随机裁剪为在随机缩放后的图像上进行,裁剪出宽640、高512大小的区域,如果缩放后的图像大小小于这一尺寸,填0扩充,扩充到宽640、高512。
[0048]步骤3:使用ImageNet公开数据集(ImageNet公开数据集是一个用于视觉对象识别软件研究的大型可视化数据库)训练特征提取网络模型,例如,ResNet18网络模型、ResNet50网络模型、DLA34网络模型,然后在步骤2的经数据增强后图像数据集上优化训练140轮,于第90和120轮将学习率衰减为当前值的0.1倍。
[0049]步骤4:利用步骤3的特征提取网络模型提取海面小行人图像的高维特征矩阵,表现为将海面小行人图像数据输入特征提取网络模型,获取特征提取网络模型的最后一层输出的特征图。通常情况下,输出的特征图会小于原图的大小,例如,输出的特征图大小为宽160高128(特征图的宽高为原图宽高的1/4),即特征图的图像大小为原图的1/16。
[0050]步骤5:将步骤4提取的高维特征矩阵输入小行人检测网络模型,小行人检测网络模型包括三个并行的检测分支,分别为:中心点分类分支、中心点精度偏差回归分支、以及检测框边界回归分支。其中,中心点分类分支用于预测行人区域中心点的位置[x,y],输出特征图上各个像素点是行人区域中心点的置信度;所述中心点精度偏差回归分支用于预测步骤3的特征提取网络模型下采样带来的中心点精度偏差,以一个输出特征图为输入图像大小1/16的模型为例,原图像中4x4区域的像素点会被映射到输出特征图上的一个像素点,这直接导致了4x4区域像素点的精确位置信息无法被还原,通过设置该分支的监督信息为下采样的精度偏差量[Δx,Δy]∈[-1,1],模型训练时对这个精度偏差量进行学习预测,可以弥补步骤3的特征提取网络模型下采样带来的精度偏差,解决下采样带来的精度损耗问题;检测框边界回归分支用于预测由前两个分支确定的中心点位置到检测框上下左右边界的垂直距离,检测框边界回归分支的监督信息为预测的中心点到目标包围框上下左右边界的距离,组成一个[Dt,Db,Dl,Dr]的距离向量。三个分支的输出通道数分别为2,2,4。
[0051]所述目标包围框和所述的检测框是不相同的,目标包围框指代标签中的行人区域位置信息,即提前人工标注的行人区域位置,是真实的行人区域位置;检测框指代模型预测的行人区域位置信息。根据预先人工标注的目标包围框,可生成小行人中心点标签(标签即监督信息)、中心点精度偏移标签(标签即监督信息)以及中心点到目标包围框上下左右边界的垂直距离标签(标签即监督信息)。
[0052]步骤6:前向传播,获取中心点分类分支预测的中心点置信度信息、中心点精度偏差回归分支预测的精度偏差量信息以及检测框边界回归分支预测的中心点到检测框边界的距离向量信息;其中,对中心点精度偏差回归分支的输出取tanh值,从而限制预测的沿x轴和y轴方向的精度偏差量[Δx,Δy]的范围在[-1,1]之间。
[0053]步骤7:训练阶段,检测框边界回归分支的监督信息采用动态调整的策略,即,根据中心点精度偏差回归分支预测的中心点精度偏差量信息,动态的计算预测的中心点位置到目标包围框的距离向量(即中心点位置到目标包围框的四条边的垂直距离)作为检测框边界回归分支的监督信息,当中心点精度偏差量预测距离目标有一定的偏差时,距离向量的监督信息也进行相应的调整,从而保证网络专注于行人区域,检测框边界预测的一致性,公式化表示如下:
[0054]
[0055]
[0056]
[0057]
[0058]其中分别表示预测的中心点位置到目标包围框上、下、左、右四条边的距离,和为目标包围框(真值检测框)的高宽,和分别表示沿x轴和y轴方向的中心点精度偏差的真值,sx和sy分别表示沿x轴和y轴方向的中心点精度偏差的预测值。
[0059]步骤8:计算小行人检测网络模型的三个检测分支的损失。
[0060]检测框边界回归分支的损失函数为Lsize,
[0061]
[0062]其中,分别表示预测的中心点到第k个包围框上下左右四条边的距离,tk,lk,rk,bk则表示对应的预测值,N为目标包围框的个数。
[0063]中心点预测分支采用交叉熵损失Lcenter,中心点精度偏差回归分支采用L1回归损失Loffset。
[0064]将三个并行分支计算的中心点分类损失、中心点精度偏差损失和检测框大小损失以特定的权重融合,小行人检测网络模型的损失表示如下:
[0065]L=λ1Lcenter+λ2Loffset+λ3Lsize
[0066]λ1、λ2和λ3为权重。
[0067]步骤9:损失层的梯度反向传播,更新特征提取模型和检测分支的权值参数。
[0068]步骤10:如果模型仍未收敛,或者是未达到数据迭代最大轮数,重复步骤5-10。
[0069]步骤11:网络训练结束之后,将测试集的整张图像作为输入,模型前向传播,得到小行人检测框。
[0070]实施例二
[0071]本实施例对上述实施例的协同监督的海面小行人检测方法进行评测,单独计算各个尺度检测框AP,在ResNet18、ResNet50和DLA-34上做对比试验,以证明本发明的协同监督的海面小行人检测方法的泛化能力和鲁棒性。
[0072]如图3所示,浅色曲线代表使用固定宽高作为检测框边界回归分支的监督信息时,该分支损失下降曲线;深色曲线代表使用双回归分支协同监督策略,检测框边界回归分支损失下降曲线。从图3中可以看出,使用双回归分支协同监督策略,可以使得检测框边界回归更快,从而增加检测框的几何精准度。
[0073]如图4所示,本专利展示了TinyPerson测试集的部分检测结果,为便于观察,从原图中截取并放大,第一行对应使用固定宽高作为检测框边界回归分支的监督信息时,模型检测结果;第二行对应使用本专利设计的协同监督策略时,模型的检测结果。从图示可以看出,采用协同监督策略后,检测框精准度更高,可视化结果进一步印证了,协同监督策略可以有效地优化检测框边界。
[0074]表2,表3,表4中量化的列出了实验AP(Average Precision)指标,该指标是物体检测领域的一个重要评价标准。表中Baseline表示使用固定宽高作为监督信息,CoGT表示采用本专利设计的协同监督策略,25,50,75表示评测时设定的IoU阈值,当使用ResNet18作为特征提取网络时,对于tiny尺度行人(即包围框面积开根号在[2,20]区间),AP50提升了1.64个百分点,当使用更深层,更复杂的ResNet50和DLA_34作为特征提取网络时,对于tiny尺度行人,AP50分别提升了1.47和0.7个百分点;对于所有尺度行人,采用协同监督策略,以ResNet18,ResNet50和DLA34为特征提取网络时,AP50分别提升了2.69,1.93和0.92个百分点,证明了协同监督策略的泛化能力。
[0075]如表5所示,当使用ResNet18作为特征提取网络时,实验统计了在测试集上行人包围框的召回率,从实验结果可以看出,当使用双回归分支协同监督策略时,召回率有1到2个百分点的提升。
[0076]表1 TinyPerson数据集各个尺度数据分布统计
[0077]
[0078]表2 ResNet18特征提取网络海面小行人检测指标对比
[0079]
[0080]表3 ResNet50特征提取网络海面小行人检测指标对比
[0081]
[0082]
[0083]表4 DLA34特征提取网络海面小行人检测指标对比
[0084]
[0085]表5 ResNet18特征提取网络海面小行人召回率对比
[0086]
[0087]以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。