专利详情

标题基于局部到全局知识迁移的物体注意力挖掘方法及系统
[标]当前申请(专利权)人南开大学
申请日2022年3月30日
申请号CN202210324744.3
公开(公告)日2024年7月26日
公开(公告)号CN114913321B
授权日2024年7月26日
法律状态/事件授权发明
专利类型授权
发明人侯淇彬 | 姜鹏涛 | 杨雨奇
受理局中国
当前申请人(专利权)地址300110 天津市南开区卫津路94号 (天津,天津,南开区)
IPC分类号G06V10/25 | G06V10/26 | G06V10/774
国民经济行业分类号-
代理机构济南圣达知识产权代理有限公司
代理人张勇
被引用专利数量-
专利价值-

摘要

本发明属于图像处理技术领域,提供了基于局部到全局知识迁移的物体注意力挖掘方法及系统,本发明通过置了局部和全局两个模型,其中局部模型用于提取局部图像块中的注意力区域,而全局模型通过从局部模型中学习细节知识来提取较为完整的物体注意力图像。通过生成多视角下的注意力图像,能够发掘更多图像中的非显著性区域,通过设计了一种知识迁移损失函数,保证了在局部视角下的注意力信息能被有效迁移到全局模型上,生成的物体注意力区域能够在各种弱监督语义分割任务上发挥作用。

1.基于局部到全局知识迁移的物体注意力挖掘方法,其特征在于,包括如下步骤:
获取待挖掘全局图像;
根据待挖掘全局图像和物体注意力挖掘模型得到目标物体区域;
其中,所述物体注意力挖掘模型的构建过程为:基于局部模型和全局模型,将待挖掘全局图像随机分割为多个局部图像块,根据多个局部图像块和训练后的局部模型得到多视角下的注意力图像;基于待挖掘全局图像、多视角下的注意力图像和训练后的全局模型得到完整的注意力图像;
其中,所述全局模型训练过程中引入了注意力迁移和形状迁移损失函数;
所述注意力迁移函数为:

其中,N为局部视角的数量,Ai表示第i个局部注意力图像,Gi表示Softmax激活后的全局注意力图像在第i个局部视角对应的部分区域上截取的部分;
所述形状迁移损失函数为:

其中,N为局部视角的数量,Ai表示第i个局部注意力图像,Bi表示二值化后的Ai,Si表示显著性图像在第i个局部视角对应区域上截取的部分,Gi表示Softmax激活后的全局注意力图像在第i个局部视角对应区域上截取的部分。
2.如权利要求1所述的基于局部到全局知识迁移的物体注意力挖掘方法,其特征在于,采用注意力迁移损失函数训练全局模型的过程包括:
通过优化局部注意力图像和Softmax函数激活后的全局注意力图像间对应区域的损失函数,将局部视角下学习到的物体细节信息迁移到全局网络上。
3.如权利要求1所述的基于局部到全局知识迁移的物体注意力挖掘方法,其特征在于,采用形状迁移损失函数训练全局模型的过程包括:判断目标物体区域是否为显著性图像,若是,将多视角下的注意力图像进行二值化处理后与显著性图像进行逐元素乘法运算,将相乘得到的图像结果作为形状和细节信息来监督全局模型,否则直接采用多视角下的注意力图像进行监督训练。
4.基于局部到全局知识迁移的物体注意力挖掘系统,其特征在于,包括:
图像获取模块,被配置为:获取待挖掘全局图像;
目标物体区域获取模块,被配置为:根据待挖掘全局图像和物体注意力挖掘模型得到目标物体区域;
其中,所述物体注意力挖掘模型的构建过程为:基于局部模型和全局模型,将待挖掘全局图像随机分割为多个局部图像块,根据多个局部图像块和训练后的局部模型得到多视角下的注意力图像;基于待挖掘全局图像、多视角下的注意力图像和训练后的全局模型得到完整的注意力图像;
其中,所述全局模型训练过程中引入了注意力迁移和形状迁移损失函数;
所述注意力迁移函数为:

其中,N为局部视角的数量,Ai表示第i个局部注意力图像,Gi表示Softmax激活后的全局注意力图像在第i个局部视角对应的部分区域上截取的部分;
所述形状迁移损失函数为:

其中,N为局部视角的数量,Ai表示第i个局部注意力图像,Bi表示二值化后的Ai,Si表示显著性图像在第i个局部视角对应区域上截取的部分,Gi表示Softmax激活后的全局注意力图像在第i个局部视角对应区域上截取的部分。
5.如权利要求4所述的基于局部到全局知识迁移的物体注意力挖掘系统,其特征在于,采用形状迁移损失函数训练全局模型的过程包括:判断目标物体区域是否为显著性图像,若是,将多视角下的注意力图像进行二值化处理后与显著性图像进行逐元素乘法运算,将相乘得到的图像结果作为形状和细节信息来监督全局模型,否则直接采用多视角下的注意力图像进行监督训练。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的基于局部到全局知识迁移的物体注意力挖掘方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于局部到全局知识迁移的物体注意力挖掘方法中的步骤。

技术领域
[0001]本发明属于图像处理技术领域,尤其涉及基于局部到全局知识迁移的物体注意力挖掘方法及系统。
背景技术
[0002]本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
[0003]近年来,深度学习算法给语义分割任务带来了快速的发展。然而,训练语义分割的深度神经网络需要大量的像素级标签,而这会耗费大量的人力和资源。因此,为了减少对像素级标签的依赖,近年来有许多方法试图研究基于图像级标签的弱监督语义分割。若用阶段数区分,可将弱监督语义分割分为单阶段和双阶段两种。在单阶段弱监督语义分割中,一般直接用图像级别标签作为监督来训练端到端的分割网络。早期的方法将其看作是一个多实例学习问题。后来,George Papandreou提出了期望最大化方法,用中间预测结果监督语义分割网络。Bingfeng Zhang等在“Reliability does matter:An end-to-end weaklysupervised semantic segmentation approach”中将图像分类分支用于生成注意力图像并构建伪分割标签,从而监督另一个平行的分割分支。“Single-stage semanticsegmentation from image labels”方法中提出在训练时利用图像的外观先验特征生成伪标签。此外,Jianjun Chen等在“End-to-end boundary exploration for weakly-supervised semantic segmentatio”方法中用编码器-解码器网络构建了一个端到端的框架用于寻找图像边界。
[0004]虽然单阶段的弱监督语义分割方法取得一定成功,但从性能角度考虑距双阶段的弱监督语义分割方法仍有差距。双阶段的弱监督语义分割方法利用注意力图像生成分割伪标签,然后利用伪标签训练分割网络。因此,这一种方法的核心是生成高质量的注意力图像。Yunchao Wei等在“Object region mining with adversarial erasing:A simpleclassification to semantic segmentation approach”方法中提出了基于对抗擦除的策略,通过迭代性地擦除已挖掘地物体区域来驱动分类网络发现新的物体区域。Qibin Hou等在“Self-erasing network for integral object attention”方法中提出一种自擦除的策略防止注意力区域扩散到背景中。在此之后,Alexander Kolesnikov等在“Seed,expandand constrain:Three principles for weakly-supervised image segmentation”中提出了种子扩散的思想。后来,Peng-Tao Jiang等在“Integral object mining via onlineattention accumulation”中提出将不同训练阶段的注意力图像进行在线累加的策略。Yu-Ting Chang等在“Weakly-supervised semantic segmentation via sub-categoryexploration”中发掘子类别信息以强调非显著的物体区域。
[0005]除此之外,还有工作试图用准确的边界细化注意力图像,从而获得完整的物体区域。Jiwoon Ahn等在“Learning pixel-level semantic affinity with image-levelsupervision for weakly supervised semantic segmentation”中通过学习像素间相似度来传播注意力图像上的强响应区域。Seungho Lee等在“Railroad is not a train:Saliency as pseudo-pixel supervision for weakly supervised semanticsegmentation”中使用已生成的显著性图像作为区域监督促使模型生成高质量的注意力图像。
[0006]上述方法均把细化注意力图像的任务放在全局的视角下完成,存在的问题是:在单一的全局视角下,分类网络无法捕获到更多的物体细节信息,只能挖掘较少的非显著物体区域,生成的目标物体区域不明显或无法准确提取目标物体区域。
发明内容
[0007]为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于局部到全局知识迁移的物体注意力挖掘方法及系统,其设置了局部和全局两个模型,其中局部模型用于提取局部图像块中的注意力区域,而全局模型通过从局部模型中学习细节知识来提取较为完整的物体注意力图像;。
[0008]为了实现上述目的,本发明采用如下技术方案:
[0009]本发明的第一个方面提供一种基于局部到全局知识迁移的物体注意力挖掘方法,包括如下步骤:
[0010]获取待挖掘全局图像;
[0011]根据待挖掘全局图像和物体注意力挖掘模型得到目标物体区域;
[0012]其中,所述物体注意力挖掘模型的构建过程为:基于局部模型和全局模型,将待挖掘全局图像随机分割为多个局部图像块,根据多个局部图像块和训练后的局部模型得到多视角下的注意力图像;基于待挖掘全局图像、多视角下的注意力图像和训练后的全局模型得到完整的注意力图像。
[0013]本发明的第二个方面提供基于局部到全局知识迁移的物体注意力挖掘系统,包括:
[0014]图像获取模块,被配置为:获取待挖掘全局图像;
[0015]目标物体区域获取模块,被配置为:根据待挖掘全局图像和物体注意力挖掘模型得到目标物体区域;
[0016]其中,所述物体注意力挖掘模型的构建过程为:构建局部模型和全局模型,将待挖掘全局图像随机分割为多个局部图像块,根据多个局部图像块和训练后的局部模型得到多视角下的注意力图像;基于待挖掘全局图像、多视角下的注意力图像和训练后的全局模型得到完整的注意力图像。
[0017]本发明的第三个方面提供一种计算机可读存储介质。
[0018]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于局部到全局知识迁移的物体注意力挖掘方法中的步骤。
[0019]本发明的第四个方面提供一种计算机设备。
[0020]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于局部到全局知识迁移的物体注意力挖掘方法中的步骤。
[0021]与现有技术相比,本发明的有益效果是:
[0022]本发明通过置了局部和全局两个模型,其中局部模型用于提取局部图像块中的注意力区域,而全局模型通过从局部模型中学习细节知识来提取较为完整的物体注意力图像。
[0023]本发明通过生成多视角下的注意力图像,能够发掘更多图像中的非显著性区域,通过设计了一种知识迁移损失函数,保证了在局部视角下的注意力信息能被有效迁移到全局模型上,生成的物体注意力区域能够在各种弱监督语义分割任务上发挥作用。
[0024]本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0025]构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0026]图1是基于局部到全局知识迁移的物体注意力挖掘方法示意图;
[0027]图2是基于局部到全局知识迁移和迁移损失函数的物体注意力挖掘方法的示意图;
[0028]图3(a)-图3(d)是第一种图像下不同方法生成的注意力的比较图;
[0029]图4(a)-图4(d)是第二种图像下不同方法生成的注意力的比较图;
[0030]图5(a)-图5(d)是第三种图像下不同方法生成的注意力的比较图;
[0031]图6(a)-图6(g)为第四种图像下不同方法的弱监督语义分割效果图;
[0032]图7(a)-图7(g)为第五种图像下不同方法的弱监督语义分割效果图;
[0033]图8(a)-图8(g)为第六种图像下不同方法的弱监督语义分割效果图;
[0034]图9(a)-图9(g)为第七种图像下不同方法的弱监督语义分割效果图。
具体实施方式
[0035]下面结合附图与实施例对本发明作进一步说明。
[0036]应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0037]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0038]实施例一
[0039]如图1所示,本实施例提供基于局部到全局知识迁移的物体注意力挖掘方法,包括如下步骤:
[0040]S101:获取待挖掘全局图像;
[0041]S102:根据待挖掘全局图像和物体注意力挖掘模型得到目标物体区域;
[0042]其中,所述物体注意力挖掘模型的构建过程为:基于局部模型和全局模型,将待挖掘全局图像随机分割为多个局部图像块,根据多个局部图像块和训练后的局部模型得到多视角下的注意力图像;基于待挖掘全局图像、多视角下的注意力图像和训练后的全局模型得到完整的注意力图像。
[0043]上述技术方案的优点在于,其中局部模型用于提取局部图像块中的注意力区域,而全局模型通过从局部模型中学习细节知识来提取较为完整的物体注意力图像;本发明通过将全局图像分割为生成多视角下的注意力图像,使得本发明能够发掘更多图像中的非显著性区域。
[0044]作为一种或多种实施例,所述全局模型训练过程中引入了注意力迁移和形状迁移损失函数。
[0045]所述采用注意力迁移和形状迁移损失函数训练全局模型的过程包括:
[0046]通过优化局部注意力图像和Softmax函数激活后的全局注意力图像间对应区域的L2损失函数,可将局部视角下学习到的物体细节信息迁移到全局网络上,这一过程为注意力迁移。在此基础之上,本发明还使用已经生成的显著性图像与二值化后的局部注意力图像进行逐元素乘法,再计算其与全局注意力之间的损失函数。这一过程,即形状迁移,其目的是把显著性图像中包含的精确形状信息一同迁移到全局网络上。
[0047]作为一种或多种实施例,本发明设计了一种知识迁移损失函数,保证了在局部视角下的注意力信息能被有效迁移到全局模型上。
[0048]所述注意力迁移损失函数为:
[0049]其中,N为局部视角的数量,Ai表示第i个局部注意力图像,Gi表示Softmax激活后的全局注意力图像在第i个局部视角对应的部分区域上截取的部分。
[0050]所述形状迁移损失函数为:
[0051]其中,N为局部视角的数量,Ai表示第i个局部注意力图像,Bi表示二值化后的Ai,Si表示显著性图像在第i个局部视角对应区域上截取的部分,Gi表示Softmax激活后的全局注意力图像在第i个局部视角对应区域上截取的部分。
[0052]上述方案的优点在于,在训练过程中,局部模型以多个局部图像块为输入,全局模型以整体图像为输入,通过引入注意力迁移和形状迁移两种损失函数,将局部模型生成的含有丰富细节信息的注意力图像作为监督来训练全局模型;监督全局模型的损失函数能够将局部模型从多个局部图像提取的注意力图像和显著性图像的形状信息同时迁移到全局网络中。
[0053]如图1所示,在进行训练局部模型和全局模型时,局部网络以图像中随机切割的不同区域的图像块作为输入,全局网络以整张图像作为输入。
[0054]前向计算后,局部网络会输出局部图像块的注意力图像,这些局部的注意力图像被用于训练全局网络来学习各个区域中的细节知识,从而将局部网络的知识迁移到全局网络中,使得全局网络可以提取更为完整的注意力图像。
[0055]作为一种或多种实施例,如图2所示,所述全局模型进行训练时,判断目标物体区域是否为显著性图像,若是,将多视角下的注意力图像进行二值化处理后与显著性图像进行逐元素乘法运算,将相乘得到的图像结果作为形状和细节信息来监督全局模型,否则直接采用多视角下的注意力图像进行监督训练。
[0056]上述技术方案的目的是为了将显著性图像中的形状信息迁移到全局网络上,此外,因为并非所有图片都有显著物体,所以当显著性区域不存在时,则直接使用局部注意力图像进行监督,可以根据是否存在显著物体更能精准地得到识别结果。
[0057]如图3(a)-图3(d)、图4(a)-图4(d)以及图5(a)-图5(d)所示是三种图像下不同方法生成的注意力图像比较图,分别将局部网络生成的类别激活图像(Local),采用局部到全局模型的类别激活图像(L2G)以及采用局部到全局以及形状迁移的类别激活图像(L2G w/shape)进行对比,根据对比图可以看到,本发明采用的形状迁移的类别激活图像(L2G w/shape)方法得到的目标物体区域可以更加完整细致地提取出来。
[0058]如图6(a)-图6(g)、图7(a)-图7(g)、图8(a)-图8(g)以及图9(a)-图9(g)为所示为四种不同图像下不同方法的弱监督语义分割效果图,将一般网络生成的分割标签(CAM)、局部网络生成的分割标签(Local)、局部到全局框架生成的分割标签(L2G)、局部网络使用显著性图像进行细化的分割标签(Local+Shape)、局部到全局框架使用形状迁移生成的分割标签(L2G+Shape)以及手动标记的真实分割标签(GT)。
[0059]其中在VOC2012的扩展验证集上和真实标签的平均交并比分别为:一般网络(CAM)47.5%,局部网络(Local)50.0%,局部到全局框架(L2G)54.9%,局部网络使用显著性图像细化的分割标签(L2G+Shape)69.9%,局部到全局框架使用形状迁移生成的分割标签(L2G+Shape)72.1%。
[0060]通过对比上述分割效果得到本发明的方法在提取学习细节知识来提取较为完整的物体注意力图像的同时不会引入其他目标,因此准确率最高。
[0061]实施例二
[0062]本实施例提供基于局部到全局知识迁移的物体注意力挖掘系统,包括:
[0063]图像获取模块,被配置为:获取待挖掘全局图像;
[0064]目标物体区域获取模块,被配置为:根据待挖掘全局图像和物体注意力挖掘模型得到目标物体区域;
[0065]其中,所述物体注意力挖掘模型的构建过程为:构建局部模型和全局模型,将待挖掘全局图像随机分割为多个局部图像块,根据多个局部图像块和训练后的局部模型得到多视角下的注意力图像;基于待挖掘全局图像、多视角下的注意力图像和训练后的全局模型得到完整的注意力图像。
[0066]所述全局模型训练过程中引入了注意力迁移和形状迁移损失函数。
[0067]全局模型进行训练时,判断目标物体区域是否为显著性图像,若是,将多视角下的注意力图像进行二值化处理后与显著性图像进行逐元素乘法运算,将相乘得到的图像结果作为形状和细节信息来监督全局模型,否则直接采用多视角下的注意力图像进行监督训练。
[0068]实施例三
[0069]本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于局部到全局知识迁移的物体注意力挖掘方法中的步骤。
[0070]实施例四
[0071]本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于局部到全局知识迁移的物体注意力挖掘方法中的步骤。
[0072]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0073]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0074]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0075]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0076]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
[0077]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。