一种基于SAM的医学图像分割方法、系统及产品

专利详情

标题一种基于SAM的医学图像分割方法、系统及产品

[标]当前申请(专利权)人南开大学 | 先进计算与关键软件(信创)海河实验室

申请日2024年7月10日

申请号CN202410919002.4

公开(公告)日2024年8月13日

公开(公告)号CN118485682A

专利类型发明申请

发明人吴彦林 | 王智弘 | 康宏 | 贺阿龙 | 李涛

受理局中国

当前申请人(专利权)地址300071 天津市南开区卫津路94号 (天津,天津,南开区)

IPC分类号G06T7/11 | G16H30/40 | G06N3/0455 | G06N3/0464 | G06N3/08 | G06T7/00 | G06V10/80

国民经济行业分类号I6571 | I6572 | I6579

代理机构天津展誉专利代理有限公司

代理人陈欣

摘要

本发明涉及医学图像分割技术领域，具体公开了一种基于SAM的医学图像分割方法、系统及产品，方法包括：将医学图像输入图像编码器得到图像编码向量；所述图像编码器包括依次连接的分块嵌入层和多个编码块，所述图像编码器内嵌有直觉感知微调适配器，所述直觉感知微调适配器将所述分块嵌入层的输出的共享投影特征融合到每个所述编码块的多头自注意力特征中；将提示内容输入提示编码器得到提示编码向量；将所述图像编码向量和提示编码向量拼接后输入掩码解码器，得到图像分割结果。本发明能够更准确、有效地处理医学图像数据，提高医疗诊断和治疗的精度和效率，实现SAM在医学图像处理领域的广泛应用。

1.一种基于SAM的医学图像分割方法，其特征在于，包括：
将医学图像输入图像编码器得到图像编码向量；所述图像编码器包括依次连接的分块嵌入层和多个编码块，所述图像编码器内嵌有直觉感知微调适配器，所述直觉感知微调适配器将所述分块嵌入层的输出的共享投影特征融合到每个所述编码块的多头自注意力特征中；
将提示内容输入提示编码器得到提示编码向量；
将所述图像编码向量和提示编码向量拼接后输入掩码解码器，得到图像分割结果。
2.如权利要求1所述的一种基于SAM的医学图像分割方法，其特征在于，所述直觉感知微调适配器的处理过程包括：所述多头自注意力特征经过归一化、下采样和激活后，与所述共享投影特征合并，得到合并特征，所述合并特征经过归一化、三重注意力机制、上采样，得到直觉特征。
3.如权利要求2所述的一种基于SAM的医学图像分割方法，其特征在于，所述三重注意力机制的处理过程包括：通过三个分支分别捕获所述合并特征的C维度和W维度之间的交互、C维度和H维度之间的交互以及W维度和H维度之间的交互，然后将三个交互结果平均。
4.如权利要求3所述的一种基于SAM的医学图像分割方法，其特征在于，三个所述分支分别为第一条分支、第二条分支和第三条分支；
第一条分支的处理过程包括：将所述合并特征沿H轴逆时针旋转90°，然后经过池化层、卷积层、归一化层、sigmoid激活函数，再沿H轴进行顺时针旋转90°，得到第一交互结果；
第二条分支的处理过程包括：将所述合并特征沿W轴逆时针旋转90°，然后经过池化层、卷积层、归一化层、sigmoid激活函数，再沿W轴进行顺时针旋转90°，得到第二交互结果；
第三条分支的处理过程包括：将所述合并特征经过池化层、卷积层、归一化层、sigmoid激活函数，得到注意权值，将所述注意权值与所述合并特征相乘，得到第三交互结果。
5.如权利要求1-4任一项所述的一种基于SAM的医学图像分割方法，其特征在于，所述编码块内嵌有多尺度域迁移适配器，所述多尺度域迁移适配器根据所述编码块的多层感知机的输入特征计算得到注意力权重，所述注意力权重与所述多层感知机的输出特征相乘。
6.如权利要求5所述的一种基于SAM的医学图像分割方法，其特征在于，所述多尺度域迁移适配器的处理过程包括：将所述多层感知机的输入特征经过卷积操作在通道维度进行降维处理，然后经过激活函数后，输入三个不同大小的卷积核，将得到的三个特征合并后，再经过归一化、GELU激活函数、1×1的卷积核恢复通道维度，再经过空间注意力机制，得到注意力权重。
7.如权利要求6所述的一种基于SAM的医学图像分割方法，其特征在于，三个不同大小的卷积核分别为1×1、3×3和5×5；
所述空间注意力机制的处理过程包括：将恢复通道维度后的特征经过全局平均池化、全局最大池化和7×7的卷积操作生成注意力权重。
8.如权利要求1所述的一种基于SAM的医学图像分割方法，其特征在于，所述图像编码器采用基于Masked Autoencoder预训练的Vision Transformer架构，包括1个分块嵌入层和12个Transformer编码块。
9.一种基于SAM的医学图像分割系统，其特征在于，用以执行如权利要求1至8任一项所述的一种基于SAM的医学图像分割方法，包括：图像编码器、提示编码器和掩码解码器，所述掩码解码器分别与所述图像编码器、提示编码器连接，
所述图像编码器，用于根据医学图像器得到图像编码向量；所述图像编码器包括依次连接的分块嵌入层和多个编码块，所述图像编码器内嵌有直觉感知微调适配器，所述直觉感知微调适配器将所述分块嵌入层的输出的共享投影特征融合到每个所述编码块的多头自注意力特征中；
所述提示编码器，用于根据提示内容得到提示编码向量；
所述掩码解码器，用于根据拼接后的所述图像编码向量和提示编码向量得到图像分割结果。
10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的一种基于SAM的医学图像分割方法。

技术领域
[0001]本发明涉及医学图像分割技术领域，尤其涉及一种医学图像分割方法、系统及产品。
背景技术
[0002]在医学图像分割领域，精确的图像分割对于计算机辅助诊断至关重要。自UNet模型提出以来，基于此架构的多种改进型版本相继出现，如UNet++和UNet3+，它们通过增强跳跃连接的信息传输能力，有效地提升了分割性能。随着视觉Transformer（ViT）的成功应用，研究人员开始探索将Transformer结构整合到医学图像分割中。例如，TransUNet在卷积层后引入Transformer来从低分辨率特征图中提取全局信息。SwinUNet采用SwinTransformer构建全Transformer的U形架构。TransFuse则同时构建CNN和Transformer编码器，充分利用两者的优势，减少网络深度的同时捕获高级和低级信息。
[0003]尽管这些模型在特定任务上展示了优越性，但它们往往需要针对特定任务进行网络设计，这限制了它们在不同医学分割任务中的可扩展性和可迁移性。为了克服这些局限，研究人员探索了对SAM（Segment Anything Model）的微调应用。SAM是由Meta AI研究团队开发的一个开创性的图像分割方法，它利用大型数据集和先进的机器学习技术，实现了卓越的零样本和少样本学习能力。SAM通过结合三个核心组件来引入一种新的图像分割方法：可提示的分割任务、分割模型和数据引擎。这些组件协同工作，使模型能够基于文本或空间提示动态地分割图像。1）可提示的分割任务：这项任务设计使得SAM能够解释和响应多种提示。这些提示可以简单如文本描述，或复杂如图像上的空间点。模型的目标是根据给定的提示生成有效的分割掩码，同时无缝处理输入中的歧义和变化。2）分割模型架构：模型架构分为三个主要部分：图像编码器：使用视觉变换器处理图像并创建全面的图像嵌入。提示编码器：将提示转换为模型可以解释的格式，无论是文本还是空间。掩码解码器：结合图像编码器和提示编码器的输入来生成准确的分割掩码。3）数据引擎：为了支持SAM的高需求数据，开发了一个健壮的数据引擎。这个引擎使用迭代过程来收集和精炼分割掩码。它从手动辅助标注阶段开始，并通过半自动和全自动阶段进行，使用模型本身生成高质量的掩码，随后用来进一步训练和精炼SAM。
[0004]SAM作为首个视觉基础模型，已被应用于图像恢复、检测等多种下游任务。然而，SAM在医学图像分割中的性能仍有待提升。随着数据和模型规模的增加，预训练大模型并将其迁移到下游任务的范式日益流行。在迁移学习过程中，研究者提出了参数高效的微调技术（PEFT），PEFT通过在预训练的大型模型上引入少量可训练的参数，如视觉提示调整（VPT）、Pro-tuning等，将学习到的通用特征转化为任务特定的特征。
[0005]如申请公布号CN117132776A的中国发明专利公开了一种多器官图像分割模型构建方法和分割方法，在所述预训练模型中增加控制模块获得第一模型，所述控制模块，连接编码器层encoder中的多头注意力模块Multi-headAttention，用于将多头注意力机制模块Multi-headAttention的特征进行处理与后续的全连接模块进行融合。又如申请公布号CN117496135A的中国发明专利公开了一种大模型高效调优的任意形状智能分割算法，使用平行于ViT主干的适配器，它并行的插入ViT主干，能够同时调整多头注意力层和前向传播层，利用适配器所增加的小部分参数；通过部分参数量的增加，调整冻结的ViT主干，在不破坏其参数泛化性的情况下，学习语义相关特征，使其能够适应各种下游任务，达到高效调优的效果。这些方法都是在模型微调期间在编码器的每一层添加一个适配器，以此调整每层获取的特征。然而，随着层数的增加，目标领域的信息不可避免地会有所丢失。另外，SAM主要在自然图像上进行训练，而这些图像与医学图像在性质上有很大的差异。医学图像通常具有低对比度，并且解剖结构多样，这使得直接应用这些模型到医学任务会导致性能大幅下降，而上述方法都没能很好的解决这一问题。
发明内容
[0006]本发明旨在解决SAM在医学图像分割中存在的分割结果的一致性和准确性不理想以及对医学图像适应性不高的问题。为此，本发明提供一种基于SAM的医学图像分割方法、系统及产品，能够更准确、有效地处理医学图像数据，提高医疗诊断和治疗的精度和效率，实现SAM在医学图像处理领域的广泛应用。
[0007]本发明提供一种基于SAM的医学图像分割方法，采用的技术方案如下：包括：
将医学图像输入图像编码器得到图像编码向量；所述图像编码器包括依次连接的分块嵌入层和多个编码块，所述图像编码器内嵌有直觉感知微调适配器，所述直觉感知微调适配器将所述分块嵌入层的输出的共享投影特征融合到每个所述编码块的多头自注意力特征中；
将提示内容输入提示编码器得到提示编码向量；
将所述图像编码向量和提示编码向量拼接后输入掩码解码器，得到图像分割结果。
[0008]进一步的，所述直觉感知微调适配器的处理过程包括：所述多头自注意力特征经过归一化、下采样和激活后，与所述共享投影特征合并，得到合并特征，所述合并特征经过归一化、三重注意力机制、上采样，得到直觉特征。
[0009]进一步的，所述三重注意力机制的处理过程包括：通过三个分支分别捕获所述合并特征的C维度和W维度之间的交互、C维度和H维度之间的交互以及W维度和H维度之间的交互，然后将三个交互结果平均。
进一步的，三个所述分支分别为第一条分支、第二条分支和第三条分支；
第一条分支的处理过程包括：将所述合并特征沿H轴逆时针旋转90°，然后经过池化层、卷积层、归一化层、sigmoid激活函数，再沿H轴进行顺时针旋转90°，得到第一交互结果；
第二条分支的处理过程包括：将所述合并特征沿W轴逆时针旋转90°，然后经过池化层、卷积层、归一化层、sigmoid激活函数，再沿W轴进行顺时针旋转90°，得到第二交互结果；
[0010]第三条分支的处理过程包括：将所述合并特征经过池化层、卷积层、归一化层、sigmoid激活函数，得到注意权值，将所述注意权值与所述合并特征相乘，得到第三交互结果。
[0011]进一步的，所述编码块内嵌有多尺度域迁移适配器，所述多尺度域迁移适配器根据所述编码块的多层感知机的输入特征计算得到注意力权重，所述注意力权重与所述多层感知机的输出特征相乘，能够捕捉多尺度的局部特征。
[0012]进一步的，所述多尺度域迁移适配器的处理过程包括：将所述多层感知机的输入特征经过卷积操作在通道维度进行降维处理，然后经过激活函数后，输入三个不同大小的卷积核，将得到的三个特征合并后，再经过归一化、GELU激活函数、1×1的卷积核恢复通道维度，再经过空间注意力机制，得到注意力权重。
进一步的，三个不同大小的卷积核分别为1×1、3×3和5×5；
[0013]所述空间注意力机制的处理过程包括：将恢复通道维度后的特征经过全局平均池化、全局最大池化和7×7的卷积操作生成注意力权重。
[0014]进一步的，所述图像编码器采用基于Masked Autoencoder预训练的VisionTransformer架构，包括1个分块嵌入层和12个Transformer编码块。
本发明还提供一种基于SAM的医学图像分割系统，采用的技术方案如下：包括：图像编码器、提示编码器和掩码解码器，所述掩码解码器分别与所述图像编码器、提示编码器连接，
所述图像编码器，用于根据医学图像器得到图像编码向量；所述图像编码器包括依次连接的分块嵌入层和多个编码块，所述图像编码器内嵌有直觉感知微调适配器，所述直觉感知微调适配器将所述分块嵌入层的输出的共享投影特征融合到每个所述编码块的多头自注意力特征中；
所述提示编码器，用于根据提示内容得到提示编码向量；
[0015]所述掩码解码器，用于根据拼接后的所述图像编码向量和提示编码向量得到图像分割结果。
[0016]本发明还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的一种基于SAM的医学图像分割方法。
[0017]本发明实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：
1.本发明设计的直觉感知微调适配器将额外的分支路径引入到每个Transformer编码块中，相比传统的图像编码器仅利用序列化的层输出，本发明能直接整合每一个编码块的初始和当前特征信息。直觉感知微调适配器使得每一个编码块都能更深入地感知到目标域的细节特征，因此本发明更适用于处理高复杂度的医学图像分割任务。通过这种直觉感知方式，模型不仅保留了更多有用的图像信息，也减少了在特征传递过程中的信息丢失。
[0018]2.本发明设计的多尺度域迁移适配器通过采用不同尺寸的卷积核来处理特征，相比于传统单尺度的特征处理方式，能更全面地捕捉从微观到宏观的多尺度特征。多尺度处理方法使得模型能够在不同的解析度上理解图像，从而提高了模型对复杂医学图像结构的识别精度和泛化能力。此外，多尺度域迁移适配器内采用了空间注意力机制，进一步增强了特征的表达力，使得模型能够聚焦于图像中最关键的部分，因此本发明具有更高的分割精度。
[0019]3.本发明综合使用直觉感知微调适配器和多尺度域迁移适配器，使得SAM整体模型架构能够有效地利用先进的注意力机制和多尺度卷积结构，与现有的医学图像分割方法相比，显著提高了特征的表达力和分割的准确性。通过直觉感知微调适配器和多尺度域迁移适配器，本发明不仅提高了医学图像分割的效率和准确性，还具备了更好的适应性和泛化能力，使其在实际医学应用中具有显著的优势。
[0020]本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0021]为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0022]图1是本发明提供的整体流程图。
[0023]图2是本发明提供的直觉感知微调适配器的流程图。
[0024]图3是本发明提供的多尺度域迁移适配器的流程图。
[0025]图4是本发明提供的图像分割结果示意图。
具体实施方式
[0026]为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下实施例用于说明本发明，但不能用来限制本发明的范围。
[0027]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0028]SAM作为首个视觉基础模型，包括图像编码器、提示编码器和掩码解码器，已被应用于图像恢复、检测等多种下游任务。然而，SAM在医学图像分割中的性能仍有待提升。随着数据和模型规模的增加，预训练大模型并将其迁移到下游任务的范式日益流行。在迁移学习过程中，研究者提出了PEFT，通过在预训练的大型模型上引入少量可训练的参数，将学习到的通用特征转化为任务特定的特征。现有的PEFT普遍是在模型微调期间在编码器的每一层添加一个适配器，以此调整每层获取的特征。然而，随着层数的增加，目标领域的信息不可避免地会有所丢失。另外，SAM主要在自然图像上进行训练，而这些图像与医学图像在性质上有很大的差异。医学图像通常具有低对比度，并且解剖结构多样，这使得直接应用这些模型到医学任务会导致性能大幅下降，而现有的微调方法都没能很好的解决这一问题。
[0029]本发明为了使SAM模型的图像编码器能够更好地适应特定的医学图像分割任务，引入了两种类型的适配器：直觉感知微调适配器和多尺度域迁移适配器。直觉感知微调适配器通过在每个Transformer编码块中加入额外的分支路径，允许模型在每个编码块都能感知到目标域的图像内容，并进行微调。这种方法不仅提高了特征的表达能力，也减少了信息在多层传递过程中的丢失。多尺度域迁移适配器则通过并行的三个卷积路径处理特征，能够捕捉到不同尺度的局部特征，有效地将学习到的特征从自然图像域迁移到医学图像域，增强了模型的泛化能力。
[0030]下面结合图1-图4对本发明做进一步详细说明，描述本发明的一种基于SAM的医学图像分割方法、系统及产品：
[0031]本实施例中，如图1所示，提供一种基于SAM的医学图像分割方法，包括以下步骤：
步骤1：对SAM的图像编码器进行改造，在原始的图像编码器中嵌入直觉感知微调适配器（IPF）和多尺度域迁移适配器（MDT）。
[0032]本实施例中，原始的图像编码器采用基于Masked Autoencoder预训练的VisionTransformer架构，专门用于从输入的医学图像中提取高维特征。Vision Transformer是一种基于注意力机制的模型，能够捕捉图像的全局依赖关系，从而更好地理解图像内容。原始的图像编码器包括依次连接的1个分块嵌入层和12个Transformer编码块。我们在原始的图像编码器中嵌入了1个直觉感知微调适配器和12个多尺度域迁移适配器（图1中仅画出了1个多尺度域迁移适配器）。
[0033]医学图像输入图像编码器后，医学图像通过分块嵌入层后划分为具有M个图像块的特征，然后由12个Transformer编码块进行逐步处理。
[0034]对于第l个Transformer编码块，l=1,2，...,12，特征作为输入，Transformer编码块的处理过程包括：
特征经过层归一化、多头自注意力，得到多头自注意力特征，所述多头自注意力特征和共享投影特征输入直觉感知微调适配器，得到直觉特征，所述直觉特征与特征相加，得到特征F1，所述特征F1经过层归一化后，得到特征F2，特征F2分别输入多层感知机和多尺度域迁移适配器，分别得到特征F3和注意力权重，将所述特征F3和注意力权重相乘的结果与所述特征F1相加，得到特征。
[0035]特征作为第l+1个Transformer编码块的输入。特征为图像编码器的输出，即图像编码向量。
[0036]所述直觉感知微调适配器中引入了一个额外的分支路径，将所述分块嵌入层的输出的共享投影特征融合到每个所述编码块的多头自注意力特征中，实现对目标域图像内容的直觉感知和微调，从而显著提升特征表示的质量和适应性。
[0037]如图2所示，所述直觉感知微调适配器的处理过程包括：所述多头自注意力特征经过归一化、下采样降维和激活后，与所述共享投影特征合并，得到合并特征，所述合并特征经过归一化、三重注意力机制、上采样升维，得到直觉特征。处理过程可以用下式表示：

其中，代表多头自注意力特征，代表共享投影特征，代表直觉特征，负责特征的下采样，，负责特征的上采样，，代表特征矩阵，r代表采样过程的中间维度，一般远小于初始维度d，TA代表三重注意力机制。
[0038]特征经过共享投影层处理，通过全连接操作的形式映射得到共享投影特征。
[0039]三重注意力机制利用空间和通道注意力，使得合并特征能更快地、准确地传输到目标领域。所述三重注意力机制主要包含三个分支，通过三个分支分别捕获所述合并特征的C维度和W维度之间的跨通道交互、C维度和H维度之间的跨通道交互以及W维度和H维度之间的交互，然后所述三重注意力机制将三个交互结果平均。三个所述分支分别命名为第一条分支、第二条分支和第三条分支。三重注意力机制的具体处理过程为：
第一条分支在H维度和C维度之间建立了交互，处理过程包括：将维度为(C×H×W)的所述合并特征沿H轴逆时针旋转90°，旋转后维度变为(W×H×C)；然后经过池化层，维度变为(2×H×C)；然后经过内核大小为7的标准卷积层，再经过批处理归一化层，维度变为(1×H×C)；再经过sigmoid激活函数，最后沿H轴进行顺时针旋转90°，得到和所述合并特征维度一致的第一交互结果。
[0040]第二条分支在C维度和W维度之间建立了交互，处理过程包括：将维度为(C×H×W)的所述合并特征沿W轴逆时针旋转90°，旋转后维度变为(H×C×W)；然后经过池化层，维度变为(2×C×W)；然后经过内核大小为7的标准卷积层，再经过批处理归一化层，维度变为(1×C×W)；再经过sigmoid激活函数，最后沿W轴进行顺时针旋转90°，得到和所述合并特征维度一致的第二交互结果。
[0041]第三条分支采用传统的空间注意力权重的计算，在H维度和W维度之间建立了交互，处理过程包括：将维度为(C×H×W)的所述合并特征经过池化层，维度变为(2×H×W)；然后经过内核大小为7的标准卷积层、批处理归一化层和sigmoid激活函数，得到形状为(1×H×W)的注意权值，将所述注意权值与所述合并特征相乘，得到第三交互结果。
[0042]计算第一交互结果、第二交互结果和第三交互结果的平均值，得到三重注意力机制的输出特征。
[0043]直觉感知微调适配器的结构特点在于其能够在每一个预训练编码块中直接访问和调整初始图像特征，以更好地适应目标任务。这种设计主要通过以下几个步骤实现：
图像分割与初始特征提取：医学图像被分割成多个小的图像块，每个图像块通过一个共享的线性投影层转换为共享投影特征。共享投影特征构成了图像编码器处理的基本单元。
[0044]特征处理与层间传递：图像编码器的每一个编码块采用多头自注意力和层正则化来逐层处理这些特征。在此基础上，IPF添加的分支将每个编码块的多头自注意力特征与共享投影特征进行合并，增强了特征的持续性和相关性。
[0045]直觉特征路径与三重注意力机制：在处理每个图像块特征时，除了标准的Transformer处理流程外，IPF还利用共享投影特征生成直觉特征，共享投影特征在每个编码块都被重新引入和融合。此外，IPF采用三重注意力机制对合并后的特征进行空间和通道的深入分析，这有助于更精准地捕获目标域的细节。
[0046]每个所述编码块内嵌有一个多尺度域迁移适配器。所述多尺度域迁移适配器根据所述编码块的多层感知机的输入特征计算得到注意力权重，所述注意力权重与所述多层感知机的输出特征相乘，可以捕捉多尺度的局部特征。多尺度域迁移适配器完全由卷积层组成，如图3所示，基于卷积操作在捕获局部特征和实现层次学习方面的优势，特别适合处理图像数据。
[0047]所述多尺度域迁移适配器的处理过程包括：将特征F2经过卷积操作在通道维度进行降维处理，这有助于减少特征的复杂性并为后续的多尺度处理做准备。然后经过激活函数后，输入三个不同大小的卷积核。三个不同大小的卷积核分别为1×1、3×3和5×5，分别针对不同尺度的特征进行优化，通过这种设计，多尺度域迁移适配器能够从细节到整体的各个层面上捕捉图像的重要特征，尤其是医学图像中从像素级到器官级不同尺度的特征。将经过三个不同大小的卷积核得到的三个特征合并，然后经过归一化、GELU激活函数重新激活，以统一和增强特征的表达力。然后经过1×1的卷积核恢复通道维度。最后经过空间注意力机制，通过全局平均池化、全局最大池化和7×7的卷积操作生成注意力权重。注意力权重将根据特征图中不同位置的重要性动态调整特征的响应，从而确保模型能够关注到医学图像中最关键的部分。
[0048]步骤2：将提示内容输入提示编码器得到提示编码向量。
[0049]步骤3：将所述图像编码向量和提示编码向量拼接后输入掩码解码器，得到图像分割结果。
[0050]本发明在训练SAM时，将原始的图像编码器的参数冻结，即在训练过程中不再更新；微调直觉感知微调适配器和多尺度域迁移适配器的参数。这样可以利用在大规模数据集上学习到的丰富视觉特征，而无需从头开始训练。所有输入图像分辨率统一调整为256×256。选择ViT-Base版本的预训练SAM作为基础模型。学习率设置为0.0001，最大训练周期设置为200。学习率衰减采用线性预热和余弦退火策略，预热周期为10个周期。批量大小设置为8。使用AdamW优化器进行优化，权重衰减设置为1e-8。为了增强训练稳定性并提高模型的分割性能，损失函数采用了结合dice损失和二元交叉熵损失的联合损失函数。然后验证本发明的医学图像分割效果。所有实验都在配备24GB内存的GeForce RTX 3090上进行。
[0051]本发明分别使用LiTS、ISIC、Kvasir、BUSI、CXML和FML数据集，验证本方法（Tran-SAM）和多个现有的视觉微调方法的效果。我们在SAM的图像编码器中添加了不同的视觉微调策略，评估了不同策略将SAM转移到医学图像分割任务的能力。我们对SAM进行了完整的微调，并将此结果用作基线参考。实验结果如表1所示。性能指标为Dice系数，Dice为预测的前景区域和真实的前景区域之间的重叠部分与它们的平均值之比。
表1 微调策略对比结果表

[0052]从表1中可以看出，LoRA和其改进版本GLoRA的性能与其他微调策略相比不够理想。在Kvasir和CXML数据集上，它们的性能甚至低于完整的微调策略。对于VPT，我们采用了两个版本：VPT_shallow仅在第一层Transformer中引入了可学习的标记，而VPT_deep在每层都添加了可学习的标记。然而，VPT在大多数任务上的表现并不理想，甚至在某些任务中表现出显著的性能下降，表现还不如完整的微调策略。尽管SSF在ISIC、Kvasir和FML数据集上取得了性能改进，但改进有限，且该策略的稳健性较差，在其他三个数据集上表现出性能下降。对于AdaptFormer，我们在三个版本上进行了实验：基础参数版本（Adapt_b，0.47M）、大参数版本（Adapt_l，28.36M）和巨大参数版本（Adapt_h，57.02M）。在实验中，Adapt_b在所有六个数据集上都取得了性能提升。随着模型大小的增加，大部分数据集的性能进一步提高。然而，随着参数数量的增加，LiTS和CXML数据集的性能略有下降。这表明AdaptFormer确实具有一定的有效性，但随着参数数量的增加，其性能改进的稳定性有所下降。相比之下，Trans-SAM在六个数据集上取得了比其他方法更显著的性能改进。
[0053]如图4所示，图4中的（a）和图4中的（b）分别为原图和标签；图4中的（c）-（f）分别为TransUNet、TransFuse、UCTransNet和Trans-SAM的分割效果。从图4中可以看出本方法在分割目标区域方面表现良好，即使面对具有挑战性的场景，例如目标组织与其周围结构之间的低对比度。这种能力在医学成像中具有特殊的意义，在医学成像中，组织外观的细微变化可以传递至关重要的诊断信息。本方法的显著性能可以归因于注意力机制的结合，这有效地减少了过度分割，它允许模型专注于相关区域，减轻无关特征和噪声的影响，从而提高整体鲁棒性和可推广性。
[0054]本发明还提供一种基于SAM的医学图像分割系统，如图1所示，采用的技术方案如下：基于SAM实现，包括：图像编码器、提示编码器和掩码解码器，所述掩码解码器分别与所述图像编码器、提示编码器连接。
[0055]所述图像编码器，用于根据医学图像器得到图像编码向量；所述图像编码器包括依次连接的分块嵌入层和多个编码块，所述图像编码器内嵌有直觉感知微调适配器，所述直觉感知微调适配器将所述分块嵌入层的输出的共享投影特征融合到每个所述编码块的多头自注意力特征中；所述编码块内嵌有多尺度域迁移适配器，所述多尺度域迁移适配器根据所述编码块的多层感知机的输入特征计算得到注意力权重，所述注意力权重与所述多层感知机的输出特征相乘，捕捉多尺度的局部特征。
[0056]所述提示编码器，用于根据提示内容得到提示编码向量。
[0057]所述掩码解码器，用于根据拼接后的所述图像编码向量和提示编码向量得到图像分割结果。
[0058]本系统的工作过程为：
将医学图像输入图像编码器，医学图像通过分块嵌入层后划分为具有M个图像块的特征，然后由12个Transformer编码块进行逐步处理。
[0059]特征经过共享投影层处理，通过全连接操作的形式映射得到共享投影特征。
[0060]对于第l个Transformer编码块，l=1,2，...,12，特征作为输入，Transformer编码块的处理过程包括：
特征经过层归一化、多头自注意力，得到多头自注意力特征，所述多头自注意力特征和共享投影特征输入直觉感知微调适配器，得到直觉特征，所述直觉特征与特征相加，得到特征F1，所述特征F1经过层归一化后，得到特征F2，特征F2分别输入多层感知机和多尺度域迁移适配器，分别得到特征F3和注意力权重，将所述特征F3和注意力权重相乘的结果与所述特征F1相加，得到特征。
[0061]特征作为第l+1个Transformer编码块的输入。特征为图像编码器的输出，即图像编码向量。图像编码器将图像编码向量传输至掩码解码器。
[0062]所述直觉感知微调适配器的处理过程包括：所述多头自注意力特征经过归一化、下采样降维和激活后，与所述共享投影特征合并，得到合并特征，所述合并特征经过归一化、三重注意力机制、上采样升维，得到直觉特征。
[0063]三重注意力机制的具体处理过程为：
第一条分支在H维度和C维度之间建立了交互，处理过程包括：将维度为(C×H×W)的所述合并特征沿H轴逆时针旋转90°，旋转后维度变为(W×H×C)；然后经过池化层，维度变为(2×H×C)；然后经过内核大小为7的标准卷积层，再经过批处理归一化层，维度变为(1×H×C)；再经过sigmoid激活函数，最后沿H轴进行顺时针旋转90°，得到和所述合并特征维度一致的第一交互结果。
[0064]第二条分支在C维度和W维度之间建立了交互，处理过程包括：将维度为(C×H×W)的所述合并特征沿W轴逆时针旋转90°，旋转后维度变为(H×C×W)；然后经过池化层，维度变为(2×C×W)；然后经过内核大小为7的标准卷积层，再经过批处理归一化层，维度变为(1×C×W)；再经过sigmoid激活函数，最后沿W轴进行顺时针旋转90°，得到和所述合并特征维度一致的第二交互结果。
[0065]第三条分支采用传统的空间注意力权重的计算，在H维度和W维度之间建立了交互，处理过程包括：将维度为(C×H×W)的所述合并特征经过池化层，维度变为(2×H×W)；然后经过内核大小为7的标准卷积层、批处理归一化层和sigmoid激活函数，得到形状为(1×H×W)的注意权值，将所述注意权值与所述合并特征相乘，得到第三交互结果。
[0066]计算第一交互结果、第二交互结果和第三交互结果的平均值，得到三重注意力机制的输出特征。
[0067]所述多尺度域迁移适配器的处理过程包括：将特征F2经过卷积操作在通道维度进行降维处理。然后经过激活函数后，输入三个不同大小的卷积核，三个不同大小的卷积核分别为1×1、3×3和5×5。将经过三个不同大小的卷积核得到的三个特征合并，然后经过归一化、GELU激活函数重新激活。再经过1×1的卷积核恢复通道维度。最后经过空间注意力机制，通过全局平均池化、全局最大池化和7×7的卷积操作生成注意力权重。
[0068]将提示内容输入所述提示编码器，得到提示编码向量。所述提示编码器将提示编码向量传输至所述掩码解码器。
[0069]所述掩码解码器根据所述图像编码向量和提示编码向量拼接结果，计算得到图像分割结果。
[0070]本发明还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的一种基于SAM的医学图像分割方法。
[0071]最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

知识产权成果展示

专利详情

摘要