文章来源于书生 OpenGVLab,作者
图1:SAM 相关的模型在三维医学图像数据上的表现,SAM 和 SAM-Med2D 在空间上都出现了断层的现象,而 SAM-Med3D 在空间上具有更好的连贯性。
除了将 SAM 直接应用于三维数据,一些研究人员希望通过引入二维到三维的适配器(Adapter)来捕捉三维空间信息。如图2所示,这些方法通常在保持编码器(Image Encoder)不变的同时引入了三维适配器(Adapter),以使模型能够从三维图像中学习到三维空间信息。然而,这些方法存在两个主要限制:
1.数据规模有限:这些方法的模型通常只在有限的数据规模下进行训练(通常在1K到25K个mask范围内),并且只针对有限的目标类型。这限制了模型的泛化性能和适用范围。
2.冻结的二维编码器:现有的三维 SAM-based 模型一直坚守着冻结原始二维 SAM 编码器(Image Encoder)的设计范式,这限制了模型全面建模三维空间信息的能力,大大限制了 SAM 在三维医学图像处理领域的发展潜力。
因此,解决这些限制将需要更大规模的数据集、更广泛的目标类型,并且可能涉及新的架构设计来更好地应对三维医学图像的挑战。

SAM-Med3D尝试解决三维医学图像中
数据、模型、评估三大问题
01
数据层面
这一数据集的创建为进一步推动三维医学图像分割研究提供了丰富的资源和机会,有望帮助研究人员突破现有技术的瓶颈。
图3:(a)所有训练数据的类别统计词云图,共有 247 个类别。(b)不同三维医学图像数据集的图像(image)和掩码(mask)数量比较,作者收集的数据包含2.1万张三维图像和相应的13.1万个三维掩码,而 AMOS 和 TotalSegmentator 的图像数量不足2千,具有4种不同模态的 BraTS21 图像数量也不足1万。
02
模型层面
作者提出了 SAM-Med3D,这是一个所有参数均可学习的三维架构模型(无冻结的参数),如图3所示。此外,作者对 SAM-Med3D 的性能进行了全面评估。首先,作者使用了 15 个公共数据集来比较 SAM、SAM-Med2D 和 SAM-Med3D。然后,他们从解剖结构、模态和类别等不同角度进行深入分析,多维度评估了这些模型在三维医学影像分割中的性能。此外,作者还验证了 SAM-Med3D 的迁移能力:将其编码器用作预训练模型,在多个全监督分割任务中进行了验证。
综合全面的评估结果,SAM-Med3D 具有以下两个主要优势:
1.更高的效率:SAM-Med3D 的性能与在二维上微调的 SAM 相比更具竞争力,只需要更少的提示点便能达到更好的效果。与二维模型需要在每个切片上交互相比,SAM-Med3D 确保了医生和专业人员可以用快得多的速度来更方便地进行图像分割,这大大提高了模型在实际医学应用中的效率。
2.广泛的分割能力:SAM-Med3D 具有广泛的分割能力,能够处理各种不同的目标和三维模态。这种多功能性凸显了 SAM-Med3D 在各种临床环境中的潜在适用性,显示了它在处理各种医学成像挑战方面的适应性和有效性。
这些优势使 SAM-Med3D 有望成为一个在三维医学图像分割领域实现重大进展的模型,有望为医学专业人员和研究人员提供更强大的工具来处理三维医学图像。
03
评估SAM-Med3D
性能评估对于深入了解算法的能力以及提高算法的有效性和适用范围至关重要。在医学影像领域,SAM 相关模型的评估主要集中在二维医学图像上,如 X 射线或内窥镜图像,而在三维分割任务的评估方面存在明显的不足。考虑到在医学图像分析中,三维分割任务具有至关重要的作用,因此作者对 SAM、SAM-Med2D(用于医学图像的最先进的微调版SAM)以及所提出的 SAM-Med3D 进行了全面评估,旨在为三维医学图像上的可提示分割任务设定一个基准。
在数据方面,如上所述,作者基于 15 个不同的公共数据集构建了一个具有代表性的三维医学图像验证集。该数据集涵盖了各种不同的目标和模态。这项评估将有助于我们从多个维度(包括模态、解剖结构、器官和病变)研究SAM-Med3D 在三维医学图像分割任务中的性能。SAM-Med3D 的评估包括以下几个关键点:
1.总体性能比较和效率评估:作者比较了SAM、SAM-Med2D 和 SAM-Med3D 在三维医学图像分割任务上的性能和效率,从分割准确度和速度上进行了对比。评估模拟了临床场景:采用点提示模式进行交互式分割,评估了模型在不同维度下的性能和效率。
2.多维度的分析:除了整体性能指标外,评估还从多个维度来分析。这包括考察 SAM-Med3D 在不同图像模态、解剖结构、器官和病变下的性能。
3.提示点数量和三维全局交互:作者考虑了二维和三维场景下不同提示点的数量以及交互方式。SAM-Med3D 相对于二维方法 (SAM、SAM-Med2D) 表现出更高的可用性,同时只需要更少的提示点,因为它可以进行三维全局体积交互,而不是针对每个切片进行独立交互。
4.迁移性评估:作者还测试了 SAM-Med3D 编码器的迁移性,验证了其在不同新的基准任务上的性能;其良好的迁移性表明,SAM-Med3D 的图像编码器有望作为未来 3D 医学图像任务中的预训练模型。
这些评估角度提供了对模型全面的观察,有助于我们了解 SAM-Med3D 在三维医学图像分割任务中的性能、效率和潜力。
实验结果
01
总体表现
图5: SAM-Med3D在使用更少点击次数的情况下,获得了更好的性能。N表示待分割目标包含的切片(slice)数目,通常10 ≤ N ≤ 200。T_{inf}为N =100时所需的推理时间 (Inference time) 。
图6:从解剖结构和病变角度进行比较。A&T 表示腹部和胸部。SAM-Med3D 只需10个提示点(最后一行)即可取得比 SAM 和 SAM-Med2D 更好的性能,而后两者往往需要上百个提示点。图7: FT-SAM 和 SAM-Med2D 在 31 个器官中的分割性能比较
02
不同模态上的比较
图7:三张图展示了不同模型在不同模态下的性能对比,其中SAM-Med3D在所有模态下均展现出优异性能。需要指出的是,SAM 和 SAM-Med2D 使用的提示点是基于切片的,而 SAM-Med3D使用的则是基于体素的,导致后者所需提示点远少于前两者。即使SAM-Med3D没有使用超声(US)图像训练,其性能仍与 SAM-Me相当。
03
主要器官和病灶上的比较
04
迁移性评估
作者将 SAM-Med3D 预训练的 ViT 图像编码器迁移到 UNETR 中进行使用,发现能够获得效果上的提升,证明了作者提出的 SAM-Med3D 具有迁移能力,这将能够对三维医学图像领域的发展提供帮助。
03
定性评估
图10:在不同的解剖结构中,针对不同数量的点,对SAM、SAM-Med2D和SAM-Med3D进行可视化。作者同时展示了轴切片和冠状切片/矢状切片来全面说明三维结果。其中“Abd&Tho”表示腹部和胸部。
图11:在各种模式下,针对不同的点数,对SAM、SAM-Med2D和SAM-Med3D进行可视化。作者同时展示了轴切片和冠状/矢状切片来全面说明三维结果。
总结
在这项研究中,作者提出了 SAM-Med3D,这是一种专门用于3D体素医学图像分割的三维 SAM 模型。SAM-Med3D 在大规模的三维医学图像数据集上从头训练,其在不同组件中都采用了三维位置编码,直接整合三维空间信息,这使得它在体素医学图像分割任务中表现出卓越的性能。具体而言,SAM-Med3D 在提供仅一个提示点的情况下,相较于 SAM 在每个切片上提供一个提示点来说,性能提高了32.90%。这表明它能够在更少的提示点的情况下,在体素医学图像分割任务中取得更好的结果,这证明了它出色的可用性。
此外,作者还从多个角度广泛评估了 SAM-Med3D 的能力。对于不同的解剖结构,如骨骼、心脏和肌肉,在提供有限提示点的情况下,SAM-Med3D 明显优于其他方法。在不同的图像模态下,特别是核磁共振图像,通常需要比CT图像更多的提示点才能达到相同的性能,但 SAM-Med3D 在各种模态(包括核磁共振图像)、器官和病变下始终表现出色。此外,SAM-Med3D 的可迁移性也在不同的基准任务上经过了验证,该模型表现出了很强的潜力,因此 SAM-Med3D 有望成为一种强大的三维医学图像 Transformer 的预训练模型。
需要强调的是,不仅仅在数值结果方面,在可视化的结果中,SAM-Med3D 模型也表现出了更好的切片间的一致性和可用性。然而,三维模型在体积图像中的提示点变得更加稀疏,这增加了训练的难度。因此,如何更好地训练三维SAM仍然是需要进一步探索的领域,但这项研究为这一领域的未来发展提供了有力的方向和工具。
END
来源 | 书生 OpenGVLab
审核 | 医工学人

本篇文章来源于微信公众号: 医工学人