上科大沈定刚教授团队最新综述|当视觉语言预训练模型CLIP遇上医学影像

2 0 23 年
  • 标题:CLIP in Medical Imaging: A Comprehensive Survey

  • DOI:arXiv:2312.07353

  • 作者:上海科技大学生物医学工程学院沈定刚团队

  • Github:https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging (点击原文链接,欢迎交流star!)

  • 关注公众号,回复【CLIP-20231213】获论文PDF最新版。

目录
1 摘要
2 介绍
    1.1 动机和贡献
    1.2 论文组织。
2 背景:
    2.1 架构方面
    2.2  对比预训练
    2.3 零样本学习能力
    2.4 CLIP 的通用性
    2.5 CLIP的变体
    2.6 医学图文数据集
3 针对医学图像改进的CLIP预训练
     3.1. CLIP预训练的挑战
       3.1.1 多尺度特征
        3.1.2 数据稀缺
        3.1.3 较高的专业知识要求
     3.2 多尺度对比
     3.3 数据高效对比
       3.3.1 基于样本互相关的对比
        3.3.2 数据增强式预训练
     3.4 知识增强
     3.5 总结    
4 CLIP驱动的计算机辅助诊断方法
    4.1 分类
        4.1.1 零样本分类
        4.1.2 上下文优化
    4.2 密集预测
        4.2.1 检测
        4.2.2 2D医学图像分割
        4.2.3 3D医学图像分割
        4.2.4 其他任务
    4.3 跨模态
        4.3.1 报告生成
        4.3.2 医学视觉问答
        4.3.3 图像文字检索
    4.4 总结
5 讨论与未来工作方向
6 结论

  

1 摘要

Contrastive Language Image Pre-training(CLIP)是一种简单而有效的预训练范式,其成功地将语义丰富的文本监督引入视觉模型,并因通用性和可解释性在各种任务中展现出其潜在价值。最近,CLIP在医学影像领域引起了越来越多的关注,无论是作为一种强大的医学视觉语言预训练的范式,还是作为各种先进的计算机辅助诊断方法的关键组件。为了促进对这个有前途的方向有更深入的理解,本文在医学影像领域内对CLIP范式进行了深入探索。   
  1. 从对CLIP方法论基础的简要介绍开始。
  2. 然后,我们调查了CLIP预训练在医学领域中的应用,重点关注如何优化CLIP以适应医学图像和报告的特征。
  3. 此外,我们探讨了在各种任务中实际利用CLIP预训练模型的可能性,包括分类、密集预测和跨模态任务。
  4. 最后,我们讨论了CLIP在医学影像背景下现存的局限性,并提出了前瞻性的方向,以满足医学影像领域的需求。我们期望这份全面的调查将为医学图像分析领域的研究人员提供对CLIP范式及其潜在影响的整体理解。
图1.  对于医学影像领域中CLIP相关研究的分类。
              
图2.  近年来专注于CLIP在医学影像领域的论文数量。我们按时间顺序对这些论文进行了分类(Q代表季度),显示出了指数增长的趋势。
           

2 介绍  

尽管过去十年中视觉智能取得了显著进展(He等人,2016;Tarvainen和Valpola,2017;Dosovitskiy等人,2020;Liu等人,2021b,2022b),但仅基于视觉的模型通常是在预定义的注释类别上进行训练的,这会极大地限制编码知识的范围。尽管一些自监督方法(Wu等人,2018;Komodakis和Gidaris,2018;Zbontar等人,2021)已被提出以消除此类限制,但它们仍然局限于训练集中出现的视觉特征。相比之下,文本监督形式在语义上自然丰富,并且对应的语言模型,特别是当今的大型语言模型(Touvron等人,2023;Xiong等人,2023;Zhang等人,2023a),通常包含大量知识。因此,在视觉任务中引入文本监督是直观的。

尽管一些早期研究(Frome等人,2013;Lei Ba等人,2015;Joulin等人,2016;Gomez等人,2017;Chen等人,2020b)已经探讨了引入文本监督的合适方式,但其中大多数要么专注于特定任务(例如分类、视觉问答),要么表现有限。受到对比性预训练的启发(Chen等人,2020a;Grill等人,2020;Chen和He,2021;Caron等人,2021),Radford等人(2021)提出了对比性语言图像预训练(CLIP),这是一种简单的预训练范式,通过图像文本对齐来利用知识丰富的文本监督。而大多数对比性预训练方法通常只关注视觉信息,并优化了同一图像不同视图之间的距离,CLIP将文本信息视为图像的语言视图,并在潜在空间中将图像和文本表示拉近。通过这种方式,图像文本信息在CLIP的视觉编码器和文本编码器内得到了良好的对齐,增强了多模态和单模态视觉任务。因此,CLIP从文本监督中学习了广泛的知识,并在各种下游领域证明了其有用性,包括图像生成(Vinker等人,2022;Ramesh等人,2022;Yu等人,2022;Rombach等人,2022)、分割(Li等人,2022a;Rao等人,2022;Luo等人,2023)、检测(Bangalath等人,2022;Lin和Gong,2023)和分类(Zhou等人,2022c,d;Wang等人,2023a)。 
 
最近,由于其能够在视觉模型中编码广泛知识的能力,CLIP在医学影像领域也引起了越来越多的关注。对医学影像的解释通常需要专业的临床知识,这对于仅基于视觉的模型来说并不是一个容易实现的目标。先前的研究尝试通过精细的注释,例如边界框(Luo等人,2022;Ouyang等人,2020;Tanida等人,2023;Müller等人,2023)和分割掩模(Mehta等人,2018;Zhou等人,2019)来解决此问题。然而,收集精细的注释是耗时的,因此难以扩展。相反,通过CLIP将临床知识编码到深度学习模型中似乎是一个可行的解决方案。

在医学领域,对CLIP的现有研究可分为两类:(1)精细的CLIP预训练和(2)以CLIP为驱动的应用。专注于预训练的研究试图将CLIP的预训练范式从网络爬取的图像-标题对适应到医学图像和对应的临床报告中,满足医学影像领域的特定需求,而另一类研究直接采用预训练的CLIP模型作为所提方法的关键组件,来实现各种临床任务(例如胸部疾病诊断、多器官分割)。 

1.1 动机和贡献 

由于医学影像领域目前涌现出大量以CLIP为中心的研究(见图2),文献正在经历大量的贡献。因此,对现有文献的调查对该领域是有益的。本调查的主要特点包括:
  • 据我们所知,本文是对医学影像中CLIP现状的首次全面回顾,旨在为这个快速发展的领域的潜在研究提供及时的见解。
  • 我们全面覆盖了现有研究并提供了多层次的分类体系,以满足潜在研究的不同需求,如图1所示。对于精细预训练,我们重点介绍了大多数现有研究解决的关键挑战,而对于CLIP驱动的应用,考虑到其涉及任务的性质,我们进一步对其进行了分类。
  • 此外,我们讨论了与现有研究相关的问题和未解决的方面。我们指出了新的趋势,提出了重要问题,并提出了未来探索的方向。   
图3.  CLIP框架的示例(基于PMC-OA数据集)。

 

1.2 论文组织。

本文的其余部分组织如下。
  • 第2节提供了CLIP及其一些变体的初步知识。
  • 第3节中,我们从关键挑战和相应解决方案的角度,系统地分析了如何将CLIP预训练应用于医学成像领域。
  • 第4节涵盖了预先训练的CLIP在几种临床相关任务中的各种应用,并提供了CLIP驱动方法与先前的知识驱动或纯数据驱动方法之间的比较。
  • 第5节讨论存在的问题和潜在的研究方向,为感兴趣的研究者提供见解。
  • 第6节对本文进行总结。           

 

2 背景:  

CLIP(对比语言图像预训练)是由OpenAI(Radford等人,2021)开发的一种预训练方法。建立在对比式预训练方法(Liu等人,2021a)的方法论基础上,它联合优化了一个视觉编码器和一个文本编码器,强制使配对的图像文本信息在编码的联合图像文本潜在空间中尽可能接近。通过大量的图像文本对进行训练,CLIP通过自然语言监督学习了视觉表示。由于CLIP没有明确引入手工监督或丰富的先验设计,它在自然图像上取得了令人印象深刻的泛化性能,这符合奥卡姆剃刀原则(Blumer等人,1987)。    

2.1 架构方面

 
CLIP无缝集成了视觉模型和语言模型。视觉组件可以基于ResNet(He等人,2016)或Vision Transformer(Dosovitskiy等人,2020)(ViT)之一,而语言编码器则根植于像BERT(Kenton和Toutanova,2019)这样的基于Transformer的模型。如图3所示,在每次迭代中,它接收一批图像及其相应的文本描述作为输入。在编码过程之后,嵌入会被标准化并映射到一个联合的图像文本嵌入空间。 

2.2  对比预训练

与为单一、预定义任务设计的传统模型不同,CLIP的学习轨迹围绕着配对的图像文本信息之间的对比式预训练。具体而言,对于批量大小为N,可以构建N 2个图像文本对,其中有N个匹配的图像文本对(正对)用蓝色突出显示,还有N 2 − N个不匹配的图像文本。 

2.3 零样本学习能力

由于CLIP是预先训练来预测图像是否与文本描述相匹配的,因此它自然适合零射击识别,尽管最初并没有打算这样做。这个过程是通过比较图像嵌入和由文本编码器编码的类嵌入来完成的,文本编码器接收指定感兴趣类的文本描述。

 

2.4 CLIP 的通用性

当应用于医学成像等专业领域时,CLIP 预训练模型的通用性变得显而易见。尽管最初是针对各种互联网图像及其文本描述进行训练,但 CLIP 已经展示了识别和分类医学图像的能力。图 4 通过域标识说明了 CLIP 的通用性,其中文本提示中的类标记被替换为特定的类名称,例如“胸部 X 光”、“乳房 X 光”、“膝盖 X 光”或“牙科” X 射线”。其零样本推理能力使其能够识别给定医学图像的域,而无需对此类数据集进行明确的事先训练。虽然需要进一步的研究和验证,但初步研究结果表明,CLIP 的零样本能力可以减少对广泛标记的医疗数据集的依赖,并为未来更高效的人工智能驱动的诊断工具铺平道路。   
图 4. 通过域识别说明 CLIP 的通用性。

 

2.5 CLIP的变体

在对 CLIP 进行简要概述之后,我们在此介绍 CLIP 的几种变体及其在医学成像领域的实际应用,这些变体不仅可以识别图像中的项目,还可以理解它们的具体细节和描述。

这些变体的潜力在于它们对细节的关注。他们可以结合视觉和文本信息来提供对医学图像更细致的理解。对于医学成像来说,准确识别肿瘤或骨折等特征至关重要,它们可以提供显着的好处,有可能根据所提供的提示找到临床发现,例如“恶性肿块”或“钙化”。 

2.6 医学图文数据集

图文对齐的实现依赖于大规模数据集。因此,我们在这里总结了公开的医学数据集,每个数据集在医学成像领域都具有相对较大的规模。如表1所示,当前的医学图文数据集往往关注不同的图像领域并源自不同的数据源。

表 1. 公开可用的医学图像文本数据集摘要。

3 针对医学图像改进的CLIP预训练

现有的CLIP预训练模型通常是在通用知识上进行训练的(Radford等人,2021;Cherti等人,2023;Sun等人,2023),并没有专门针对医学影像知识。因此,已经做出了一些努力来克服医学影像领域所面临的挑战,并将CLIP的范式适应到特定领域(例如胸部X射线、脑部MRI等),期望获得一个具有该领域强大专业知识的基础模型(Zhang和Metaxas,2023)。请注意,像BiomedCLIP(Zhang等人,2023c)和PMC-CLIP(Lin等人,2023b)这样的研究并未在本节涵盖,因为它们是在包含许多不同类型图像的数据集上进行预训练的(参见表1),并未对改进CLIP预训练框架做出贡献。在本节中,我们讨论了医学图像文本预训练的特定挑战,并根据它们的解决方案提供了现有研究的分类。 

3.1. CLIP预训练的挑战

CLIP 最初是在自然图像数据集上提出的,由于三个关键挑战,这可能会导致医学成像的性能不佳。

3.1.1 多尺度特征  

自然图像领域与医学成像领域的一个主要区别是细节对于潜在疾病的诊断具有重要意义。对于胸部 X 光等医学成像,病变区域通常只占很小的比例,因此很难仅使用全局表示来有效地表示这些微妙但至关重要的视觉线索。此外,医疗报告往往比自然图像的标题更复杂。自然图像标题通常很简洁,并提供图像全局特征的概述。

相比之下,如图 5 所示,医疗报告由多个句子组成,每个句子描述特定区域的图像发现。例如,图 5 中的第一句话(以绿色突出显示)描述了肿块的存在,这对于准确诊断至关重要。总体而言,在预训练期间应同时考虑局部图像特征(区域级或像素级)和局部文本特征(句子级或单词级),这对基线 CLIP 预训练提出了挑战,其中图像文本信息仅在范围内对齐。   
图5. 医学图像-文本对的细粒度特征的演示。医疗报告由几个句子组成,每个句子都侧重于区域级特征而不是全局级特征。句子通常是相互独立的,并且通常具有不同程度的意义。

3.1.2 数据稀缺  

与自然图像文本数据集很容易达到十亿级不同,具有配对图像和报告的医学数据集的规模相对有限。根据缩放定律,数据集的规模会对 CLIP 式预训练产生重大影响,有限的医学数据可能会阻碍其在医学成像领域的性能。

3.1.3 较高的专业知识要求  

各种临床概念之间的层次依赖性可能是复杂且高度专业化的。如图6所示,该图的构建基于胸部 X 光检查的专家观点,考虑相关性、特征和发生位置临床发现。缺乏对医学概念的深入理解可能会导致在面对来自移位分布的数据甚至捷径解决方案时性能下降。因此,为了提高可靠性和鲁棒性,在预训练过程中明确地融入知识可能提供一个可行的解决方案。   
图 6. 胸部 X 光检查临床结果之间的层次依赖性说明(Huang等人,2023b)实心框表示临床发现,而虚线框表示器官或组织。
这些挑战凸显了直接在医学图像文本数据集上应用 CLIP 预训练的不切实际,激发了相关工作来改进医学成像领域的 CLIP 式预训练。

 

3.2 多尺度对比

 

尽管一些早期研究(Zhang等人,2022b;Zhou等人,2022a)尝试将CLIP预训练扩展到医学影像领域,但它们仍然遵循了(Radford等人,2021)中提出的全局对比,并因此在涉及密集预测的下游任务(如语义分割和物体检测)中表现出次优性能。为解决这个问题,一些研究尝试进行了全局-局部的图像文本对齐。典型代表为GLoRIA 和LoVT。

图7. GLoRIA(Huang等人,2021)提出的语义驱动对比的插图。(a) GLoRIA的概述,它基于跨模态语义亲和力执行多尺度图像文本对齐。全局级别的对齐通常遵循CLIP的方法,而局部级别的对比目标在注意力加权的图像表示和相应的单词表示之间进行优化。(b) GLoRIA学到的语义亲和力的可视化。

3.3 数据高效式对比 

由于伦理顾虑,很难获得大规模医学影像数据集及其配对的报告,这对CLIP的预训练效果产生了负面影响,因为它需要大量数据。为了解决这个挑战,各种研究致力于以更高效的方式实现对比性图像文本预训练,大致可分为两类:(1)基于样本互相关的对比和(2)数据增强式预训练。

3.3.1 基于样本互相关的对比  

几项研究成功地提高了基于报告间语义相似性的对比预训练的效率。医疗报告和图像说明之间的一个显着区别在于,医疗报告的撰写具有明确的诊断目的。由于一小部分疾病/发现通常涵盖大多数病例 ,因此医疗报告之间的语义重叠可能很大,特别是对于如图 9 所示的正常病例。因此,简单地将未配对的图像和报告视为负对可以导致假阴性问题并降低预训练的效率。   
图 9. 假阴性对的图示s (Liu等, 2023a)。在 CLIP 预训练中,只有图像及其相应的报告被视为正对,来自不同研究的所有其他报告被视为负对。这种做法可能会导致假阴性对(即来自不同研究的语义相似的报告)。

3.3.2 数据增强式预训练  

与此同时,许多其他研究试图通过数据增强或挖掘补充信息来提高训练效率。

 

3.4 知识增强 

前两类方法的本质上仍然专注于数据集的内部信息,但一些研究已经探讨了整合外部医学知识以增强预训练过程。

利用统一医学语言系统(UMLS)作为外部知识库(Bodenreider,2004)用于医学概念,现有研究通常在研究层面和领域层面进行知识增强。

在研究层面,采用了ScispaCy(Neumann等人,2019),一种命名实体识别工具,用于从每个报告中提取医学实体,并将其链接到UMLS中相应的医学概念以进行实体消歧。然后,基于UMLS或RadGraph(Jain等人,2021)中定义的关系构建了一个研究特定的知识图,其中前者建立了一般医学概念之间的关系,而后者专门用于解释胸部X射线。这些研究特定的图能够提供结构化知识,以引导每个图像-文本对之间的对齐。
对于领域级别的增强,知识通常表示为领域特定的知识图(例如,胸部X射线、脑部MRI)或描述性的知识提示,涵盖相关的器官、组织或临床发现。领域特定的图可以被定义为一个可训练的符号图(Lin等人,2023a),或者是在所有预训练语料库中出现最常见的前K个实体三元组的集合(Wu等人,2023a)。描述性的知识提示通常为包含的实体提供详细的观察或解释。  

3.5 总结  

在本节中,我们深入探讨了针对医学成像领域的CLIP预训练的定制化研究,将这些研究分为三种不同的方法。尽管进行了分类,这些方法都有一个共同的目标:他们将一致性的概念扩展到了传统的图像与文本配对之外。
  • 多尺度对比:这种方法专注于在微观层面上实现一致性,具体而言,是在图像内的局部级别特征之间。这不仅仅是将图像与文本匹配,而是确保图像内的细节在医学背景下是一致且有意义的。
  • 数据高效式对比:这里的重点是维持不同样本之间关系的一致性。该方法利用样本间的相关性,目标是在数据较少的情况下也能实现更多。这在医学数据稀缺或难以获得的情况下尤其有价值。
  • 知识增强:这些方法努力与专家级医学知识保持一致。这种方法不仅仅是在表面上匹配图像和文本,还涉及确保关联和解释与专家所具有的更深层次、往往复杂的医学理解一致。
每种方法都从一个独特的角度提供了关于一致性的见解,解决了医学图像分析中的特定挑战。通过探索这些方法,我们旨在提高CLIP预训练在医学成像这一细致领域的适用性和准确性。
表2。改进CLIP预训练框架的代表性研究综述。CLS:分类,SEG:分割,DET:检测,ZSC:零采样分类,ITR:图像文本检索,VQA:视觉问答,PG:短语基础,RG:报告生成,ITC:图像文本分类。   

         

4 CLIP驱动的计算机辅助诊断方法

受益于大规模的文本监督预训练,预训练过后的CLIP模型能够将输入的视觉特征与人类语言/知识进行对齐,甚至在医学图像上也能一定程度地实现,表明其在临床场景中具有潜在的重要性,尤其是在解释性和与人类对齐方面具有显著意义。此外,CLIP内部编码的人类级别知识和视觉-语言语义对应关系可以作为某些需要注释的任务(例如肿瘤分割)的额外的外部监督信号,从而提升视觉模型的性能。这些优势使得CLIP被应用于各种临床相关任务中,如分类,分割,检测,医学视觉问答等。    

4.1 分类

  
由于CLIP是通过全局级别的图像文本对齐进行预训练的,因此将其应用于医学图像分类是很直观的,模型通常被要求对图像进行全局评估,确定其良性或恶性特性或特定疾病的存在等方面。现有的基于CLIP的分类研究列于表3中,它们通常可以分为两类,零样本分类和上下文优化。前者研究如何通过提示工程合理有效地挖掘预训练领域特定的CLIP的诊断能力,而后者希望以参数高效和数据高效的方式将非领域特定的CLIP适应于医学领域。

4.1.1 零样本分类  

零样本分类的性能在很大程度上取决于预先嵌入的知识,以及提示工程的设计。如表3所示,这类研究通常通过在医学图像文本数据集上独立地对原始CLIP进行微调或采用开源专用CLIP模型来获取特定领域的CLIP。   

表3.代表性分类应用概述。

图10. 对于零样本疾病诊断的提示工程进行说明。这里演示了对肺炎的诊断,然而,任何潜在的疾病都可以通过这种方式进行诊断。   

4.1.2 上下文优化  

虽然零样本疾病诊断的概念看起来令人印象深刻且有前景,但由于领域特定的CLIP模型有限,并且大多数开源生物医学CLIP模型主要集中在胸部X射线上,所以它在医学影像社区的广泛应用受到了限制。因此,一些研究转向非领域特定的预训练CLIP模型,旨在有效地将这些模型适应到医学影像领域的上下文中,以最佳方式利用可训练参数。
图 12. 肺结节分类的上下文优化( Lei 等人, (2023c)。

 

4.2 密集预测

与疾病诊断不同,密集预测侧重于更细粒度的任务,如定位、分割等(Zuo等人,2022;Rao等人,2022;Wang等人,2021)。这一领域的方法通常作为辅助工具,为临床医生提供宝贵信息(例如潜在病变区域),以支持其决策过程。由于其强大的特征提取能力和图像文本/标签对齐能力,CLIP及其衍生方法已被应用于各种密集预测任务。   

表4. 代表性密集预测应用概述。

4.2.1 检测  

检测是临床实践中的重要任务,例如手术规划、病理诊断和术后评估。之前在医学图像检测方面的方法(Baumgartner等人,2021;Ickler等人,2023;Wittmann等人,2022;Yüksel等人,2021)通常专注于利用通过各种卷积神经网络或基于Transformer架构提取的基于图像的特征。这些方法在某种程度上是有效的,但常常在医学图像的复杂性方面遇到困难,特别是在视觉线索微妙或模糊的情况下。医学影像检测任务的流程受到了视觉-语言模型的进步和整合的显著影响,例如直接使用CLIP(Müller等人,2022c)或其扩展GLIP(Li等人,2022b)。

4.2.2 2D医学图像分割  

CLIP是通过文本监督在2D图像领域进行预训练的。因此,它可以无缝地集成到2D医学图像分割中进行微调。Muller等人和Anand等人将CLIP预训练图像编码器应用于各种医学成像模态,展示了其在医学图像分割任务中出色的性能。其他研究采用了CLIP的预训练图像和文本编码器构建了视觉语言分割模型,并通过微调在2D医学图像分割任务中取得了良好效果。   

4.2.3 3D医学图像分割  

越来越多的公开可用的带标注数据集(Simpson等人,2019;Heller等人,2019;Liu等人,2020;Bilic等人,2023)使研究人员能够训练越来越复杂的模型,用于从医学扫描中分割解剖结构和病变。然而,大多数数据集只包含少量样本。它们通常只关注某些器官或解剖结构,而所有与任务无关的器官和肿瘤都被标注为背景。因此,如何突破个别数据集的限制,充分利用现有数据源,以拓展分割模型的能力,仍然是一个挑战。

DoDNet首次引入了动态分割头以解决通用分割模型的问题,但其独热编码忽略了器官之间的语义关系。为克服这些问题,Liu等人提出了一种CLIP驱动的通用医学图像分割模型,利用CLIP文本嵌入替代独热编码。该模型不仅在器官分割上表现出色,而且在肿瘤分割等更具挑战性的任务中也胜过其他图像分割模型。在这个思想基础上,Zhang等人将该框架扩展到持续学习,利用MLP和CLIP文本嵌入进行任务隔离,使动态分割头能够以卓越性能过滤和保留任务特定信息。

图13. (a)展示了CLIP驱动的通用分割模型概览,用于通用分割(Liu等人,2023i)。(b)展示了肝脏肿瘤分割的性能(绿色表示肿瘤,红色表示器官)。将CLIP驱动的通用模型(Liu等人,2023i)与五种仅基于视觉的领先分割方法进行了比较。通过对肿瘤分割的检查(第1-4行),CLIP驱动的分割模型成功地检测到小型肿瘤,甚至在第4行显示有多个微小肿瘤,这些肿瘤大多数仅基于图像的方法都会忽略。此外,CLIP驱动的通用模型提供了更少的假阳性预测,在临床肿瘤分割任务中具有很大的价值。    

4.2.4 其他任务  

在弱监督分割中,类激活图(CAM)通常用于定位和生成伪标签,但其忽视边界导致低质量标签。张等人提出了一种基于文本提示的弱监督分割方法(TPRO),通过整合MedCLIP和BioBERT提高伪标签质量,相较于其他CAM方法性能更优。

针对医学图像中的关键点定位,TCEIP通过整合指导性文本嵌入到回归网络中,利用CLIP解释和处理指令,提高了关键点检测的性能,尤其在复杂情况下表现优越。通过利用CLIP,TCEIP 能够解释和处理诸如“左”、“中”和“右”之类的指令,确保更精确和具有上下文感知的关键点检测。其性能在挑战性较大的情况下,尤其是在存在多颗缺失或稀疏牙齿的情况下,超过了先前仅基于图像的检测方法的能力。 

4.3 跨模态

除了之前提到的纯视觉任务外,CLIP还推动了跨模态任务的发展,其中跨模态指的是图像和文本模态之间的交互。

表5. 典型的跨模态应用概述。          

4.3.1 报告生成  

鉴于在临床环境中手动转录报告是耗时的过程,越来越倾向于自动化生成医学报告(Liu等人,2019;Yu等人,2023)。由于有效生成医学报告需要识别关键的发现、属性和发现之间的语义关系,CLIP在本质上是适合的。  
 

4.3.2 医学视觉问答  

医学视觉问答(MedVQA)是一项要求对基于文本的问题和相关医学视觉内容进行深入理解的任务。这一任务受到了社区的关注,因为它能够带来更高效和准确的诊断和治疗决策。由于CLIP长期以来因其对齐视觉和文本内容的能力而备受青睐,近期已经有人开始尝试将CLIP应用于MedVQA。

研究初步将CLIP应用于封闭式MedVQA任务,其中一些研究整合了CLIP的图像编码器以提升语义理解。然而,这些方法往往忽视了图像-文本对齐的全面利用。

相比之下,开放式MedVQA不预定义问题选项,具有更广泛的适用性,需要更高的图像-文本理解能力。某些方法充分利用CLIP的图像和文本编码器进行问题和图像理解,通过语言解码器生成答案。这种方法相对于封闭式MedVQA更灵活,但需要处理域偏移,通常通过映射层来对齐图像嵌入和数据集。在图17中演示了CLIP驱动的开放式MedVQA。        

图15. 开放式MedVQA的clip驱动方法的说明          

4.3.3 图像文字检索  

检索增强(Komeili等人,2022)涉及通过检索相关信息来补充数据,允许利用来自可信知识源的最新信息,从根本上提供了非参数化的记忆扩展(Ramos等人,2023)。

这种方法因其多功能性而受到关注,特别是在检索增强的大型语言模型领域(Zhao等人,2023;Asai等人,2023)。然而,现有的检索方法往往专注于全局图像特征(Ionescu等人,2023),这可能导致在医学影像领域产生次优结果。与可能在患者间相似的全局特征不同,微妙的图像细节对疾病诊断产生影响并具有重要意义。

为了解决医学图像和自然图像之间的域转移问题,Van 等人提出了一种基于 CLIP 的多模态检索框架。该方法包括两个主要部分,如图 16 所示。
1. 第一部分涉及微调原始 CLIP 模型以构建检索模型。考虑到医学图像的视觉相似性以及小型局部标记作为疾病指标的重要性,他们提出了一种内容分类器来实现基于监督内容的对齐。
2. 第二部分在跨模式检索增强中利用检索器的输出,通过多头注意力(MHA)增强下游任务。与以前的疾病分类和报告检索方法相比,在评估其检索方法的性能时,它表现出显着的性能改进,显着优于所有现有的检索方法。观察到的性能差异强调了 CLIP 在构建稳健检索方法方面的潜力。
图16. X-TRA的架构概述 (van Sonsbeek and Worring, 2023)

 

4.4 总结

在本节中,我们展示了一些代表性的CLIP驱动应用,以展示在CLIP辅助下的性能改进。虽然这些研究关注不同的任务,但它们通常表明预训练的CLIP的强项在于其解释和传达人类知识的能力。正如在(Pellegrini等人,2023;Zhang等人,2023d;Yang等人,2023)中最为明显,他们向CLIP提供了描述性的文本提示,实验结果展示了CLIP在理解嵌入在提示中的语义并有效地将语义传达给框架内的其他组件方面的熟练程度。这意味着CLIP驱动的应用可以通过简单修改输入提示的具体内容,适应于不同群体的患者,这有助于对具有地区或年龄相关差异的疾病进行诊断或预测。例如,像败血症这样的疾病在不同种族群体中通常表现出不同的发展模式(Khoshnevisan和Chi,2021;Tintinalli等人,2016),而社区获得性肺炎的生存率与患者的年龄相关(Stupka等人,2009;Ravioli等人,2022)。通过调整描述性提示中的内容,开发的CLIP驱动应用可以在不需要重新训练或微调的情况下在不同群体之间平滑过渡。 

5 讨论与未来工作方向

  
前面的章节深入探讨了利用精炼的CLIP预训练范式或展示在医学影像社区中基于CLIP的临床应用的研究。尽管取得了重大进展,仍然存在一些挑战和未解决的问题。在本节中,我们总结了主要挑战,并讨论了潜在的未来方向。
  • 预训练和应用之间的不一致。
  • 精细化预训练评估不全面。
  • 精细 CLIP 预训练的范围有限。
  • 探索元数据的潜力。
  • 合并高阶相关性。
  • 超越图像-文本对齐。

 

6 结论

总结起来,我们提出了对CLIP在医学影像领域的首次全面回顾。
我们首先介绍了支撑CLIP成功的基本概念,然后从两个角度深入进行了广泛的文献综述:优化的CLIP预训练方法和多样化的CLIP驱动应用。

优化的CLIP预训练领域,我们的调查提供了一个基于CLIP在医学影像领域遇到的独特挑战的结构化分类,旨在为研究人员逐步推进这一领域提供清晰的路径。

探索CLIP驱动应用方面,我们将这些方法与仅基于视觉的方法进行比较,强调了预训练的CLIP模型为任务带来的附加价值。值得注意的是,通过深思熟虑的设计,它们可以作为有价值的辅助监督信号,显著提高在各种任务中的性能。
在这两个部分不仅仅是简单地回顾现有研究,我们还讨论了共同的问题,为未来的方向奠定了基础。通过阐明在医学影像中使用CLIP的潜力和挑战,我们旨在推动该领域前进,鼓励创新,为以人为本的医学人工智能铺平道路。
      

              

本篇文章来源于微信公众号: 医工学人

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注