Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images

大规模视觉语言预训练模型在自然图像域内的零/少量异常检测方面取得了重大进展。然而，自然图像和医学图像之间的巨大领域差异限制了这些方法在医学异常检测中的有效性。这种多层次的自适应由多层次、逐像素的视觉语言特征对齐损失函数指导，该函数将模型的重点从自然图像中的对象语义重新校准到医学图像中的异常识别。适应的特征在各种医疗数据类型中表现出更好的泛化，即使在模型在训练期间遇到未见过的医疗模式和解剖区域的零样

m0_47588836

1008人浏览 · 2024-05-12 17:59:38

m0_47588836 · 2024-05-12 17:59:38 发布

适配视觉语言模型进行医学图像的可泛化异常检测

1）训练:多层次特征适应Train: Multi-Level Feature Adaptation

①MVFA：Multi-level Visual Feature Adapter

②语言特性格式Language Feature Formatting

③视觉语言特征对齐Visua-Language Feature Alignment

2）测试:多级特性比较Test: Multi-Level Feature Comparison

①Zero-Shot分支

②Few-Shot分支

③few-shot分支和zero-shot结合

一、摘要

大规模视觉语言预训练模型在自然图像域内的零/少量异常检测方面取得了重大进展。然而，自然图像和医学图像之间的巨大领域差异限制了这些方法在医学异常检测中的有效性。因此本文引入了一种新的轻量级多级自适应比较框架，将CLIP模型重新用于医学异常检测。通过将多个残余适配器集成到预训练的视觉编码器中，从而能够在不同级别上逐步增强视觉特征。这种多层次的自适应由多层次、逐像素的视觉语言特征对齐损失函数指导，该函数将模型的重点从自然图像中的对象语义重新校准到医学图像中的异常识别。适应的特征在各种医疗数据类型中表现出更好的泛化，即使在模型在训练期间遇到未见过的医疗模式和解剖区域的零样本场景中也是如此。明显优于目前最先进的模型，在零样本和少样本设置下，异常分类的平均AUC分别提高了6.24%和7.33%，异常分割的平均AUC分别提高了2.03%和2.37%。

二、介绍

背景：医学异常检测(AD)侧重于识别医疗数据中的异常模式，对于防止误诊和促进早期干预至关重要，当代大规模预训练视觉语言模型(VLMs)最近为鲁棒和可泛化的异常检测铺平了道路。一个值得注意的初步努力是直接采用CLIP，一种典型的自然图像开源VLM，用于AD。不过两种都没人做过。本文试图为医学图像开发一个通用的可推广的AD模型，旨在适应以前看不见的模式和解剖区域。

但是存在三个问题：首先，将CLIP重新用于AD意味着任务需求的重大转变。CLIP中的视觉编码器主要捕获图像语义，但通用AD模型必须识别不同语义上下文中的不规则性。其次，从在自然图像领域使用CLIP到医学图像领域的转变构成了一个重大的领域转移。最后，在训练阶段将AD模型的适用性扩展到未遇到的成像模式和解剖区域的任务是非常苛刻的。

所以这样做：本文提出了一个轻量级的多层次适应和比较框架，将CLIP重新用于医学图像中的AD，用CLIP进行预训练，再到训练模型中视觉特征自适应过程将适配器调整与多层次考虑相结合，这些适配器重新校准了模型的焦点，将其从对象语义转移到识别图像中的异常，利用文本提示将图像大致分类为“正常”或“异常”。在测试过程中，在适应的视觉特征和文本提示特征以及可用的附加参考图像特征之间进行比较，从而生成多级异常评分图，医学异常分类(AC)和异常分割(AS)。

结果：用这个方法AD基准上进行评估，包括来自五个不同医学模式和解剖区域的数据集:脑MRI，肝脏CT，视网膜OCT，胸部x光片和数字组织病理学。我们的方法优于现有的方法，在零样本和少样本场景下，异常分类的平均改进率分别为6.24%和7.33%，异常分割的平均改进率分别为2.03%和2.37%。

贡献：1.提出了一种新的多层次特征适应框架，据我们所知，这是第一次尝试将预训练的视觉语言模型适应零/少样本场景下的医疗AD；2.对医学图像中AD具有挑战性的基准进行了广泛的实验，证明了其在不同数据模式和解剖区域中的卓越通用性。

整体网络框架：

三、相关工作

Vanilla异常检测：通常有少量的异常样本可用，这些样本可以用来提高检测效率。

零/少样本异常检测：因此医疗AD比传统工业AD更具挑战性。

医学异常检测：目前的医学AD方法通常将AD视为一类分类问题，依靠正常图像进行训练。通常需要每个类别的大量正态样本，这使得它们在现实世界的诊断中不切实际。并且目前这些方法往往在不同数据模式和解剖区域的泛化方面存在不足，这是本文旨在解决的关键方面。

视觉语言建模：本研究将最初在自然图像上训练的VLMs扩展到医学图像中的AD，引入了一种独特的多层次视觉特征适应和比较框架方法。

四、网络框架

分为训练和测试两大块，现在一一讲解：

1）训练:多层次特征适应Train: Multi-Level Feature Adaptation

为了使预训练的自然图像视觉语言模型适应医学成像中的异常检测(AD)，我们引入了一个专门为医学图像中的异常检测设计的多层次特征适应框架，利用最少的数据和轻量级的多层次特征适配器。

①MVFA：Multi-level Visual Feature Adapter

在多个特征级别上应用CLIP适配器，也就是图片中的visual encoder。对于图像x∈Rh×w×3, CLIP视觉编码器通过四个连续阶段(S1到S4)将图像x转换为特征空间Fvis∈RG×d。其中，G表示网格数，d表示特征维数。前三个视觉编码器阶段(S1到S3)的输出，记为Fl∈RG×d, l∈{1,2,3}，表示三个中间阶段的特征。并冻结了主干网。

visual feature adaptation视觉特征自适应涉及三个不同层次的特征适配器 $A_{l}$ ，l∈{1,2,3}和一个特征投影仪P(·)。在每一层l∈{1,2,3}，一个可学习的特征适配器 $A_{l}$ 被集成到特征 $F_{l}$ 中，包含两层(最小数量)的线性变换。W是可学习的

其中γ是超参数一般设置为0.1，其中 $F_{l}^{*}$ 作为下一编码器级 $S_{l+1}$ 的输入， $S_{l}$ 会向下和向左产生 $F_{l}$ 。

为了同时处理AC和as的全局和局部特征，双适配器架构取代了Eq.(1)中使用的单适配器，在每个级别产生两个并行的特征集Fcls, 1和Fseg, 1。对于CLIP视觉编码器生成的最终视觉特征Fvis，特征投影仪P(·)使用参数为Wcls和Wseg的线性层对其进行投影，得到全局和局部特征Fcls,4 = FT visWcls和Fseg,4 = FT visWseg。

该模型利用多层自适应特征，通过以下视觉语言特征对齐，可以有效地识别全局异常进行分类，也可以有效地识别局部异常进行分割

②语言特性格式Language Feature Formatting

采用了一种两层的文本提示方法，正常和不正常的，通过分别计算文本编码器对正常状态和异常状态提取的文本特征的平均值，我们得到一个文本特征，表示为Ftext∈R2×d，其中d为特征维数。

③视觉语言特征对齐Visua-Language Feature Alignment

将MVFA给出的自适应视觉特征与文本特征对齐，在每个特征层l∈{1,2,3,4}上对模型进行优化。结果名词：医学异常分类(AC)和异常分割(AS)。

其中Dice(·，·)、Focal(·，·)和BCE(·，·)分别为骰子损失dice loss 、焦点损失focal loss和二值交叉熵损失binary cross-entropy loss，设λ1 = λ2 = λ3 = 1.0作为默认值，总和 $L_{adapt}$ = $\Sigma _{l=1}^{4}$ $L_{l}$ 。

2）测试:多级特性比较Test: Multi-Level Feature Comparison

在测试过程中，为了准确地预测图像级(AC)和像素级(AS)的异常，我们的方法采用了两分支多级特征比较架构，包括零采样分支和少采样分支。

①Zero-Shot分支

通过MVFA对test image测试图像 $X_{test}$ t进行处理，产生多级自适应特征,然后将这些特征与文本特征 $F_{text}$ 进行计算，零样本AC和AS结果，记为 $C_{zero}$ 和 $S_{zero}$ 。

其中BI(·)将异常图重塑为√G×√G，G表示网络数。

②Few-Shot分支

参考正常图片，少量标记的正常图像的所有多层次视觉特征都有助于构建一个多层次特征记忆库multi-level feature memory bank记为G。然后通过最近邻搜索过程，从每一层的测试特征与记忆库特征之间的最小距离中得到少量的AC和AS分数，记为 $C_{few}$ 和 $S_{few}$ 。

其中Dist(·，·)表示余弦距离，计算为1−cosine(·，·)

③few-shot分支和zero-shot结合

最终预测的AC和AS结果结合了两个分支的结果:

其中β1和β2分别为零样本和少样本的权重因子，默认为0.5。

五、实验

1）实验设置

①数据集：脑MRI、肝脏CT、视网膜OCT、胸部x线检查和数字组织病理学检查。其中，BrainMRI、LiverCT和RESC数据集用于异常分类(AC)和分割(AS)，而OCT17、ChestXray和HIS仅用于异常分类(AC)。

②比较方法和基础：在不同的训练环境中考虑各种最先进的AD方法作为竞争方法。这些设置包括 (i)使用所有正常数据的普通方法(CFlowAD ， RD4AD， PatchCore和MKD)， (ii)少量正常样本方法(CLIP ， MedCLIP， WinCLIP)，以及 (iii)少量样本方法(DRA， BGAD和April-GAN)。

③评估：接收机工作特性曲线(AUC)下的面积用于量化性能。该指标是AD评估中的一个标准，单独考虑AC中的图像级AUC和AS中的像素级AUC。

④训练：ViT-L/14的CLIP，输入图像分辨率为240。模型共24层，分为4个阶段，每个阶段包含6层。我们使用Adam优化器，在一个NVIDIA GeForce RTX 3090 GPU上，以恒定的学习率为1e-3，批处理大小为16，进行50次epoch的训练。

2）与其他方法比较

①few-shot

②zero-shot

③In-Domain在域评价

3）消融实验

①零样本设置下多级投影的特征对准P和多级适配器的特征适应A

②层数变化的影响

4）可视化分析

与最先进的April-GAN方法进行比较。(e)的结果优于(c)的结果。

六、结论

本文将自然域预训练的视觉语言模型应用于医学AD，具有不同形态和解剖区域之间的跨域泛化性。自适应不仅包括从自然域到医学域的自适应，还包括从高级语义到像素级分割的自适应。为了实现这一目标，本文引入了一种协作的多层次特征自适应方法，其中每次自适应都由相应的视觉语言对齐指导，便于从医学图像中分割各种形式的异常。结合基于比较的AD策略，该方法能够灵活地适应具有大量模态和分布差异的数据集。该方法在零/少样本AC和AS任务上优于现有方法，为未来的探索指明了有前途的研究途径。