详细图解 Path-SAM2: Transfer SAM2 for digital pathology semantic segmentation
✨ 背景动机
- 数字病理中的语义分割(semantic segmentation)是非常关键的,比如肿瘤检测、组织分类等。
- SAM(Segment Anything Model)推动了通用分割的发展,但在病理图像上表现一般。
病理图像(Pathology Images)指的是通过显微镜观察生物组织切片后拍摄的图像,主要用来帮助医生诊断疾病。 - SAM2相较于SAM提升了准确率和泛化性,但在病理图像分割上,直接用SAM2还是不够好。
- 因此,Path-SAM2提出了专门为病理图像设计的SAM2变体。
🛠 方法设计
整体架构如下:
主要包括:
- SAM2图像编码器
- 外部病理编码器UNI
- 维度对齐模块
- KAN分类模块(取代传统prompt)
- 混合解码器
1. Pathology Encoder
- SAM2自带的Hiera网络是为自然图像设计的,不够理解病理图像细节。
- 新引入了UNI —— 一个在1亿张H&E病理图上自监督训练的超大模型,专门懂病理。
- 做法:将SAM2编码器输出和UNI编码器输出拼接(concat),作为后续特征输入。
2. KAN分类模块(取代Prompt)
- 传统SAM需要人工给“点提示”(点在肿瘤位置提示模型),很麻烦。
- 这里引入了Kolmogorov–Arnold Network(KAN),代替人工prompt,自动生成分类提示。
- KAN的特点:用可学习的单变量函数,取代传统MLP的线性权重,提升了参数利用率和解释性。
3. Loss设计
- 总损失 = **Dice Loss + Focal Loss + IOU Loss(MSE)**的加权组合。
- 参数 α 和 β 控制各部分的比重(文中默认α=0.125,β=0.01)。
📊 实验与结果
数据集
- EBHI:4,456张 224×224 的切片
- CRAG:213张 1536×1536 的大图
- GlaS:165张 522×775 的肠腺癌组织
实验设置
- 使用SAM2和UNI的预训练权重
- 三层KAN网络
- 优化器:AdamW
- 训练硬件:4× RTX V100 GPU
主要结果(见表格)
方法 | EBHI IOU | CRAG IOU | GlaS IOU |
---|---|---|---|
Fine-tuned SAM2 | 50.24% | 53.17% | 47.82% |
MedSAM2 (pp) | 62.29% | 49.72% | 48.55% |
Path-SAM2 (Ours) | 93.17% | 89.38% | 92.02% |
- ➡️ Path-SAM2在三个病理数据集上都大幅领先其他方法。
- ➡️ 引入UNI病理知识+KAN分类模块的改动起了决定性作用。
- ➡️ 相比SAM/SAM2,即便人工精细点prompt,Path-SAM2仍明显更好。
Ablation Study(消融实验)
- 证明了KAN模块比传统MLP更好,带来了显著的IOU提升。
🏁 结论
- Path-SAM2是首个基于SAM2,且针对病理图像语义分割特别设计的模型。
- 核心贡献:
- 结合了UNI病理编码器增强病理领域知识。
- 用KAN分类器代替人工prompt,提升了自动化和精度。
- 在多个病理数据集上验证了出色性能,未来会公开代码和模型权重。