当前位置：首页 > news >正文

ViT、DETR 和 Swin Transformer ：基于 Transformer 的计算机视觉（CV）模型

news 来源：原创 2025/4/29 22:43:22

1️⃣ Vision Transformer（ViT）

📌 主要特点：

直接将图像切成固定大小的 Patch（如 16×16），然后展平并当作 Transformer 的输入（类似 NLP 处理 Token）。
全局注意力（Self-Attention），可以看到整个图像，但计算复杂度高。
用于图像分类任务（如 ImageNet 分类）。

📌 主要缺点：

计算复杂度高，尤其是大图像时，O(N²) 复杂度。
不能自适应感受野（固定 Patch 大小）。

📌 适用场景：

图像分类（如 ImageNet）
Fine-tuning 适用于医疗影像、卫星图像分析等

图像（224x224）
↓ 切成 16×16 小块
↓ 线性投影为 Patch Embedding
↓ 位置编码 + Transformer 层
↓ MLP 进行分类

2️⃣ DEtection TRansformer（DETR）

📌 主要特点：

基于 Transformer 的目标检测模型，将检测问题转换为**集合匹配（Set Prediction）**问题。
直接用 Transformer 替代了 CNN 目标检测中的 RPN（Region Proposal Network）。
使用二分匹配（Hungarian Matching） 来优化目标检测框的位置和类别。

📌 主要优点：

End-to-End 训练，不需要额外的后处理（如 NMS）。
检测多个目标，不需要手工设计 Anchor Boxes（对小目标、遮挡目标更友好）。

📌 主要缺点：

计算复杂度较高，尤其是在高分辨率图像上。
收敛速度较慢，相比于传统的 Faster R-CNN 需要更长时间训练。

📌 适用场景：

目标检测（Object Detection）
实例分割（Instance Segmentation）
行人检测、自动驾驶等

图像输入 → CNN Backbone（提取特征） → Transformer（全局注意力） → 输出目标检测框和类别

3️⃣ Swin Transformer

📌 主要特点：

采用滑动窗口（Shifted Window）自注意力机制，减少计算量，适应大分辨率图像。
层次化设计（Hierarchical Feature Representation），更接近 CNN 方式，适用于下游任务（目标检测、分割等）。
可以在不同分辨率下提取特征，适合密集预测任务（如目标检测、分割）。

📌 主要优点：

计算量更小，相比 ViT 适用于更大图像。
支持多尺度特征提取（类似 CNN 的 FPN 结构），适用于目标检测、语义分割。
能够在 ImageNet 训练后迁移到其他任务，通用性更强。

📌 主要缺点：

相比 ViT 复杂度更高（但比标准 Transformer 低）。
由于窗口大小固定，可能在处理超大物体或小目标时不如 CNN+Transformer 组合方法。

📌 适用场景：

图像分类
目标检测（比 ViT 更适合 YOLO/Faster R-CNN 任务）
语义分割（适用于城市、医学影像等）
多任务 CV 任务（如 Action Recognition、Pose Estimation）

图像输入 → 线性 Patch Embedding → Swin Transformer Block（窗口注意力） → 多尺度特征提取 → 适用于分类、检测、分割

📊 总结对比

模型	主要任务	注意力机制	计算复杂度	适用场景
ViT	图像分类	全局注意力（O(N²)）	高（需要大数据）	分类
DETR	目标检测	Transformer 全局注意力	高（慢收敛）	目标检测
Swin Transformer	目标检测、分割、分类	Shifted Window 注意力	低（比 ViT 好）	分类 + 检测 + 分割

相关文章：

vmware tools灰化

Unity打包的WebGL包打不开问题解决方案，以及WebGL包嵌入至Vue2中的步骤

QT程序双击可执行文件运行方法

vue3 引入element-plus组件后，发现输入的时候没有提示，而且鼠标移到el-button显示unknown的简单解决方法

【谷粒商城踩坑记】第四坑 nacos 闪退问题

python 库笔记：pytorch-tcn

vue的绑定

单片机开发资源分析的实战——以STM32G431RBT6为例子的单片机资源分析

Zabbix—企业微信报警群通消息通知

Doris：联邦认证

新安装的cursor安装不了插件

2025-3-17 腾讯云-大数据方向-成都面试

JavaScript变量声明与DOM操作指南

Vue.js 插槽（Slot）详解：让组件更灵活、更强大

OracleCdc和MysqlCdc区别详解

Android Audio基础（53）——PCM逻辑设备Write数据

SpringCloud网关：Gateway路由配置与过滤器链

Visual Studio Code安装配置优化全攻略：打造高效开发环境

在 Ubuntu 中配置 NFS 共享服务的完整指南

玩转 Tailwind CSS：深入解析函数与指令

万科：一季度营收近380亿元，销售回款率超100%

初步结果显示，卡尼领导的加拿大自由党在联邦众议院选举中获胜

财政部农业农村司司长吴奇修接受纪律审查和监察调查

人社部：对个人加大就业补贴支持，对企业加大扩岗支持

中国航天员乘组完成在轨交接，神十九乘组将于29日返回地球

《深度参与全球海洋治理的重大科技问题战略研究》一书出版发行