处理图像的深度神经网络(DNN)有哪些呢?
我按应用领域和经典结构类别来总结一下:
✅ 一、图像处理常见任务
任务类型 | 所用网络 |
---|---|
图像分类 | CNN、ResNet、VGG、DenseNet、EfficientNet |
目标检测 | R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、RetinaNet |
图像分割 | U-Net、FCN、DeepLab系列、SegNet、Mask R-CNN |
图像生成 | GAN、DCGAN、Pix2Pix、CycleGAN、StyleGAN |
超分辨率 | SRCNN、ESPCN、EDSR、SRGAN |
图像风格迁移 | VGG-based Style Transfer、AdaIN、CycleGAN |
图像重建/去噪 | DnCNN、UNet、RED-Net、AutoEncoder |
特征提取/对比学习 | SimCLR、MoCo、BYOL、ResNet变体 |
✅ 二、按模型结构分类
1. 卷积神经网络(CNN类)
- LeNet-5:最早用于手写数字识别。
- AlexNet:2012年ImageNet冠军,开启深度CNN时代。
- VGG16 / VGG19:结构简单但层数深,卷积核固定为3×3。
- GoogLeNet (Inception):使用不同大小卷积核组合,提升特征提取能力。
- ResNet:引入残差结构(skip connection),解决深层网络退化问题。
- DenseNet:每层连接所有前面层的输出,增强特征传播。
- EfficientNet:通过复合缩放策略提高效率和精度。
2. Transformer结构(Vision Transformer类)
- ViT (Vision Transformer):将图像划分为patch,再输入Transformer。
- Swin Transformer:采用局部窗口注意力和层次结构,兼顾精度和效率。
- DeiT:数据高效版ViT,适合小数据训练。
3. 混合结构
- ConvNeXt:融合CNN与Transformer优点的结构。
- CoaT、T2T-ViT、MobileViT:针对小模型场景优化的混合架构。
✅ 三、生成与对抗模型(用于图像生成、重建)
- AutoEncoder / Variational AutoEncoder (VAE)
- GAN(生成对抗网络):
- DCGAN:最基本的生成式网络
- Pix2Pix / CycleGAN:用于图像翻译、风格迁移
- StyleGAN / StyleGAN2:用于超清图像生成、人脸合成
✅ 四、语义分割网络(像素级任务)
- FCN(Fully Convolutional Network)
- U-Net / U-Net++
- DeepLabV3 / V3+
- Mask R-CNN:目标检测+分割二合一