当前位置: 首页 > news >正文

CV和NLP领域常见模型列表

图像分类(Image Classification)

模型名特点备注
ConvNeXt V2卷积改进,媲美 Transformer强于 ResNet、EfficientNet
Vision Transformer (ViT)全 Transformer 架构开创图像 transformer 浪潮
Swin Transformer V2局部注意力 + 金字塔结构更强的多尺度能力
CoaT / CMT / EfficientFormer卷积+注意力结合提高效率,兼顾性能

目标检测(Object Detection)

模型名类型特点
YOLOv8单阶段快速轻量,工业实用
RT-DETRTransformer实时 DETR,端到端快
DINOTransformerDETR 系列最强,效果极佳
Sparse R-CNNRegion-based不用 anchor,更精炼
Deformable DETRTransformer + 可变卷积提高收敛速度

实例分割(Instance Segmentation)

模型名基础架构特点
Mask R-CNNFaster R-CNN + mask head经久不衰的经典方案
SOLOv2 / YOLACT单阶段实时分割方案
Mask2FormerTransformer + 全任务统一分割任务通吃(语义/实例/全景)

语义分割(Semantic Segmentation)

模型名特点数据集
SegFormer高效的 transformer 分割Cityscapes, ADE20K
HRNet高分辨率保持多尺度信息并行
DeepLabv3+空洞卷积曾是标准方法
Mask2Former通用分割架构适配所有分割类型

视频理解(Video Understanding)

模型名任务特点
VideoMAE视频分类自监督预训练,表现强
TimeSFormerTransformer分离时空 attention
SlowFast动作识别快慢路径建模动作变化

多模态视觉(Vision + Language)

模型名类型特点
BLIP / BLIP-2图文生成/理解支持图像描述、VQA、跨模态检索
OFAOne-For-All统一多模态任务
GIT图文 Transformer图像 → 文本,轻量高效
MiniGPT-4 / LLaVA类 GPT-4V图文对话,基于视觉 encoder + LLM

自动驾驶/3D 检测(3D Detection / Perception)

模型名特点数据集
BEVFormerbird’s-eye-view TransformerNuScenes, Waymo
PointRCNN基于点云的 R-CNNKITTI
PV-RCNN高效的两阶段点云检测3D 识别 SOTA 多次
CenterPointanchor-free + center-based快速稳定

视觉基础模型(视觉大模型,VLM)

模型名类型特点
CLIP图文对齐开创多模态预训练
DINOv2视觉表示学习强大的通用视觉表征
SAM (Segment Anything)万能分割器Promptable 分割范式
SEEMEverything Model多模态提示泛化分割
Florence / BEiT-3微软大模型文本图像联合建模

文本分类 / 情感分析(Text Classification / Sentiment Analysis)

模型特点常用数据集
RoBERTaBERT 的优化版,泛化更强SST-2, AGNews
DeBERTa V3解耦注意力,表现顶级GLUE, IMDb
ERNIE 3.0知识增强预训练中文任务强
ELECTRAGAN 式训练,高效收敛-

文本生成(Text Generation)

模型特点应用方向
GPT-4多模态,推理能力强通用文本生成
LLaMA 2开源强模型,适合微调Chat、创作等
GLM-4中英文表现均衡,开放模型中英生成、对话
T5 / FLAN-T5任务统一建模可调教生成模型

阅读理解 / 问答(Reading Comprehension / QA)

模型特点数据集
UnifiedQA多任务问答统一架构SQuAD, HotpotQA
Macaw开放域 QA可解答常识、多步问题
GPT 系列 + Retrieval检索增强生成RAG, WebQA 等
ChatGPT (GPT-3.5/4)多轮推理能力多任务泛化强

语言建模 / 通用 LLM

模型说明
GPT-4 / ChatGPT多任务通用模型,表现全面
Claude 3强推理与安全性兼顾
GeminiGoogle 的多模态旗舰
LLaMA 2高性价比开源 LLM
GLM 系列中文支持强,开源友好
Mistral / Mixtral小模型高性能,MoE 架构代表

文本摘要(Summarization)

模型特点任务类型
PEGASUS预训练专为摘要设计abstractive summarization
BART / mBART编码解码 + 噪声建模多语言支持强
T5 / FLAN-T5任务统一建模任意格式摘要
ChatGPT / GPT-4长文摘要能力优秀长文+结构保持

信息抽取(NER / RE / Event Extraction)

模型特点
BERT-MRC / UIE(统一信息抽取)提示式信息抽取(统一问答框架)
LayoutLMv3文档抽取 + 视觉增强
DyGIE++实体 + 关系 + 事件联合抽取
ChatGLM + Prompt用于小样本 Prompt NER

机器翻译(Machine Translation)

模型特点来源
mBART / mT5多语言预训练Facebook / Google
NLLB-200支持 200 多种语言Meta
DeepL + GPT-4实用最强组合商业翻译+润色
ChatGPT润色式翻译优于通用 NMT

推理任务(自然语言推理 NLI / 多跳问答 / 多步推理)

模型特点数据集
DeBERTa / RoBERTaNLI 经典强者MNLI
GPT-4多步链式推理能力强Chain-of-Thought
ReAct / CoT Prompting结合工具和思考的推理范式HotpotQA, OpenBookQA

多语言 NLP(Multilingual NLP)

模型特点
mBERT / XLM-R多语言预训练的经典
mT5 / mBART50多语言翻译 + NLU 支持
NLLB-200特别适合低资源语言

视觉定位概览

过去几年,视觉定位领域从基于 DETR 的模块化检测-定位框架发展到大规模多模态预训练,再到结合大型语言模型的多粒度生成式方法。早期代表作 MDETR(2021)首次将检测与定位端到端统一​;随后 GLIP(2021)通过语言——图像对齐预训练在 COCO 上取得 60.8 AP 的 SOTA 成绩​;GLIPv2(2022)进一步拓展到实例分割与多任务跨模态理解​。2023 年,Grounding DINO 在零样本检测与定位上刷新记录​;2024 年底的 OneRef 与 HiVG 引入了生成式和层次化多模态策略​;最新的Ferret(ICLR 2024)将定位能力嵌入到多模态 LLM,实现任意形状的开放词汇定位​;甚至 3D 视觉定位领域也涌现出 SeeGround(2024 12)等零样本框架。

从基于 DETR 的端到端方法(如 MDETR)➔区域–短语对齐预训练(如 GLIP/GLIPv2)➔零样本&开放词汇定位(GroundingDINO 及其 Pro 版本)➔生成式&统一框架(OneRef、Generative VLM)➔多模态大模型(Ferret、Kosmos-2)的融合应⽤。


1. 基于 DETR 的端到端定位模型

  • MDETR (2021):首个将目标检测与自然语言定位统一在 DETR 框架下,通过多模态编码器-解码器端到端训练,实现对 RefCOCO 系列基准的领先表现。
  • LightMDETR (2024):轻量化版本,P@1 在 RefCOCO(85.92%)与 RefCOCOg(80.97%)上略超原始 MDETR,验证了“低成本”端到端方法的可行性​
  • Position-guided Text Prompt:在预训练阶段通过“分块+填空”机制强化图文位置对齐,有效提升下游定位精度。
  • RefFormer(NIPS 2024):通过“查询适配(Referential Query)”模块,将 CLIP 作为背靠骨干,生成初始查询以减轻多模态解码难度,在五个视觉定位基准上超越此前 SOTA。

2. 区域—短语对齐预训练

  • GLIP (CVPR 2022):Grounded Language-Image Pre-training 模型,统一目标检测与短语定位预训练,实现 60.8 AP on COCO val,并展现强zero-shot、few-shot 能力。
  • GLIPv2 (2022):在 GLIP 基础上,增加实例分割与多任务理解,统一 Localization 与 Vision–Language Pre-training,使单一模型同时达到检测、分割与定位的 SOTA 水平。
  • CLIP-VG (TMM 2023):利用 CLIP 生成伪语言标签并自适应课程学习,在 RefCOCO/+/g 上的全/弱监督与无监督场景均刷新了当时记录。

3. 零样本与开放词汇定位

  • GroundingDINO (ECCV 2024):将 DINO 检测器与 grounded pre-training 结合,实现开放词汇检测与定位的零样本 SOTA,在 COCO、LVIS 及 ODinW 等基准上表现优异。
  • GroundingDINO 1.6 Pro (2025 Q1):对 1.5 版本进一步优化,尤其是在 LVIS “rare” 类的零样本迁移上取得更大提升​。
  • Florence-2-large-ft:在 Papers With Code Leaderboard 上,Florence-2-large-ft 在 RefCOCO+、RefCOCO、RefCOCOg 多个拆分上均居榜首。

4. 生成式统一与层次化多模态策略

  • OneRef (NeurIPS 2024):通过生成式定位机制,实现端到端从文本到检测框的“一步到位” Referring Expression Comprehension,通过 Mask Referring Modeling(MRefM)在 RefCOCOg/Flickr30K 上刷新记录。
  • Learning Visual Grounding from Generative VLM (Jul 2024):利用大规模生成式 VLM 自动构建 1M+ 对应表达的 Grounding 数据集,零样本迁移到 RefCOCO 系列便大幅超越人标方
  • HiVG (ACM MM 2024):采用层次化多模态细粒度特征融合,进一步提升复杂表达式下的定位准确率。

5. 大型多模态语言模型融合

  • Ferret (ICLR 2024):将混合离散坐标与连续特征的区域表示融合到 MLLM 中,支持任意形状、开放词汇的精细化视觉定位。
  • Kosmos-2 (2023):通过 Markdown 链接式表达[text span](bounding boxes),基于大规模 GrIT 语义-视觉对齐数据集训练,将定位能力内嵌到通用多模态 LLM,实现多任务跨模态理解与定位。
  • BLIP-2 (2023):利用冻结的图像与语言模型,通过轻量级查询器桥接两者,实现低成本预训练并在包括定位在内的多项视觉-语言任务上刷新 SOTA。

6. 3D 场景定位

  • SeeGround (2024 12):零样本 3D 视觉定位框架,将 2D 预训练 VLM 扩展至 3D 场景,通过多视角渲染与空间描述融合,超越弱监督和部分监督 SOTA。

视觉定位的 SOTA 模型已覆盖从端到端 DETR、区域–短语预训练、零样本开放词汇、生成式一体化,到多模态大模型等全栈技术路线。选型应根据下游需求(精度 vs. 效率、零/少样本、生成能力、LLM 集成)进行权衡。


模型名称参数量 (B)RefCOCO (val / testA / testB)RefCOCO+ (val / testA / testB)RefCOCOg (val / test)
KOSMOS-21.652.32 / 57.42 / 47.2645.48 / 50.73 / 42.2460.57 / 61.65
MDETR-R10186.75 / 89.58 / 81.4179.52 / 84.09 / 70.6281.64 / 80.89
NExT-Chat785.50 / 90.00 / 77.9077.20 / 84.50 / 68.0080.10 / 79.80
MDETR-ENB387.51 / 90.40 / 82.6781.13 / 85.52 / 72.9683.35 / 83.31
Shikra787.01 / 90.61 / 80.2481.60 / 87.36 / 72.1282.27 / 82.19
Ferret787.49 / 91.35 / 82.4580.78 / 87.38 / 73.1483.93 / 84.76
GroundingGPT788.02 / 91.55 / 82.4781.61 / 87.18 / 73.1881.67 / 81.99
PixelLLM489.80 / 92.20 / 86.4083.20 / 87.00 / 78.9084.60 / 86.00
SimVG-DB-Base0.1891.47 / 93.65 / 87.9484.83 / 88.85 / 79.1286.30 / 87.26
COMM-7B791.73 / 94.06 / 88.8587.21 / 91.74 / 81.3987.32 / 88.33
SimVG-DB-Large0.6192.87 / 94.35 / 89.4687.28 / 91.64 / 82.4187.99 / 89.15

相关文章:

  • PH热榜 | 2025-04-24
  • elementui日历显示红点及根据日程范围判断是否有红点
  • OSPF动态路由(单臂路由)
  • vue3+element-push 实现input框粘贴图片或文本,图片上传。
  • 2020-06-23 暑期学习日更计划(机器学习入门之路(资源汇总)+概率论)
  • 【农气项目】基于适宜度的产量预报
  • HOW - Code Review 流程自动化
  • 使用 Typora + PicGo + Gitee/GitHub 构建 Markdown 图床技术方案
  • Kafka 命令行样例大全
  • 直观讲解生成对抗网络背后的数学原理
  • java kafka
  • servlet-优化
  • 数据仓库是什么?数据仓库架构有哪些?
  • C++/Qt中QActionGroup类用法
  • 6.第六章:数据分类的技术体系
  • 形象解释 HTTP 的四种常见请求方式及其中的区别联系
  • DDD领域驱动与传统CRUD
  • Datawhale AI春训营——用AI帮助老人点餐
  • 前端跨端框架的开发以及IOS和安卓的开发流程和打包上架的详细流程
  • (done) 吴恩达版提示词工程 3. 迭代 (控制输出长度、提取特定细节、输出 HTML 格式)
  • “谁羽争锋”全国新闻界羽毛球团体邀请赛在厦门开赛
  • 潘功胜:央行将实施好适度宽松的货币政策,推动中国经济高质量发展
  • 受折纸艺术启发可移动可变形的新型超材料问世
  • 基辅响起密集爆炸声,乌方称俄军发动大规模导弹袭击
  • 人民日报整版聚焦第十个“中国航天日”:星辰大海,再启新程
  • 温氏股份一季度归母净利润20.01亿元,同比扭亏为盈