当前位置: 首页 > news >正文

【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids
-

相关文章:

  • 【源码】【Java并发】【AQS】从ReentrantLock、Semaphore、CutDownLunch、CyclicBarrier看AQS源码
  • 关于金碟云星空批号问题
  • 开源脚本分享:用matlab处理ltspice生成的.raw双脉冲数据
  • 第1 篇:你好,时间序列!—— 开启时间数据探索之旅
  • 黑苹果win10和macOS双系统
  • 【MCP】从0到1实现一个MCP Server
  • class com.alibaba.fastjson.JSONObject cannot be cast to class
  • 安装WSL2.0
  • 计算机组成与体系结构:内存层次结构(Memory Hierarchy)
  • Kotlin协程学习笔记
  • 无人机飞控运行在stm32上的RTOS实时操作系统上,而不是linux这种非实时操作系统的必要性
  • 微服务架构下数据库范式的失效与反范式设计的崛起
  • wps表格保存时提示上传错误报0XFFF40005错误,提示撤销之前操作或者另存为
  • JavaScript 渲染内容爬取:Puppeteer 入门
  • 线性DP:最短编辑距离
  • 2025.04.20【Lollipop】| Lollipop图绘制命令简介
  • 实验四 Java图形界面与事件处理
  • C++学习:六个月从基础到就业——内存管理:智能指针详解
  • 集成学习实际案例
  • 储能集装箱电池簇安装支架结构设计(大纲)
  • “代课老师被男友杀害案”一审开庭,将择期宣判
  • 什么样的赛事能推进建设全球著名体育城市,上海半马就是答案
  • 为溶血性疾病治疗提供新靶点,专家团队在《细胞》发文
  • 大悦城:去年净亏损29.77亿元,三年累计亏损超70亿元
  • 杨小伟被查,国家广播电视总局党组:坚决拥护党中央决定
  • 【社论】增长5.4%,更加坚定信心