当前位置：首页 > news >正文

【图问答】DeepSeek-VL 论文阅读笔记

news 来源：原创 2025/4/22 9:11:08

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答（Visual Question Answering，VQA）的任务

2. 模型结构和三段式训练

1）使用 SigLIP 和 SAM 作为混合的vision encoder，也就用的对比学习和Segment Anything（有监督学习）的混合vision encoder

2）Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关文章：

【源码】【Java并发】【AQS】从ReentrantLock、Semaphore、CutDownLunch、CyclicBarrier看AQS源码

关于金碟云星空批号问题

开源脚本分享：用matlab处理ltspice生成的.raw双脉冲数据

第1 篇：你好，时间序列！—— 开启时间数据探索之旅

黑苹果win10和macOS双系统

【MCP】从0到1实现一个MCP Server

class com.alibaba.fastjson.JSONObject cannot be cast to class

安装WSL2.0

计算机组成与体系结构：内存层次结构（Memory Hierarchy）

Kotlin协程学习笔记

无人机飞控运行在stm32上的RTOS实时操作系统上，而不是linux这种非实时操作系统的必要性

微服务架构下数据库范式的失效与反范式设计的崛起

wps表格保存时提示上传错误报0XFFF40005错误，提示撤销之前操作或者另存为

JavaScript 渲染内容爬取：Puppeteer 入门

线性DP：最短编辑距离

2025.04.20【Lollipop】| Lollipop图绘制命令简介

实验四 Java图形界面与事件处理

C++学习：六个月从基础到就业——内存管理：智能指针详解

集成学习实际案例

储能集装箱电池簇安装支架结构设计（大纲）

“代课老师被男友杀害案”一审开庭，将择期宣判

什么样的赛事能推进建设全球著名体育城市，上海半马就是答案

为溶血性疾病治疗提供新靶点，专家团队在《细胞》发文

大悦城：去年净亏损29.77亿元，三年累计亏损超70亿元

杨小伟被查，国家广播电视总局党组：坚决拥护党中央决定

【社论】增长5.4%，更加坚定信心