当前位置：首页 > news >正文

SAM12

news 来源：原创 2025/4/25 7:04:37

NLP中可以通过预测next token作为预训练任务，而在下游任务中可以使用prompt engineering做应用。因此，作者扩展了下NLP里prompt在图像分割里的用法， prompt可以是以下几种类型：

image encoder： ViT

point和box可以作为一类使用position encodings, text可以使用CLIP作为encoder, 而mask是一种密集型的prompt，可以使用卷积作为encoder

mask decoder使用一个transformer将image embedding和prompt embedding做双向的cross-attention；并且也有prompt embedding的self-attention。也有MLP和linear classifier分类分割区域

解决混淆的输入：对于一个prompt，模型会输出3个mask，实际上也可以输出更多的分割结果，3个可以看作一个物体的整体、部分、子部分，基本能满足大多数情况。使用IOU的方式，排序mask。在反向传播时，参与计算的只有loss最小的mask相关的参数

A2A Agent 框架结构化分析报告

前端微服务详解

UE5 调整字体、界面大小

【AI News | 20250424】每日AI进展

centos7里memcached 的安装使用

Verilog 语法（一）

第七章：Contribution Governance

【Pandas】pandas DataFrame dot

【C++QT】Buttons 按钮控件详解

flask学习(1)

MongoDB Compass可视化工具

常见接口测试常见面试题（JMeter）