当前位置：首页 > news >正文

(cvpr2025) LSNet: See Large, Focus Small

news 来源：原创 2025/4/22 8:52:05

wechat_2025-04-21_121936_417

作者指出，人类视觉系统遵循两步机制：(1) 通过周边视觉的大视场感知（See large）捕捉全景。(2) 注意力可以被引导到场景的特定元素上，通过中央视觉的小视野聚集（Focus small）理解细节。这种特征源于视网膜中两种感光细胞的空间分布和视觉能力不同，即视杆细胞和视锥细胞。

这种“See large, focus small”的方法使人类视觉系统能够快速、熟练地处理视觉信息。

wechat_2025-04-21_142056_785

受人类视觉感知的启发，作者提出了 Large-Small （LS）卷积，使用大核静态卷积进行 large-field perception，使用小核动态卷积进行 Small-field aggregation。结构如下图(a)所示，包括两个步骤：

第一步：Large-kernel perception，结合图示非常容易理解，首先使有和1x1卷积进行通道降维，然后用大核卷积获得大感受野的空间上下文信息，最后两再通道升维。
第二步： Small kernel aggregation，本质是分组动态卷积。特征分为G组，每组使用的卷积核是Large-kernel perception生成的。这样可以有效地表示自适应细粒度特征，使模型对不同环境下的动态复杂变化敏感。

wechat_2025-04-21_142523_141