当前位置: 首页 > news >正文

(cvpr2025) LSNet: See Large, Focus Small

wechat_2025-04-21_121936_417

作者指出,人类视觉系统遵循两步机制:(1) 通过周边视觉的大视场感知(See large)捕捉全景。(2) 注意力可以被引导到场景的特定元素上,通过中央视觉的小视野聚集(Focus small)理解细节。这种特征源于视网膜中两种感光细胞的空间分布和视觉能力不同,即视杆细胞和视锥细胞。

这种“See large, focus small”的方法使人类视觉系统能够快速、熟练地处理视觉信息。

wechat_2025-04-21_142056_785

受人类视觉感知的启发,作者提出了 Large-Small (LS)卷积,使用大核静态卷积进行 large-field perception,使用小核动态卷积进行 Small-field aggregation。结构如下图(a)所示,包括两个步骤:

  • 第一步:Large-kernel perception,结合图示非常容易理解,首先使有和1x1卷积进行通道降维,然后用大核卷积获得大感受野的空间上下文信息,最后两再通道升维。
  • 第二步: Small kernel aggregation,本质是分组动态卷积。特征分为G组,每组使用的卷积核是Large-kernel perception生成的。这样可以有效地表示自适应细粒度特征,使模型对不同环境下的动态复杂变化敏感。

wechat_2025-04-21_142523_141

以 LS 卷积为基础,作者构建了轻量网络 LSNet,如上图(b)中所示,结构也比较简单。作者做了大量实验证明 LS 卷积的效果,可以参考作者论文,这里不过多介绍。

相关文章:

  • 【Redis】Jedis与Jedis连接池
  • 4月谷歌新政 | Google Play今年对“数据安全”的管控将全面升级!
  • 阴阳龙 第31次CCF-CSP计算机软件能力认证
  • opencv 对图片的操作
  • .NET 8 升级 .NET Upgrade Assistant
  • 逻辑回归(Logistic Regression)
  • IDEA/WebStorm中Git操作缓慢的解决方案
  • UDP协议详解
  • 学习笔记(C++篇)--- Day 3
  • 今日行情明日机会——20250421
  • 数据结构第六章(五)-拓扑排序、关键路径
  • JavaScript数据结构与算法实战: 探秘Leetcode经典题目
  • Android 中实现 GIF 图片动画
  • DeepSeek R1模型微调怎么做?从入门到实战
  • CFIS-YOLO:面向边缘设备的木材缺陷检测轻量级网络解析
  • 经典文献阅读之--Kinematic-ICP(动态优化激光雷达与轮式里程计融合)
  • 从C语言变量看内存
  • LX3-初识是单片机
  • java集合框架day1————集合体系介绍
  • mongodb 存储数据的具体实现方式
  • 人民日报刊文:美国滥施关税及中国反制措施的法理视角透析
  • 美方因涉港问题对中国官员滥施非法单边制裁,外交部:强烈谴责,对等反制
  • IPO周报|本周暂无新股申购,上周上市新股中签浮盈均超1.6万
  • 累计亏损10亿元,桂林旅游怎么了?
  • 法官颁布紧急临时禁止令,中国留学生诉美国政府“首战胜利”
  • 金科股份:控股股东被动减持收警告处罚与上市主体无关,对重整工作没有影响