Large Selective Kernel Network
Large Selective Kernel Network
Introduction
论文题目 :Large Selective Kernel Network for Remote Sensing Object Detection
论文地址 :https://arxiv.org/abs/2303.0903v1
论文出处 :arxiv 2023.03
代码实现 :https://github.com/zcablii/Large-Selective-Kernel-Network
Idea
最近,遥感目标检测的研究主要集中在改进BoundingBox的表示上,但忽略了遥感场景中存在的独特先验知识。
这种先验知识可能是非常有用的,因为对于微小的遥感物体来说,如果没有充分参考长程上下文的情况下,很容易发生误检。比如下面这种情况:
图a上方,十字路口&T型路口;图a下方,转角(树)&十字路口。
图b上方,船or车?船,因为周边是水;图b下方,船or车?车,因为周边也停放了车。
另外一点,不同的对象类型所需的上下文信息是不同的:
足球场所需要的上下文信息较少,环形交叉路口的需求要更大一些,十字路口通常需要大范围的上下文信息。
本文中,作者考虑了这些上下文先验,并提出了大型选择性内核网络LSKNet。
Detail
SKNet引入了具有不同卷积核的多个分支。不同的卷积核的多个分支,并有选择地沿通道维度组合它们。
沿着通道维度进行组合。ResNeSt扩展了SKNet的想法。延伸了SKNet的思想,将输入特征图划分为几组。
与SKNet类似,SCNet使用分支注意力来捕捉更丰富的信息和空间注意力来提高定位能力。
首先,作者提出的选择机制明确的依赖于通过分解的大核的序列;
其次,作者的方法是是自适应地将信息聚集到跨越空间维度的大核,而不是像SKNet所使用的通道维度。
Large Kernel Convolution
不同的对象类型所需的上下文信息是不同的,因此要对多个不同大小的长程上下文建模,看成一系列感受野RF:
其中kernel大小为;引入了一个膨胀率,确保感受野扩张的足够快
23 = 3 * (7 - 1) + 5 = 18 + 5
29 = 3 * (7 - 1) + 2 * (5 - 1) + 3 = 18 + 8 + 3
- 它明确地产生了具有各种大的特征的多个感受野,这使得后来的内核选择更加容易
- 顺序分解比简单地应用一个较大的核更有效,相同的理论感受野下,作者的分解方法大大减少了参数量
假设存在N个分解的核,每一个都通过1×1的卷积进行进一步处理,使得特征图的宽高相同,从而允许Channel Concat。
Spatial Kernel Selection
这一步就是从这些感受野中选出一个网络最关注的上下文区域。
首先是把经过不同核得到的卷积特征连接起来,
然后在channel再做一次卷积,转换为N个空间注意力图spatial attention maps,
最后做一个sigmoid掩码加权,然后把这些特征图相加融合起来,得到空间特征注意力。
Result
本博客所有文章均采用 CC BY-NC-SA 4.0 协议 ,禁止商用,转载请注明出处!