Large Selective Kernel Network

Introduction

论文题目 ：Large Selective Kernel Network for Remote Sensing Object Detection

论文地址 ：https://arxiv.org/abs/2303.0903v1

论文出处 ：arxiv 2023.03

代码实现 ：https://github.com/zcablii/Large-Selective-Kernel-Network

最近，遥感目标检测的研究主要集中在改进BoundingBox的表示上，但忽略了遥感场景中存在的独特先验知识。
这种先验知识可能是非常有用的，因为对于微小的遥感物体来说，如果没有充分参考长程上下文的情况下，很容易发生误检。比如下面这种情况：

图a上方，十字路口&T型路口；图a下方，转角(树)&十字路口。
图b上方，船or车？船，因为周边是水；图b下方，船or车？车，因为周边也停放了车。

另外一点，不同的对象类型所需的上下文信息是不同的：

足球场所需要的上下文信息较少，环形交叉路口的需求要更大一些，十字路口通常需要大范围的上下文信息。

本文中，作者考虑了这些上下文先验，并提出了大型选择性内核网络LSKNet。

SKNet引入了具有不同卷积核的多个分支。不同的卷积核的多个分支，并有选择地沿通道维度组合它们。
沿着通道维度进行组合。ResNeSt扩展了SKNet的想法。延伸了SKNet的思想，将输入特征图划分为几组。
与SKNet类似，SCNet使用分支注意力来捕捉更丰富的信息和空间注意力来提高定位能力。

首先，作者提出的选择机制明确的依赖于通过分解的大核的序列；
其次，作者的方法是是自适应地将信息聚集到跨越空间维度的大核，而不是像SKNet所使用的通道维度。

不同的对象类型所需的上下文信息是不同的，因此要对多个不同大小的长程上下文建模，看成一系列感受野RF：

$\begin{aligned} & k_{i-1} \leq k_i ; d_1=1, d_{i-1}<d_i \leq R F_{i-1} \\ & R F_1=k_1, R F_i=d_i\left(k_i-1\right)+R F_{i-1} \end{aligned}$

其中kernel大小为 $k$ ；引入了一个膨胀率 $d$ ，确保感受野扩张的足够快

$RF_i=d_i\left(k_i-1\right)+d_{i-1}(k_{i-1} - 1) + \ldots + d_{2}(k_{2} -1) + k_1$

23 = 3 * (7 - 1) + 5 = 18 + 5

29 = 3 * (7 - 1) + 2 * (5 - 1) + 3 = 18 + 8 + 3

假设存在N个分解的核，每一个都通过1×1的卷积进行进一步处理，使得特征图的宽高相同，从而允许Channel Concat。

这一步就是从这些感受野中选出一个网络最关注的上下文区域。

首先是把经过不同核得到的卷积特征连接起来，

然后在channel再做一次卷积，转换为N个空间注意力图spatial attention maps，

最后做一个sigmoid掩码加权，然后把这些特征图相加融合起来，得到空间特征注意力。

本博客所有文章均采用 CC BY-NC-SA 4.0 协议，禁止商用，转载请注明出处！