Large Selective Kernel Network

Large Selective Kernel Network

Introduction

论文题目 :Large Selective Kernel Network for Remote Sensing Object Detection

论文地址https://arxiv.org/abs/2303.0903v1

论文出处 :arxiv 2023.03

代码实现https://github.com/zcablii/Large-Selective-Kernel-Network

Idea

最近,遥感目标检测的研究主要集中在改进BoundingBox的表示上,但忽略了遥感场景中存在的独特先验知识。
这种先验知识可能是非常有用的,因为对于微小的遥感物体来说,如果没有充分参考长程上下文的情况下,很容易发生误检。比如下面这种情况:

图a上方,十字路口&T型路口;图a下方,转角(树)&十字路口。
图b上方,船or车?船,因为周边是水;图b下方,船or车?车,因为周边也停放了车。

另外一点,不同的对象类型所需的上下文信息是不同的:

足球场所需要的上下文信息较少,环形交叉路口的需求要更大一些,十字路口通常需要大范围的上下文信息。

本文中,作者考虑了这些上下文先验,并提出了大型选择性内核网络LSKNet。

Detail

SKNet引入了具有不同卷积核的多个分支。不同的卷积核的多个分支,并有选择地沿通道维度组合它们。
沿着通道维度进行组合。ResNeSt扩展了SKNet的想法。延伸了SKNet的思想,将输入特征图划分为几组。
与SKNet类似,SCNet使用分支注意力来捕捉更丰富的信息和空间注意力来提高定位能力。

首先,作者提出的选择机制明确的依赖于通过分解的大核的序列;
其次,作者的方法是是自适应地将信息聚集到跨越空间维度的大核,而不是像SKNet所使用的通道维度。

Large Kernel Convolution

不同的对象类型所需的上下文信息是不同的,因此要对多个不同大小的长程上下文建模,看成一系列感受野RF:

ki1ki;d1=1,di1<diRFi1RF1=k1,RFi=di(ki1)+RFi1\begin{aligned} & k_{i-1} \leq k_i ; d_1=1, d_{i-1}<d_i \leq R F_{i-1} \\ & R F_1=k_1, R F_i=d_i\left(k_i-1\right)+R F_{i-1} \end{aligned}

其中kernel大小为kk;引入了一个膨胀率dd,确保感受野扩张的足够快

RFi=di(ki1)+di1(ki11)++d2(k21)+k1RF_i=d_i\left(k_i-1\right)+d_{i-1}(k_{i-1} - 1) + \ldots + d_{2}(k_{2} -1) + k_1

23 = 3 * (7 - 1) + 5 = 18 + 5

29 = 3 * (7 - 1) + 2 * (5 - 1) + 3 = 18 + 8 + 3

  1. 它明确地产生了具有各种大的特征的多个感受野,这使得后来的内核选择更加容易
  2. 顺序分解比简单地应用一个较大的核更有效,相同的理论感受野下,作者的分解方法大大减少了参数量

假设存在N个分解的核,每一个都通过1×1的卷积进行进一步处理,使得特征图的宽高相同,从而允许Channel Concat。

Spatial Kernel Selection

这一步就是从这些感受野中选出一个网络最关注的上下文区域。

首先是把经过不同核得到的卷积特征连接起来,

然后在channel再做一次卷积,转换为N个空间注意力图spatial attention maps,

最后做一个sigmoid掩码加权,然后把这些特征图相加融合起来,得到空间特征注意力。

Result