Strip R-CNN-Large Strip Convolution for Remote Sensing Object Detection

Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection

Introduction

论文题目 :Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection

论文地址https://arxiv.org/pdf/2501.03775.pdf

论文出处 :arXiv预印本 南开大学-程明明团队

该文章可以看作是LSKNet的续作,两篇文章均出自【南开-程明明】团队

Idea

作者提出了Strip R-CNN,它主要基于Large strip convolutions(条状卷积),可以很好的检测各种长宽比的物体。

作者统计了DOTA数据集上的各种横纵比物体的数量,背景的条形图是实例数量,折线图是各种网络在各种横纵比物体上检测的map。可以看出来其他的网络在检测高横纵比物体上的map精度很低,换个角度来说就是提高检测这种高横纵比物体的map是一个很好的提点方式。

作者认为检测这些高横纵比物体主要有两个挑战:

  1. 高横纵比目标在一个空间维度上包含丰富的特征信息,而在另一个维度上则表现出相对稀疏的特征。传统的基于卷积神经网络的检测器大多都是在方形范围内提取输入特征图,这种方形窗口的设计大大限制了其捕捉各向异性背景的能力。
  2. 在遥感目标检测中,需要一个额外的角度参数回归。对于高横纵比的物体,角度估计的小误差也会导致预测框与GT的重大偏差

Detail

Strip Module

所提出的Strip Module非常简单:

先用一个常规的方形卷积,再先后采用水平条状卷积和垂直条状卷积,最后用一个1x1的point-wise卷积。

作者在消融实验中测试后发现水平条状卷积和垂直条状卷积的先后顺序没有明显区别,同样有效。

所提出的Strip Module被用于backbone中来替换常规的卷积方式;除此之外Strip Module还被用于二阶段的Strip Head中。

Strip Head

这里对比了Strip Head和baseline(Oriented R-CNN)的Oriented R-CNN Head,都是二阶段输出的地方。
需要注意的是这边角度参数的预测与常规的(x, y w, h)是解耦的,但与分类分支共享参数。

作者认为同时预测参数x、y、w、h和theta可能会导致特征耦合问题

然后在定位分支,插入了Strip Module。

计算损失的方式没有创新,分类分支用的交叉熵,角度和定位分支用的Smooth L1。

Result

作者在DOTA和HRSC2016数据集上进行了实验,都拿到了SOTA性能,同时参数量非常少。

DOTA数据集:

HRSC2016数据集:

消融实验