ROI Transformer

Introduction

论文题目 : Learning RoI Transformer for Oriented Object Detection in Aerial Images
论文作者 : Jian Ding, Nan Xue, Yang Long, Gui-Song Xia∗ , Qikai Lu – LIESMARS-CAPTAIN, Wuhan University
论文地址 : CVPR_2019-ROI Transformer
代码实现 : https://github.com/dingjiansw101/AerialDetection

鸟瞰视角、高度复杂的背景、目标外形的剧烈变化使得航拍图像目标检测成为难题。尤其当航拍图像中目标密集存在时，常规目标检测中的水平proposals（HRoIs）与目标之间的不匹配将进一步影响分类和定位。本文中作者提出了[RoI Transformer]方法来解决这一问题，基于两阶段框架，通过基于位置敏感对齐的监督RRoI学习和特征提取，实现定向和密集对象的检测。

水平RoI通常包含多个实例，而旋转RoI通常更加精确。

RoI Transformer是轻量级的且可以很容易的嵌入各种旋转目标检测器中。

Idea

本文中作者提出的ROI Transformer 由两部分组成:

第一部分是RRoI Learner，它学习从HRoIs到RRoIs的转换；
第二部分是RRoI Warping，它从RRoI中提取旋转不变的特征，用于后续的分类和回归子任务。
HRoIs(horizontal RoIs):水平候选框
RRoIs(Rotated RoIs): 旋转候选框
RGTs(Rotated Ground Truths): 预先标注的旋转真实框

Details

RRoI Learner

PS RoI Align(Position Sensitive RoI Alignment) [位置敏感的候选区域]

这个概念涉及到一篇以前的论文R-FCN，其主要思想是在特征聚集时 人工引入位置信息 ，从而有效改善较深的神经网络对物体位置信息的敏感程度
PS-ROI Align 对模型的检测性能有提升，对小物体的感知能力有明显改善

这个网络将HRoIs 作为输入传给RRoI Learner，

FC-5: 后面跟着一个5维的全连接层，该全连接层用于回归RGTs相对于HRoIs的偏移量。

DeCoder: 解码器，将HRoIs和偏移量作为输入，输出RRoI

后续将Featrue map和RRoIs传递给RRoI Warping，用于几何鲁棒特征提取。

RRoI Warping

RRoI Warping通过RRoI的参数提取旋转不变的深度特征（其实就是用Rotated Position Sensitive RoI pooling实现旋转版的池化）。

因为采用Light-Head R-CNN，这里RRoI Warping具体使用Rotated Position Sensitive (RPS) RoI Align。

给定具有 $H × W × C$ 通道的输入特征图 $\mathcal{D}$ 和 RRoI $(x_r,y_r,w_r,h_r,θ_r)$

RPS RoI pooling 将旋转的 Rotated RoI 分成 $K × K$ bin，并输出形状为 $K × K × C$ 的特征图 $\mathcal{Y}$ 。

$\mathcal{D}$ 是输入的feature map
$T_θ$ 是RRoIs
$\mathcal{Y}$ 是输出的feature map
bin 是池化的一小块， $n_{ij}$ 是每一块bin的样本参数量

对于每个bin的(x,y)，通过以下式子转换为(x’,y’):

IOU的计算

计算RRoI 和匹配的 RGT 之间的 IoU，也是不规则多边形的IOU，作者在文章中没有提及计算方法。

对于长而窄的边界框，角度的轻微抖动可能导致两个盒子的 IoU 非常低，因此阈值取0.5.

旋转目标检测计算机视觉

本博客所有文章均采用 CC BY-NC-SA 4.0 协议，禁止商用，转载请注明出处！

RetinaNet 上一篇

YOLOv2v3 下一篇

目录