ROI Transformer

ROI Transformer

Introduction

鸟瞰视角、高度复杂的背景、目标外形的剧烈变化使得航拍图像目标检测成为难题。尤其当航拍图像中目标密集存在时,常规目标检测中的水平proposals(HRoIs)与目标之间的不匹配将进一步影响分类和定位。本文中作者提出了[RoI Transformer]方法来解决这一问题,基于两阶段框架,通过基于位置敏感对齐的监督RRoI学习和特征提取,实现定向和密集对象的检测。

水平RoI通常包含多个实例,而旋转RoI通常更加精确。

RoI Transformer是轻量级的且可以很容易的嵌入各种旋转目标检测器中。

Idea

本文中作者提出的ROI Transformer 由两部分组成:

  • 第一部分是RRoI Learner,它学习从HRoIs到RRoIs的转换;

  • 第二部分是RRoI Warping,它从RRoI中提取旋转不变的特征,用于后续的分类和回归子任务

  • HRoIs(horizontal RoIs):水平候选框

  • RRoIs(Rotated RoIs): 旋转候选框

  • RGTs(Rotated Ground Truths): 预先标注的旋转真实框

Details

RRoI Learner

PS RoI Align(Position Sensitive RoI Alignment) [位置敏感的候选区域]

这个概念涉及到一篇以前的论文R-FCN,其主要思想是在特征聚集时 人工引入位置信息 ,从而有效改善较深的神经网络对物体位置信息的敏感程度

PS-ROI Align 对模型的检测性能有提升,对小物体的感知能力有明显改善

这个网络将HRoIs 作为输入传给RRoI Learner,

FC-5: 后面跟着一个5维的全连接层,该全连接层用于回归RGTs相对于HRoIs的偏移量。

DeCoder: 解码器,将HRoIs和偏移量作为输入,输出RRoI

后续将Featrue map和RRoIs传递给RRoI Warping,用于几何鲁棒特征提取。

RRoI Warping

RRoI Warping通过RRoI的参数提取旋转不变的深度特征(其实就是用Rotated Position Sensitive RoI pooling实现旋转版的池化)。

因为采用Light-Head R-CNN,这里RRoI Warping具体使用Rotated Position Sensitive (RPS) RoI Align。

给定具有H×W×CH × W × C通道的输入特征图 D\mathcal{D} 和 RRoI (xr,yr,wr,hr,θr)(x_r,y_r,w_r,h_r,θ_r)

RPS RoI pooling 将旋转的 Rotated RoI 分成K×KK × K bin,并输出形状为K×K×CK × K × C 的特征图 Y\mathcal{Y}

  • D\mathcal{D}是输入的feature map
  • TθT_θ是RRoIs
  • Y\mathcal{Y}是输出的feature map
  • bin 是池化的一小块, nijn_{ij}是每一块bin的样本参数量

对于每个bin的(x,y),通过以下式子转换为(x’,y’):

IOU的计算

计算RRoI 和匹配的 RGT 之间的 IoU,也是不规则多边形的IOU,作者在文章中没有提及计算方法。

对于长而窄的边界框,角度的轻微抖动可能导致两个盒子的 IoU 非常低,因此阈值取0.5.


本博客所有文章均采用 CC BY-NC-SA 4.0 协议 ,禁止商用,转载请注明出处!