ROI Transformer
ROI Transformer
Introduction
- 论文题目 : Learning RoI Transformer for Oriented Object Detection in Aerial Images
- 论文作者 : Jian Ding, Nan Xue, Yang Long, Gui-Song Xia∗ , Qikai Lu – LIESMARS-CAPTAIN, Wuhan University
- 论文地址 : CVPR_2019-ROI Transformer
- 代码实现 : https://github.com/dingjiansw101/AerialDetection
鸟瞰视角、高度复杂的背景、目标外形的剧烈变化使得航拍图像目标检测成为难题。尤其当航拍图像中目标密集存在时,常规目标检测中的水平proposals(HRoIs)与目标之间的不匹配将进一步影响分类和定位。本文中作者提出了[RoI Transformer]方法来解决这一问题,基于两阶段框架,通过基于位置敏感对齐的监督RRoI学习和特征提取,实现定向和密集对象的检测。
水平RoI通常包含多个实例,而旋转RoI通常更加精确。
RoI Transformer是轻量级的且可以很容易的嵌入各种旋转目标检测器中。
Idea
本文中作者提出的ROI Transformer 由两部分组成:
第一部分是RRoI Learner,它学习从HRoIs到RRoIs的转换;
第二部分是RRoI Warping,它从RRoI中提取旋转不变的特征,用于后续的分类和回归子任务。
HRoIs(horizontal RoIs):水平候选框
RRoIs(Rotated RoIs): 旋转候选框
RGTs(Rotated Ground Truths): 预先标注的旋转真实框
Details
RRoI Learner
PS RoI Align(Position Sensitive RoI Alignment) [位置敏感的候选区域]
这个概念涉及到一篇以前的论文R-FCN,其主要思想是在特征聚集时 人工引入位置信息 ,从而有效改善较深的神经网络对物体位置信息的敏感程度
PS-ROI Align 对模型的检测性能有提升,对小物体的感知能力有明显改善
这个网络将HRoIs 作为输入传给RRoI Learner,
FC-5: 后面跟着一个5维的全连接层,该全连接层用于回归RGTs相对于HRoIs的偏移量。
DeCoder: 解码器,将HRoIs和偏移量作为输入,输出RRoI
后续将Featrue map和RRoIs传递给RRoI Warping,用于几何鲁棒特征提取。
RRoI Warping
RRoI Warping通过RRoI的参数提取旋转不变的深度特征(其实就是用Rotated Position Sensitive RoI pooling实现旋转版的池化)。
因为采用Light-Head R-CNN,这里RRoI Warping具体使用Rotated Position Sensitive (RPS) RoI Align。
给定具有通道的输入特征图 和 RRoI
RPS RoI pooling 将旋转的 Rotated RoI 分成 bin,并输出形状为 的特征图 。
- 是输入的feature map
- 是RRoIs
- 是输出的feature map
- bin 是池化的一小块, 是每一块bin的样本参数量
对于每个bin的(x,y),通过以下式子转换为(x’,y’):
IOU的计算
计算RRoI 和匹配的 RGT 之间的 IoU,也是不规则多边形的IOU,作者在文章中没有提及计算方法。
对于长而窄的边界框,角度的轻微抖动可能导致两个盒子的 IoU 非常低,因此阈值取0.5.
本博客所有文章均采用 CC BY-NC-SA 4.0 协议 ,禁止商用,转载请注明出处!