Phase-Shifting Coder

Introduction

论文题目 ：Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object Detection

论文地址 ：https://arxiv.org/pdf/2211.06368.pdf

论文出处 ：2023’CVPR

代码实现 ：https://github.com/open-mmlab/mmrotate/tree/1.x/configs/psc

Idea

这篇CVPR2023核心讨论是Boundary Problem

作者认为，产生边界问题的根本原因是：试图用连续函数拟合非连续函数

横坐标是输入图像的旋转角度，纵坐标是我们期望的输出角度

Detail

Review Boundary Problem

CSL 角度分类，固定的输出若干种角度。
缺点：没有办法输出连续的量，无法表示连续的整个角度周期。

GWD 把旋转矩形框转化为二维高斯分布来计算Loss。
缺点：如果是方形目标的话，转换成高斯分布其实是没有角度的。

Consistent to inconsistent

作者认为，产生边界问题的根本原因是：试图用连续函数拟合非连续函数

作者是如何设计实验，来验证他的观点的呢？

我们知道检测一张图片，实际上就是在这张图片的mutil-level frature map上划分多个grid（检测点），在每个点上预设anchor，然后在一定的检测范围内预测（不同level上的anchor scale不同，因此检测范围不同）。

如上图所示，作者在HSRC数据集上，找到一张GT的中心点正好在图片正中心的位置，靠近中心范围的白点（grid）都会对这艘船进行一个预测，最终得到了一系列的结果又会经过NMS，来得到一个最有可能的结果。

$\begin{aligned} \operatorname{NMS}(s_i) & =\left\{ \begin{array}{ll} s_i & iou(M, b_i) < N_t \\ 0 & iou(M, b_i) \ge N_t \end{array}\right. \\ \end{aligned}$

针对这张图片，作者设计实验验证：

选用一个连续网络， RetinaNet + GWD
将这张GT中心点正好在图片正中心的图片，围绕中心旋转
为排除NMS的不连续性影响，不使用NMS，只取正中心的检测点，观察其输出的检测框

从右图中可以看到，在旋转的过程中，角度会有逐渐上升的过程，但是到了最顶上必须要有一个下降的过程而不能突然跳到最底部。就算网络训练的很好，这个下降过程非常快，也无法瞬间达到，因为连续性总归是有下降过程。
那么在这个下降过程就一定能找到一个输入图像，使得网络输出的预测角度是错的，（结合左图，每当到达边界值，都不是一瞬间）