GWD Loss
Gaussian Wasserstein Distance Loss
Introduction
论文题目 : Rethinking Rotated Object Detection with GaussianWasserstein Distance Loss
论文地址 : https://arxiv.org/pdf/2101.11952v4.pdf
Idea
将任意旋转矩形近似成一个二维的高斯分布,通过计算分布之间的Wasserstein距离解决RIoU不可导的问题
目前旋转目标检测主流的工作,相较于水平目标检测,都是添加一个角度参数,采用回归的方法来预测旋转角度。但是这样的角度回归模型会带来新的问题:
- 评估度量(metric)和损失(loss)和的不一致性
- 边界不连续性
- 类正方形检测问题
Detail
先认识上述提到的三个问题
The inconsistency between metric(IOU) and loss
IOU一直是水平和旋转目标检测的标准评估指标,然而该度量和回归损失之间存在着不一致。
在水平目标检测中,后面提出的PIOU和DIOU可以填补这个问题,但是在旋转目标检测中,两个旋转框的IOU的Learning是不可微分的(旋转IoU存在稀疏的几个不可导点)
作者举例提到了一个(ln-norms),并给出了论文索引[45,80],还没深究。
而旋转目标检测的角度回归模型,更放大了这一特性:
主要看图中IOU和经典旋转目标检测中的Smooth L1 Loss的对比
- 图a描述了角度差和损失函数的关系
- 图b展示了具有不同的长宽比例的检测框和损失函数的关系
- 图c探讨了中心点移动和损失函数的关系
通过以上对比,可以看出旋转目标检测中经典的Smooth L1 loss的缺陷。
Boundary discontinuity
两种定义方法:长边定义法和OpenCV定义法。
这里的边界问题主要在于预定义的anchor/proposal如果在90度,180度等这样的边界位置,
长边定义法在边界处有角度的周期性(POA)
OpenCV定义法在边界处有角度的周期性(POA)和长短边的可交换性(EOE)
导致预测框的结果超出了定义范围,此时会带来非常大的Smooth L1 IOU Loss。
这对一些学习能力较弱的模型,在边界情况下的表现是非常脆弱的:
Square-like problem
基于长边定义法的模型还存在一个类似正方形的对象检测问题。
预测框(-60度)和Ground Truth(30度)的IOU接近1,但是回归损失会很大,这样又回到了第一个问题:评估度量和损失的不一致。
而由于OpenCV定义法具有长短边的可交换性,因此不存在类Square-like problem。
The Proposed Method
将任意旋转矩形近似成一个二维的高斯分布,通过计算分布之间的Wasserstein距离解决RIoU不可导的问题
将任意旋转矩形框转换为二维高斯分布:
两个高斯分布之间的Wasserstein距离公式:
而该Wasserstein距离是可导的,这样通过计算两个高斯分布之间Wasserstein距离的Loss来近似IOU的Loss
后续通过引入一些超参数变换,控制函数值域,去近似IOU的Loss:
Result
作者在五个公共数据集和两个前沿的旋转目标检测模型上,应用了该GWD Loss,得到的效果基本完胜IoU-Smooth L1 Loss, Modulated loss,CSL, 和DCL。
本博客所有文章均采用 CC BY-NC-SA 4.0 协议 ,禁止商用,转载请注明出处!