2025-02-12-组会

2025-02-12-组会

Category-Aware Dynamic Label Assignment with High-Quality Oriented Proposal

Introduction

论文题目 :Category-Aware Dynamic Label Assignment with High-Quality Oriented Proposal

论文地址https://arxiv.org/pdf/2407.03205v1.pdf

论文出处 :arXiv

代码实现:-

Idea

这篇文章的出发点也是要去解决角度周期性带来的损失函数激增的问题。为了解决这个问题,一种基于复平面的OBB表示方法,并提出了一种三角函数损失函数。此外,利用复杂背景环境的先验知识以及航拍图像中大型目标的显著差异,构建了一个conformer RPN头来预测角度信息。所提出的损失函数和conformer RPN头共同生成高质量的定向提议。

Detail

1. 三角损失函数(Trigonometric Loss Function)

使用六元组(x,y,w,h,sinθ,cosθ)(x,y,w,h,sin⁡\theta,cos\theta)表示OBB,避免直接回归角度。

用于RPN训练的OBB回归损失函数如下:

Lreg(t,tp)=i{x,y,h,w}smooth L1(titip)+L(tθ,tθp)L_{\mathrm{reg}}(t,t^p)=\sum_{i\in\{x,y,h,w\}}\mathrm{smooth~}L_1(t_i-t_i^p)+L(t_\theta,t_\theta^p)

其中tttpt^p分别表示Ground Truth和Proposal相对于anchor的偏移量。

  • 编码与解码过程

    tt的编码公式如下:

tx=((xgxa)cosθa+(ygya)sinθa)/wat_x=((x_g-x_a)\cos\theta_a+(y_g-y_a)\sin\theta_a)/w_a
ty=((xgxa)sinθa+(ygya)cosθa)/hat_y=(-(x_g-x_a)\sin\theta_a+(y_g-y_a)\cos\theta_a)/h_a
tw=ln(wg/wa)t_w=\ln{(w_g/w_a)}
th=ln(hg/ha)t_h=\ln{(h_g/h_a)}
tsinθ=(sinθgcosθacosθgsinθa)t_{\sin\theta}=(\sin\theta_g\cos\theta_a-\cos\theta_g\sin\theta_a)
tcosθ=(cosθgcosθa+sinθgsinθa)t_{\cos\theta}=(\cos\theta_g\cos\theta_a+\sin\theta_g\sin\theta_a)

tpt^p的解码公式如下:
xp=txpwacosθatyphasinθa+xax_p=t_x^pw_a\cos\theta_a-t_y^ph_a\sin\theta_a+x_a
yp=txpwasinθa+typhacosθa+yay_p=t_x^pw_a\sin\theta_a+t_y^ph_a\cos\theta_a+y_a
wp=waetwpw_p=w_ae^{t_w^p}
hp=haethph_p=h_ae^{t_h^p}
sinθp=(tsinθpcosθa+tcosθpsinθa)\sin\theta_p=(t_{\sin\theta}^p\cos\theta_a+t_{\cos\theta}^p\sin\theta_a)
cosθp=(tcosθpcosθatsinθpsinθa)\cos\theta_p=(t_{\cos\theta}^p\cos\theta_a-t_{\sin\theta}^p\sin\theta_a)

  • 损失函数设计

    L(tθ,tθp)=whtsinθptcosθtcosθptcosθL(t_\theta,t_\theta^p)=\sqrt{\frac{w}{h}}|t_{\sin\theta}^pt_{\cos\theta}-t_{\cos\theta}^pt_{\cos\theta}|

2. Conformer RPN Head

识别不同类型的物体需要不同的感受野,来有效处理各种范围的检测对象。

  • 结构设计
    • 1/4通道使用普通卷积,1/4通道使用空洞卷积,1/2通道使用多头自注意力(MHSA),三者拼接在一起。
    • MHSA通过全局依赖建模,动态调整接收野,提升对任意方向目标的特征对齐能力。

3. 类别感知动态标签分配(CDLA)

正负样本的选择

黄色方框中的分数代表了多物体分类中当前物体类别和背景类别的预测概率,分别表示为Pc(TP)和Pc(BK)。灰色方框中的数值表示提案方框和地面真相之间的IoU。在最大IoU标签分配中,绿色、蓝色和粉色分别表示地面真实、正面样本和负面样本。在我们的标签分配中,负面样本根据预测的反馈被分为被忽略的(白色)、正常的(粉红色)和重点的(红色)负面样本。

  • 算法流程(Algorithm 1):

    • 根据IoU区间和分类置信度动态划分样本:
      • 正样本: (IoU > 0.5):高IoU会被视为正样本
      • 负样本:
        • 强监督区间(IoU < 0.3 并且 背景分数 < 0.5):低置信度背景样本作为“__聚焦__负样本”,这些样本在训练时会被优先考虑。
        • 弱监督区间(0.4 ≤ IoU < 0.5 并且 前景和背景分数均<0.5):若分类置信度低,则视为普通负样本;否则忽略。

Result

性能对比

作者在DOTA-v1.0、DOTA-v1.5、DIOR-R、HRSC2016上来评估性能:

首先是DOTA-v1.0上backbone为常规res-50的性能对比:

其次是DOTA-v1.0上替换backbone的多尺度训练性能对比:

DOTA-v1.5上的性能对比:

DIOR-R上的性能对比:

HRSC2016上的性能对比:

消融实验

  • TLF单独使用:提升基线模型mAP 1.83%。
  • Conformer RPN:结合TLF后进一步提升0.56%。
  • CDLA:动态标签分配贡献1.99%的mAP提升。

PSEKD: PHASE-SHIFT ENCODED KNOWLEDGE DISTILLATION FOR ORIENTED OBJECT DETECTION IN REMOTE SENSING IMAGES

Introduction

论文题目 :Category-Aware Dynamic Label Assignment with High-Quality Oriented Proposal

论文地址https://ieeexplore.ieee.org/document/10447000

论文出处 :ICASSP 2024

代码实现:-

Idea

作者提出了相移编码知识蒸馏,包含了两个创新点,一个是相移编码模块,另一个是角度知识蒸馏策略。前者负责增强遥感物体的方向角提取,后者将遥感物体的角度从高性能模型提炼到轻量级模型。

Detail

Phase-shift Encoded Module (相移编码模块)

Angle Knowledge Distillation Strategy(角度知识蒸馏策略)

Result

性能对比

消融实验