论文分享
QPDet

Quadrant Point Representation
象限点表达方式:


r2=(w/2)2+(h/2)2
Δα 是相对于最上边的点的偏移量, Δβ是相对于最右边的点的偏移量 ,都是弧度
(v1,v2,v3,v4)和 (x,y,r,Δα,Δβ)的转换关系:
⎩⎪⎪⎨⎪⎪⎧v1=(x+rsin(Δα),y−rcos(Δα))v2=(x+rcos(Δβ),y+rsin(Δβ))v3=(x−rsin(Δα),y+rcos(Δα))v4=(x−rcos(Δβ),y−rsin(Δβ))
encoder-decoder编码转换:
⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧δx=(x∗−xa)/2ra,δy=(y∗−ya)/2ra,δr=log(r∗/ra),δα=Δα∗,δβ=Δβ∗,τx=(x′−xa)/2raτy=(y′−ya)/2raτr=log(r′/ra)τα=Δα′τβ=Δβ′.
Result
多尺度训练的精度(Backbone都是Res50-FPN,) Oriented-RCNN是80.87, QPDet是81.00.
无多尺度(Res50-FPN) Oriented-RCNN是75.87 ; QPDet是76.25

Free3Det

(x,y)是一个采样点,而不是中心点
(l,t,r,d)是到外接矩形的距离,就确定了外接矩形的形状
(o1,o2,o3,o4)就能间接表示(s1,s2,s3,s4),从而确定了旋转矩形框的顶点(v1,v2,v3,v4)
(v1,v2,v3,v4)和 (x,y,l,t,r,d,o1,o2,o3,o4)的转换关系:
v1=({x+o1∗l,x+o1∗r,o1<0o1≥0,y−t)v2=(x+r,{y+o2∗t,y+o2∗d,o2<0o2≥0)v3=({x+o3∗l,x+o3∗r,o3<0o3≥0,y+d)v4=(x−l,{y+o4∗t,y+o4∗d,o4<0o4≥0)
Result
无多尺度(Res50-FPN) 73.36
