2022-08-22-组会

上次组会开完后，目前比较主流的遥感旋转目标检测相关论文读得差不多了

使用基于角度回归的检测方法=>直接解决面对

角度参数 ${\theta}$ 的周期性带来的 损失的不连续性 和 回归的不一致性

解决思路: 设计一些新型IOU或Loss函数去解决，如GWD，KFIOU等

借鉴传统通用检测器的新型表示方法(如点集(reppoints)，平行四边形)，规避掉 损失的不连续性 和 回归的不一致性

把这种检测框的表示，从水平垂直框迁移到旋转框的表示，需要设计一系列的转换函数。

有借鉴目标检测的新型表达方式的，如Oriented RepPoint(借鉴RepPoint)，效果很好
有自己设计的新型表达方式(如根据四边形偏移量)，如Oriented R-CNN, RSDet, Gliding Vertex等，其中Oriented R-CNN效果很好，其它的效果一般

还有像ATSS(SASM)这样另辟蹊径，动态设置IOU阈值划分正负样本。设计一些算法，使用超参数调整动态值。

…

目前一个好的思路可以尝试：能否将ATSS和Oriented R-CNN结合起来，达到一个更高的mAP?

实现思路：重新设计Head、BBox Assigner等模块去把原本固定的IOU阈值给覆盖掉

目前的在做一些尝试性的实验，学习Pytorch。

找到一篇论文Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model 武汉大学 8月10号发布的

有代码，是目前DOTA数据集上的SOTA

这篇论文主要思想是把Vision Transformer应用在遥感图像，但ViT这一块我不太了解其具体实现，这篇论文可能自己也没有理解透彻(尤其是里面Mask Image Modeling部分)，所以我打算再找些相关的论文去读一读再讲。

它跟以往的基于rpn为backbone的网络模型结构完全不一样，可能能成为一个新的思路。

水平文本检测、多向文本检测、弯曲文本检测，文本识别(OCR)

多向文本检测中的比较新的文章:

MOST[2021’CVPR] (A Multi-Oriented Scene Text Detector with Localization Refinement)

使用的是DCN(可变形卷积)，这就回到了Oriented Reppoint中的新型表达方式了。

本博客所有文章均采用 CC BY-NC-SA 4.0 协议，禁止商用，转载请注明出处！