濫読した論文の概要をメモしています。
精読していないため、誤りを含んでいる可能性があります。
なお、誤りを見つけた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | ICCV2017 |
発行日 | 2017年3月20日 |
リンク | https://arxiv.org/pdf/1703.06870.pdf |
要約
- RoI Pooling のズレを解消するための Roi Align を提案
- クラス予測・座標予測に加えて物体の存在領域を表現する Mask 機構を導入
- Instance Segmentation タスクにおいて SOTA となる 37.1mAP を達成
- 物体検出タスクにおいても高い精度 39.8mAP を達成

先行研究と比較した優位性
既存の 2-stage 系物体検出手法(Faster R-CNN 等)は RoI Pooling を利用することで正解矩形と特徴マップの対応関係を抽出していた。
しかしこの手法は厳密なマッピングではなく、若干のズレが生じているためセグメンテーションタスクを利用する際に問題になっていた。
本手法では このズレを解消するための工夫を行った RoI Align と呼ばれる手法を提案、採用することによって高い精度を達成している。
また、既存の手法は物体検出タスクに特化したモデルであるが本手法は Mask 機構を保有しているため、 Pixel 単位での領域予測が要求される Instance Segmentation タスクにも応用が可能である。
学習・評価に利用したデータセット
学習・評価ともに MSCOCO 2015, 2016 を利用。
関連論文
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- Fast R-CNN
所感
Instance Segmentation、物体検出で有名な Mask R-CNN について紹介しました。
構造としては Faster R-CNN に非常に近いですが、 Mask 機構を導入することで Instance Segmentation も可能になっており、より汎用性の高いモデルに仕上がっています。
また、従来の 2-stage 手法における領域検出のデファクトスタンダードなテクニックである RoI Pooling を改良する RoI Align を提案していますが、この技術は汎用性が高く、以降の手法においても利用されています。
以上です。
ここまでご覧いただきありがとうございました。
コメント