濫読した論文の概要をメモしています。
精読していないため、誤りを含んでいる可能性があります。
なお、誤りを見つけた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | ECCV2016 |
発行日 | 2015年12月8日 |
リンク | https://arxiv.org/pdf/1512.02325.pdf |
要約
- 従来の Shingle Shot 手法より早く高精度な認識モデル SSD を提案
- CNN の中間特徴を利用して様々なスケールの物体を認識するため 2-stage と同レベルの精度
- PASCAL VOC, MSCOCO, ILSVRC データセットで最新モデルと同等の精度を達成

先行研究と比較した優位性
1-stage 系の手法(YOLO)と比較すると、FCN(Fully Convolutional Network)の中間特徴を認識に利用しているかどうかが異なる。
従来のモデルは最後に得られる特徴マップのみを利用していたため、1 つの特徴マップが担当している領域が広くなっており比較的小さい物体が検出できない課題があった。
本手法は小さい領域を担当している中間特徴マップを認識に利用するため小さい物体に対しても頑健に認識することができる。
また、 2-stage 系の手法(Faster R-CNN)と比較すると、RPN(Region Proposal Network)を利用していない End-to-End な手法である点が異なるため、認識速度が早い。
学習・評価に利用したデータセット
学習・評価に ILSVRC データセット、 PASCAL VOC データセット、 COCO データセットを利用。
関連論文
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- You Only Look Once: Unified, Real-Time Object Detection
所感
1-stage 系の手法として YOLO と並び名高い SSD の論文を紹介しました。
SSD をベースにした手法は FPN, M2Det などがあり、2020 年現在においても多数利用されています。
特に 1-stage 系の高精度な手法はこの SSD の派生系が多い印象です。なお、高速な手法は YOLO ベースが多い印象です。
データ拡張や hard negative mining についても触れており、これらのテクニックもまたデファクトスタンダード的に利用されているため、一読の価値ありかと思います。
以上です。
ここまでご覧いただきありがとうございました。
コメント