物体検出 論文紹介

【論文簡易紹介】EfficientDet: Scalable and Efficient Object Detection

物体検出

濫読した論文の概要をメモしています。

精読していないため、誤りを含んでいる可能性があります。
なお、誤りを見つけた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

学会・論文誌
発効日2019年11月20日
論文リンクhttps://arxiv.org/pdf/1911.09070.pdf

要約

  • マルチスケールな特徴を効率よく合成する Bidirectional FPN の導入
  • 多段の特徴量に重みを付けて合成する Weighted Feature Fusion の導入
  • “Compound scaling method” によりwidth / depth / resolution のパラメータを最適化した EfficientDet シリーズを提案
  • MS COCO2017 に対して51.0 mAP の精度達成
EfficiendDet のアーキテクチャ(論文より引用)

先行研究と比較した優位性

従来の手法ではバックボーンのネットワークに ResNet を利用していたが、バックボーンのネットワークにはより性能の良い EfficientNet を利用している。

また、EfficientNet にて提案された、”Compound scaling method” を利用することで速度重視のモデルや精度重視のモデルを含む Efficient Det シリーズを提案している。

さらに多段の特徴に対して、従来は単方向での結合方法のみが考慮されているケースが多かったが、双方向での結合を採用している。

最後に、多段の特徴を結合する際に重みづけを行う、 Weighed Feature Fusion を提案している。従来は、単に全て同じ重みで足していた。

学習・評価に利用したデータセット

学習・評価ともに MS COCO 2017 を利用。

関連論文

所感

最新の物体検出器 EfficientDet を紹介しました。

物体検出の手法は 1-stage 系の手法(SSD, YOLO等)と 2-stage 系の手法に分類され、長いあいだ 1-stage 系の手法は最新の 2-stage 系の手法の精度を上回ることができていませんでした。(速度は圧倒的に 1-stage の方が早いですが。)

この論文では遂に 1-stage 系の手法が 2-stage 系の手法を上回る精度を獲得したようです。

今後、より高精度な 2-stage 系の手法が登場するのか 1-stage 系の手法が主流に切り替わっていくのか目が離せませんね。

Efficient Net の工夫である Compound scaling method の利用と、 Efficient Net のバックボーン採用が精度向上の理由として記載されており、精度向上が Efficient Net の成果に依存しているように読めた点が少々気になりました。

Efficient Net の利用に大きく依存しているのであれば、異なるアーキテクチャに Efficient Net を流用するだけでこの精度を上回るものが出てくる、といったことが起きてもおかしくないと思いました。

バックボーンのネットワーク選びはかなり重要であるということなのかもしれません。より高精度な モデルである BiT をバックボーンにしたらどうなるのかは、気になるところですね(どちらも Google の提出した論文なので、そのうち出でくる気がしますが)。

なお、 BiT については以下の記事にてメモしています。よろしければご覧ください。

以上です。ここまでご覧いただき、ありがとうございました。

コメント

タイトルとURLをコピーしました