物体検出 画像分類 論文紹介

【論文簡易紹介】MobileNetV2: Inverted Residuals and Linear Bottlenecks

物体検出

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌CVPR2018
発行日2018年1月13日
リンクhttps://arxiv.org/pdf/1801.04381.pdf
Inverted residual block (論文より引用)

要約

  • Inverted residual 機構を採用した軽量・高速なアーキテクチャ MobileNetV2 を提案
  • SSD の Backbone のネットワークを depthwise-separable に変更した SSDLite を提案
  • MobileDeepLabV3 を提案

先行研究と比較した優位性

従来の Residual 機構は 1×1 conv でチャネル数を減らしてから計算量の多い 3×3 conv を通し、再度 1×1 conv でチャネル数を戻していた。

しかし、depthwise-separable convolution を行っている CNN においては depthwise (3×3 conv)よりもpointwise(1×1 conv)の計算量がボトルネックになっていた。

Inverted Residual 機構は 1×1 conv でチャネル数を増やしてから 3×3 conv を通し、再度 1×1 conv でチャネル数を減らしている。

これによりボトルネックであった pointwise (1×1 conv)を小さな 2 つの 1×1 conv で近似できるようになったため、計算量の削減につながった。

学習・評価

ネットワークの演算における加算と乗算の回数を MAdds として精度評価の指標に採用している。

分類

データセットは ImageNetを利用。Top1-Accuracy を精度評価指標に利用。

物体検出

データセットは MSCOCO を利用。mAP を精度評価指標に利用。

ベースとなるモデルは SSDLite で、バックボーンのネットワークを変更して評価を実施している。

セマンティックセグメンテーション

データセットは PASCAL VOC2012 を利用。mIoU を精度評価指標に利用。

ベースとなるモデルは mobileDeepLavV3 で、 特徴抽出器(MobileNetV1、MobileNetV2、ResNet101)ごとに精度を測定している。なお、COCO データセットで事前学習している。

関連論文

所感

Inverted residual 機構が導入された MobileNetV2 の論文を読みました。

物体認識やセマンティックセグメンテーションにおいても高速化を達成していることから、ベースとなる CNN の性能は画像認識の様々なタスクにおいて非常に重要であることがわかります。

物体検出とセマンティックセグメンテーションは自動運転における基幹技術になりうるため、リアルタイムでの認識ができるモデルはビジネス面でのニーズもどんどん高まることが予想できます。

今後の発展が楽しみですね。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました