濫読した論文の概要をメモしています。
斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | CVPR2018 |
発行日 | 2018年1月13日 |
リンク | https://arxiv.org/pdf/1801.04381.pdf |

要約
- Inverted residual 機構を採用した軽量・高速なアーキテクチャ MobileNetV2 を提案
- SSD の Backbone のネットワークを depthwise-separable に変更した SSDLite を提案
- MobileDeepLabV3 を提案
先行研究と比較した優位性
従来の Residual 機構は 1×1 conv でチャネル数を減らしてから計算量の多い 3×3 conv を通し、再度 1×1 conv でチャネル数を戻していた。
しかし、depthwise-separable convolution を行っている CNN においては depthwise (3×3 conv)よりもpointwise(1×1 conv)の計算量がボトルネックになっていた。
Inverted Residual 機構は 1×1 conv でチャネル数を増やしてから 3×3 conv を通し、再度 1×1 conv でチャネル数を減らしている。
これによりボトルネックであった pointwise (1×1 conv)を小さな 2 つの 1×1 conv で近似できるようになったため、計算量の削減につながった。
学習・評価
ネットワークの演算における加算と乗算の回数を MAdds として精度評価の指標に採用している。
分類
データセットは ImageNetを利用。Top1-Accuracy を精度評価指標に利用。
物体検出
データセットは MSCOCO を利用。mAP を精度評価指標に利用。
ベースとなるモデルは SSDLite で、バックボーンのネットワークを変更して評価を実施している。
セマンティックセグメンテーション
データセットは PASCAL VOC2012 を利用。mIoU を精度評価指標に利用。
ベースとなるモデルは mobileDeepLavV3 で、 特徴抽出器(MobileNetV1、MobileNetV2、ResNet101)ごとに精度を測定している。なお、COCO データセットで事前学習している。
関連論文
- MobileNets: Efficient Convolutional Neural Networks for Mobile Vision
- Rethinking atrous convolution for semantic image segmentation
所感
Inverted residual 機構が導入された MobileNetV2 の論文を読みました。
物体認識やセマンティックセグメンテーションにおいても高速化を達成していることから、ベースとなる CNN の性能は画像認識の様々なタスクにおいて非常に重要であることがわかります。
物体検出とセマンティックセグメンテーションは自動運転における基幹技術になりうるため、リアルタイムでの認識ができるモデルはビジネス面でのニーズもどんどん高まることが予想できます。
今後の発展が楽しみですね。
本日は以上です。ここまでご覧いただきありがとうございました。
コメント