濫読した論文の概要をメモしています。
斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
なお、誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | ICCV2019 |
発行日 | 2019年5月6日 |
リンク | https://arxiv.org/pdf/1905.02244.pdf |

要約
- SE機構、NAS の利用により新たなモデルMobileNetV3-Large、 MobileNetV3-Smallを提案
- V3-Large は V2 よりも 3.2% 高精度でレイテンシを 20% 削減
- V3-Small は V2(の同等サイズモデル)よりも 6.6% 高精度でレイテンシ同程度
- 物体検出・セマンティックセグメンテーションにおいても高効率な成果
先行研究と比較した優位性
Squeeze-and-Excitation 機構の導入により計算コストをほとんど増加させずに効率的な特徴抽出を可能にしている。
また、NAS(Neural Architecture Search)を利用してハイパーパラメータを探索する際の報酬を単に精度とするだけでなく、精度 * レイテンシ とすることで精度とレイテンシを両立するアーキテクチャの探索に成功している。
さらに、活性化関数を h-swish に変更しており、ほとんど精度を落とすことなくレイテンシの削減に成功している。
学習・評価
利用するデバイスは Google Pixel Phone で 単一 CPU とする。
全ての分野での評価において実行速度、 MAdds(モデルが行う加算・乗算の回数)も測定している。
分類
データセットは ImageNetを利用。Top1-Accuracy を精度評価指標に利用。
物体検出
データセットは MSCOCO を利用。mAP を精度評価指標に利用。
ベースとなるモデルは SSDLite で、バックボーンのネットワークを変更して評価を実施している。
セマンティックセグメンテーション
データセットは Cityscapes を利用。mIoU を精度評価指標に利用。
従来利用されていた R-SAPP を軽量化した、 LR-SAPP に変更している。
関連論文
- MobileNetV2: Inverted Residuals and Linear Bottlenecks
- MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
所感
軽量、高速なアーキテクチャである MobileNet の最新版(2020年現在)を紹介しました。
先行研究の MobileNetV2 の時点で相当パラメータ数は削減されていたためか V3 はそこまでの速度向上はなく、トレードオフを改善した(速度を落とさず精度向上した)ことがメインの成果であるように見受けられました。
個人的には NAS の報酬設計を単純に精度とするのではなく、レイテンシを加味した報酬としている点に面白さを感じました。効率の良いネットワークを探索するための NAS の報酬設計については今後も研究が勧められていく可能性が高そうですね。
本日は以上です。
ここまでご覧いただきありがとうございました。
コメント