物体検出 画像分類 論文紹介

【論文簡易紹介】Squeeze-and-Excitation Networks

物体検出

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌CVPR 2018
発行日2017年9月5日
リンクhttps://arxiv.org/pdf/1709.01507.pdf

要約

  • CNN のチャネル同士の関係に注目して重み付けを行う SE-Block を提案
  • ILSVRC 2017 で Top-5 error rate 2.251 を達成し、優勝
  • 既存のアーキテクチャにコストなしで挿入可能
SE-Block のアーキテクチャ図(論文より引用)

先行研究と比較した優位性

従来の多層 CNN を利用した画像分類ネットワークは表現力を向上させるために CNN の空間的な関係性を研究することがほとんどだった。

本研究では CNN のチャネル方向に着目して層に重み付けを行う SE-Block を提案した。

SE-Block の利用により空間的な依存関係だけでなく、チャネル方向に対してもどのチャネルが有効なのかを重み付けすることができるようになったため、大きく精度が向上した。

また、SE-Block は計算複雑性がないため既存のアーキテクチャに SE-Block を挿入してもほとんど計算コストは増加しないため、計算量をほとんど増加させずに精度を向上させることができる。

学習・評価

画像分類

学習に ILSVRC 2012 データセットを 128 万枚、評価に 5 万枚を利用した。

SENet に変更することで精度(top-1 err / top-5 err)を向上させながら、ほとんど計算コスト(GFLOPs)が増加していないことがわかる。

過去の提案手法と SE-Block を適用した結果の比較(論文より引用)

また、 MobileNet に適用した場合の精度向上も示している。

さらに、 CIFAR-10、CIFAR-100、PLACES365 データセットにおいても精度向上することを示している。

物体認識

COCO データセットに対して Faster R-CNN のバックボーンネットワークを変更した場合の精度も算出しており、こちらでも精度が向上している。

物体認識のバックボーンネットワークごとの精度(論文より引用)

関連論文

所感

SE-Block を提案し、 ILSVRC で優勝した SENet の論文を読みました。

Conclusion でも触れられていますが、計算量をほとんど増加させずに精度を向上することに成功しているためモデル圧縮等の文脈でもこの機構が利用されることがあります。(実際に軽量・高速なアーキテクチャである MobileNetV3 でも利用されています。)

論文では SE-Block の働きを 「dynamic channel-wise feature recalibration(動的なチャネル方向の重みこ修正)」と読んでいますが、「自分自身を Global Average Pooling した後に全結合層を通してチャネル方向の重み情報を作成、自分自身にその重みを掛け合わせることで重みつき特徴を出力する」という処理は、自然言語処理の世界でほとんど同時期に提案された Self-Attention 機構に非常に似通っています。

似たような機構が同時期に提案されて、それぞれ有名な論文になっていることから Self-Attention ライクな機構が Deep Learning にとって非常に有効なものであると言えるのかもしれません。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました