画像分類 論文紹介

【論文簡易紹介】Deep Residual Learning for Image Recognition

画像分類

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌CVPR 2016
発行日2015年12月10日
リンクhttps://arxiv.org/pdf/1512.03385.pdf

要約

  • 後続の層に元の値を加算することで”残差(residual)”を学習する Residual Module を提案
  • Residual Module を利用した 151 層(VGG の約 8倍) の CNN からなる ResNet を提案
  • ILSVRC 2015 , COCO 2015 コンペで優勝
Residual 機構(論文より引用)

先行研究と比較した優位性

先行研究の成果から、 CNN の層を多くするほどネットワークの表現力が高まり認識精度が向上することが明らかになっていた。

一方で、あまりに多層の CNN の学習は 勾配消失 あるいは 勾配爆発 が発生するため認識精度がかえって低下することも明らかになっていた。

提案手法は Residual Module のなかに Shortcut Connection(あるいは Skip Connection とも呼ばれる)を持っていることからバックプロパゲーション時の微分値が極端に小さな値をとることが少ないため、勾配消失問題が起こりにくい。( 1000層のネットワークでも勾配消失しないとのこと)

学習・評価

画像分類

ImageNet データセット、CIFAR-10 データセットにおいて評価を実施している。

下図は ImageNet データセットに対する各手法の精度(誤認識率)を示す。

ImageNet における提案手法らの精度(論文より引用)

物体検出

MS COCO データセット、PASCAL VOC データセットに対して精度評価を実施している。

下図は MSCOCO データセットに対して Faster R-CNN のバックボーンネットワークを変更した時の精度変化を示す。

MSCOCO データセットに対するバックボーンネットワークごとの精度(論文より引用)

関連論文

所感

2020年2月現在で 38000 を超える被引用数を持つ、 ResNet の論文を読みました。

ILSVRC 2015 での優勝や、人間を上回る画像認識精度を達成したことからも非常に有名な論文です。

実際に ResNet の提案以降に画像分類タスクで SOTA な精度を達成した手法は 2020 年 2 月現在から振り返ってみても、ほとんどが ResNet をベースに改良を加えたものになっています。

理解を深めるためにも、 1 度は目を通す価値のある論文かと思います。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました