画像分類 論文紹介

【論文簡易紹介】BiT (Large Scale Learning of General Visual Representations for Transfer)

画像分類

メタ情報

学会・論文誌
arxiv 提出日2019年12月24日
論文リンクhttps://arxiv.org/pdf/1912.11370.pdf

要約

  • 学習やパラメータチューニングの手間が減る”転移学習”について深く研究
  • Fine Tuning で様々なタスクに転移可能な事前学習モデル BiT を提案
  • ILSVRC Top1-accuracy 87.8%, Cifar-10 99.3%, その他 20 のデータセットで高精度
  • Tuning 時の 1 クラスあたり学習データが 25 枚で ILSVRC top1 accuracy 86.4%, Cifar-10 97.6%
1クラスあたりの学習データ枚数ごとの精度(論文より引用)

先行研究と比較した優位性

先行研究で発表されていた一般的な(データセットに特化していない)モデルと比較して、 5 つのデータセットに対して既存の SOTA を上回る精度を達成している。

最適化手法や入力画像サイズ、データオーグメンテーションといった学習時に考慮すべきハイパーパラメータをランダムサーチによって最適化しており、データセットの大きさに従って選ぶだけで良い。

Upstream のタスク(事前学習)と Downstream のタスク(Fine Tuning)に問題を分離しており、Upstream のタスクでは最大で ResNet 101 の チャネル数を 4 倍にした Bit-L(パラメータ数 9.3 億)の巨大モデルを提案している。

学習・評価に利用したデータセット

学習データ

事前学習
  • Bit S / ILSVRC-2012 (1.3M)
  • Bit M / ImageNet-21k (14M)
  • Bit L / JFT (300M)
Fine Tuning
  • 各評価データに合わせたデータセットを利用

評価データ

  • ILSVRC-2012
  • Cifar-10 / 100
  • Oxford-IIIT Pet
  • Oxford Flowers-102
  • VTAB

関連論文

所感

ResNet-101 を 4 倍 幅広にした巨大なモデルによる事前学習モデルが提案され、SOTA を大きく更新しました。

巨大な事前学習モデル + Fine Tuning のようなアーキテクチャは自然言語処理の世界での “BERT” が代表的ですが、今後もこのような形が増えていくのでしょうか。

汎用的な特徴を表現できる事前学習モデルは Few Shot Learning が可能になります。

学習データが多く手に入らないような状況は実際のビジネスにおいて頻発するため、Few Shot Learning が可能になることは実用的な面でも非常にありがたいです。実際に論文中にも学習データが 25 枚程度しか無くてもかなりの精度が出るとの記載がありましたね。

ただし、もはや一般的なユーザーが作成できるような規模のモデルではなくなってきており、 Google 社以外での再現はマシンスペック的に難しそうなのが少し残念なところです。

画像分類の世界は ResNet の提案以降大きなアーキテクチャの更新がなく、トレードオフ改善やマシンパワーを活かした精度向上が続いている現状なのでそろそろ抜本的に新しいアーキテクチャの登場があると個人的には胸が躍ります。今後の成果に期待です。

今回は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました