強化学習 論文紹介

【論文簡易紹介】NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING

強化学習

濫読した論文の概要をメモしています。

精読していないため、誤りを含んでいる可能性があります。
なお、誤りを見つけた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌ICLR2017
発行日2016年11月5日
リンクhttps://arxiv.org/pdf/1611.01578.pdf
NASによって生成された CNN(論文より引用)

要約

  • ディープラーニングのモデル構造を生成する RNN モデルを強化学習で最適化する NAS を提案
  • 画像分類タスクに合わせて作成したモデルは Cifar-10 の誤認識率 3.65% で SOTA を達成
  • Penn Treebank に合わせて作成したモデルは perplexity 62.4 で SOTA を達成

先行研究と比較した優位性

既存の最適化手法は限られた空間のみを探索対象にしていた。

一部の手法ではベイズ最適化により広い探索空間を対象にしているものもあったが限られたタスクにしか利用できず、応用性の高いものはほとんど存在しなかった。

本手法では パラメータをサンプリングしながら最適化を実施していく。この手法は機械学習の分野で多くの成功例を排出している。

学習・評価に利用したデータセット

Cifar-10

学習・評価には Cifar-10 データセットを利用。

行動の探索空間は以下の通り。

  • CNN
    • filter height [1, 3, 5, 7]
    • filter width [1, 3, 5, 7]
    • number of filter [24, 36, 48, 64]
    • stride [1, 2, 3] or [1]
  • Batch Normalization
  • ReLU
  • Skip Connection

Penn Treebank

学習・評価には Penn Treebank データセットを利用。

行動の探索空間数は 6 * 10^16 程度。

関連論文

所感

2020 年現在も活発に研究が行われている NAS が初めて提案された論文を読みました。

このようなモデルのアーキテクチャそのものを学習することはメタラーニングと呼ばれます。

ディープラーニングは特徴の抽出を自動で行ってくれるものの、モデル設計自体は人手で行わなければなりません。そのため、どのようなモデル設計にすればよいのかやハイパーパラメータをどのようにチューニングすればよいのかはあまり研究が進んでいませんでした。

この論文のようにモデルの構成そのものを強化学習を利用して最適化することによって(膨大な時間がかかっていた)ハイパーパラメータのチューニングにかかるコスト削減が期待できそうです。

なお、モデルのアーキテクチャを自動で設計してくれるというのは事実ですが、探索空間の定義は人手で行っているため、人間も知らないようなモデルが出来上がるわけではない点には注意が必要です。

以上です。
ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました