濫読した論文の概要をメモしています。
精読していないため、誤りを含んでいる可能性があります。
なお、誤りを見つけた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | ICLR2017 |
発行日 | 2016年11月5日 |
リンク | https://arxiv.org/pdf/1611.01578.pdf |

要約
- ディープラーニングのモデル構造を生成する RNN モデルを強化学習で最適化する NAS を提案
- 画像分類タスクに合わせて作成したモデルは Cifar-10 の誤認識率 3.65% で SOTA を達成
- Penn Treebank に合わせて作成したモデルは perplexity 62.4 で SOTA を達成
先行研究と比較した優位性
既存の最適化手法は限られた空間のみを探索対象にしていた。
一部の手法ではベイズ最適化により広い探索空間を対象にしているものもあったが限られたタスクにしか利用できず、応用性の高いものはほとんど存在しなかった。
本手法では パラメータをサンプリングしながら最適化を実施していく。この手法は機械学習の分野で多くの成功例を排出している。
学習・評価に利用したデータセット
Cifar-10
学習・評価には Cifar-10 データセットを利用。
行動の探索空間は以下の通り。
- CNN
- filter height [1, 3, 5, 7]
- filter width [1, 3, 5, 7]
- number of filter [24, 36, 48, 64]
- stride [1, 2, 3] or [1]
- Batch Normalization
- ReLU
- Skip Connection
Penn Treebank
学習・評価には Penn Treebank データセットを利用。
行動の探索空間数は 6 * 10^16 程度。
関連論文
- Sequence to sequence learning with neural networks
- Deep Residual Learning for Image Recognition
所感
2020 年現在も活発に研究が行われている NAS が初めて提案された論文を読みました。
このようなモデルのアーキテクチャそのものを学習することはメタラーニングと呼ばれます。
ディープラーニングは特徴の抽出を自動で行ってくれるものの、モデル設計自体は人手で行わなければなりません。そのため、どのようなモデル設計にすればよいのかやハイパーパラメータをどのようにチューニングすればよいのかはあまり研究が進んでいませんでした。
この論文のようにモデルの構成そのものを強化学習を利用して最適化することによって(膨大な時間がかかっていた)ハイパーパラメータのチューニングにかかるコスト削減が期待できそうです。
なお、モデルのアーキテクチャを自動で設計してくれるというのは事実ですが、探索空間の定義は人手で行っているため、人間も知らないようなモデルが出来上がるわけではない点には注意が必要です。
以上です。
ここまでご覧いただきありがとうございました。
コメント