強化学習

【簡易論文紹介】Prioritized Experience Replay

強化学習

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌ICLR 2016
発行日2015年11月18日
リンクhttps://arxiv.org/abs/1511.05952

要約

  • 優先度をつけて経験再生する prioritized experiment replayを提案
  • Atari 2600 において通常の DQN を 49 ゲーム中 41 で上回り SOTA を達成
  • 従来の DQN の 2 倍程度の速度で学習が可能に
従来手法・提案手法の学習曲線(論文より引用)

先行研究と比較した優位性

従来の DQN は経験再生と呼ばれる手法を用いて学習を行なっていた。

経験再生とは、エージェントが経験した状態と行動を一定数メモリに保存しておき、学習時はランダムにメモリから状態と行動をピックアップして学習する手法である。

なお、経験再生を行わずに学習をすると 強化学習スキームの性質上、非常に似通った状態と行動を連続して学習してしまうことになるため、特定の状況にオーバーフィッティングしてしまい学習のパフォーマンスが落ちてしまうことが知られている。

経験再生はエージェントが経験した状態と行動を過去 N ステップほどメモリに保存しているが、保存されている状態の中には学習にとって有効なものとそうでないものがあり、ランダムに取得して学習するのは効率が悪いという課題がある。

本稿では上記課題への対処のために prioritized experience replay(優先度付き経験再生)を提案している。

これは以下二つによって成り立つ。

  • 大事な状態行動のみをメモリに保存する
  • ランダムではなく状態の優先度に従って確率的にサンプリングする

学習・評価

ALE(Arcade Learning Environment)から Atari 2600 に含まれる 49 のゲームを利用した。

報酬は得点を取得したときに +1 、得点を失ったときに -1 、 それ以外はすべて 0 とする。

先行研究である DQN, Double DQN とのスコアを比較した表は以下の通り。

DQN, Double DQN をベースにした experimental replay の効果比較表(論文より引用)

関連論文

所感

優先度つき経験再生を導入した Prioritized Experience Replay を読みました。

Atari 2600 の中には『ブロック崩し』がありますが、この例で考えると分かりやすいかもしれません。

ブロック崩しをプレイしている最中は、ボールが自分の操作する板の付近に存在する時以外のフレームでは行動が得点にほとんど影響しません。

一方で、ボールが板の付近に存在する場合はボールの近くに移動しないとゲームが終了してしまうので、行動が得点に大きく影響します。

これらの状況をランダムにサンプリングして学習するのは非効率で、優先的にスコアに影響のありそうな状況を学習しようというのが優先度付き経験再生の基本的な考え方です。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました