強化学習

【簡易論文紹介】Deep Reinforcement Learning with Double Q-learning

強化学習

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌AAAI 2016
発行日2015年9月22日
リンクhttps://arxiv.org/abs/1509.06461

要約

  • Deep Q-Network が行動価値を過大評価していることを明らかに
  • Double Q-learning によって過大評価を低減する Double Deep Q-Network を提案
  • Atari2600 において DQN のおよそ倍のスコアを達成
DQN, Double DQN の学習曲線(論文より引用)

先行研究と比較した優位性

Deep Q-learning や Q-learning には学習中に行動を決定するための行動価値関数と、行動が正解かどうかを判定するための評価関数が存在するが、従来の研究ではこれら二つの関数は同じものが利用されていた。

行動を選択する関数と同じ関数で正解を定義しているため、選択した行動が過大評価されやすくなり学習のパフォーマンスが低下することが懸念されていた。

本手法は Q-learning において上記の課題を解決するために提案されていた Double Q-learning と呼ばれるテクニックを Deep Q-learning に適用することで同様に課題の解決を図っている。

Double Q-learning は行動を選択するネットワークと正解かどうかを判定するネットワークをそれぞれ独立に用意しておき、それぞれが異なる学習データを同時に学習することでテクニックである。

これにより行動を選択する関数と正解かどうかを判定するネットワークの(アルゴリズムは同じだが)重みが同じものではなくなるため、学習の安定化・パフォーマンスの向上につながっている。

学習・評価

ALE(Arcade Learning Environment)から Atari 2600 に含まれる 49 のゲームを利用した。

報酬は得点を取得したときに +1 、得点を失ったときに -1 、 それ以外はすべて 0 とする。

先行研究である DQN との平均化されたスコアを比較した表は以下の通り。

DQN と Double DQN の平均化スコア比較表(論文より引用)

関連論文

所感

DQN に Double Q-learning を取り入れた Double DQN の論文を読みました。

前提として Q-learning (というか強化学習全般)は正解がない状態で学習を行うので、学習中のモデルで「一番良いと思われる行動」を正解の行動と定義しながら学習を行います。

正解の行動を定義するモデルと学習中に選択する行動を決めるモデルが同じなのは直感的にもあまり良くない感じがしますよね。

この論文ではそれを解消するためにモデルを二つ用意し、それぞれを独立に学習させる、というアイディアを採用した形になります。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました