読者です 読者をやめる 読者になる 読者になる

Doube-DQN with prioritized experience replay

機械学習 強化学習

Deep Q-Network(通称DQN)を試しに使ってみました。

ちょっとだけ説明すると、前回説明した強化学習では状態数が大きい場合、現実的な時間内で実行できないので、近似的な手法が必要になります。

そこでDeep Learningを使ってvalue functionを推定しようという話になります。

しかしこれは一般的に学習が難しくて、DQNのほかにもDouble-Q-learning、prioritized experience replayなどを組み合わせた方が良いです。

Double-Q-learningはDenny Britzさんのもの、

https://github.com/dennybritz/reinforcement-learning

Prioritized Experience Replayはrank-basedですがこれを使わせていただきました。

https://github.com/Damcy/prioritized-experience-replay

実装する際はImportance sampling weightで学習率を重み付けするのだけ気をつけてください。

 

下に結果があります。

epsilon-decayを500kステップ目で0.1まで減らしてしまったので、その後はほとんど学習できてないですね。ちょっと残念です。

 

 

f:id:futsaludy:20161208101910p:plain