読者です 読者をやめる 読者になる 読者になる

OpenAIと今後の強化学習

人工知能 強化学習

OpenAIがUniverseという強化学習のプラットフォームをリリースして話題になっているみたいです。

 

universe.openai.com

 

そもそもOpenAIとは何かというと、イーロンマスク、ピーターティールといった名だたるメンバーが後援しており、さらにMicrosoftとも提携している今とてもホットな非営利AI研究会社です。

彼らは「安全なAIの開発」と「平等かつ誰にでもAIの恩恵が受けられる世界」を志向しており、その一環として今月Universeを発表しました。

強化学習は以前記事で書いたようにagentがenvironmentと試行錯誤しながら、報酬を最大化するように学習していくという機械学習の手法です。

ここで常につきまとってくる問題として、環境を現実世界ベースにするのは難しいということが挙げられます。例えば対話システムについて考えてみると、学習中の訳わからないことばかり言うようなAIと積極的にお話したいと思ってくれるユーザーはいません。一方で、これを仮想世界ベースにするとこのような制限がありません。現実世界ではありえないくらいの、計算スピードと比例した量の学習が可能になります。

そこで、環境としてゲームを使うのが良いのでは、という話になります。もちろんゲームAIを作ったところで今のところ社会に実益はありませんが、非常に複雑なゲームを解けるくらいのAIを作ることができれば今後面白い応用はいくらでも出てくると思います。

 

さて、それでは今後の強化学習について(僕も詳しい訳ではないですが)ちょっと予想をしてみます。

まず、Universeにあるゲームを見てください。Starcraftとかいう(僕は詳しい訳ではないですが)非常に複雑なゲームがあったり、こんなのAIで解ける訳ないだろ!というものがちらほらあったりします。

しかし、もちろんOpenAIはこれらのゲームを高いレベルでプレーするAIを作れるだろうと予測しているのだと思います。実際に、それを裏付ける研究アプローチがあるみたいなので、それを紹介してみましょう。

 

一つ目は、transfer learning(転移学習)というものです。今までは例えば囲碁のAIを使って将棋をプレーさせることはできませんでした。しかし、類似したタスクで学習させたAIを新しいタスクに利用することが今後出来ていくのではないか(実際にレーシングゲームでは出来ているらしい)、という話をOpenAIのブログで読みました。これが出来たらかなりすごいですね!理論上はタスクの間でgeneralizationするだけなので、なんかやれそうな気がします。

 

二つ目は、従来のAIの問題としてMontezuma's Revengeのように非常に長いゲームだと、報酬がまばらで学習がとても難しいことが知られています(例えば前回書いたDQNだと全く歯が立ちません)。

しかし、Hierarchical RLのような手法を使うことによって、subgoalを作ることによってこのように長いゲームも解決できるようになってきているようです。

これは別の見方からすると、

まばらな報酬→学習がもっとうまくいくような報酬

となるように報酬を学習しているという風にも捉えられます。

ともかくこれによって長期的な計画を立てるようなAIが実現できる可能性が高くなるのではないか、と思います。

 

www.youtube.com

 

 

それでは僕が研究している自然言語処理にはどう役に立つのか?

これはまだはっきりとは答えられません。また改めて考えてみたいと思います。

 

三つ目がありました。

模倣学習とか逆強化学習いうのもあります。要するにプロの人間のプレーヤーから学ぶこともできるはずです。