グーグル傘下のDeepMind（ディープマインド）による機械学習システムが、ヴィデオゲーム「アタリ」をプレイする方法を学習して一躍脚光を浴びたのは、2014年のことだった。このシステムはゲームに勝ち、人間より高いスコアを獲得することに成功した［日本語版記事］。だが実は、システムは学んだことを記憶していたわけではなかった。

関連記事：ディープマインドはいかにして生まれたか？

当時のシステムでは、違うゲームを始めるたびに新しいニューラルネットワークをつくらなければならなかった。同一のシステムが、たとえば「スペースインヴェーダー」と「ブロック崩し」を続けてプレイすることはできなかったのだ。

しかしこのほど、ニューラルネットワークが自分の学習した情報を記憶し、再利用できるようにするアルゴリズムを、ディープマインドとインペリアル・カレッジ・ロンドンの研究者が開発した。

「これまでのシステムは、ゲームをプレイする方法を学ぶことはできましたが、1つのゲームしか学習できませんでした」と、ディープマインドの研究者で、論文の筆頭著者であるジェイムズ・カークパトリックは説明する。「われわれがこの論文で説明しているのは、複数のゲームを連続でプレイできるシステムです」

『Proceedings of the National Academy of Sciences』（PNAS）誌に3月13日付けで発表されたこの論文によれば、ディープマインドのAIシステムは、機械学習の一種である「教師あり学習」と「強化学習」のロジックを用いることで、追加学習（sequential learning）が可能になったという。ディープマインドは、ブログでもこの点について説明している。

カークパトリックによると、ニューラルネットワークとAIが抱えている「大きな欠点」は、あるタスクで学習したことを次のタスクに引き継げないことだ。研究チームは論文のなかで、「複数のタスクを忘れることなく順番に学習できる能力は、生物学的な知能と人工知能の核となる要素だ」と述べている。

ゆっくり学べ、たくさん記憶しろ

AIシステムに記憶する能力をもたせるために、ディープマインドの研究者は「Elastic Weight Consolidation」（EWC）と呼ばれるアルゴリズムを開発した。カークパトリックの説明によれば、このアルゴリズムは、ゲームをうまくプレイするうえで学んだ内容から取捨選択し、最も役に立つ内容を保持するという。「われわれのアプローチでは、何を学習するかをタスクの重要性に基づいて選択し、学習するペースを落とすことによって古いタスクを記憶できるようにしている」と論文では説明されている。

「われわれは、（学習するゲームを変更していくときに）AIが非常にゆっくりとしたペースで学べるようにしました」とカークパトリックは言う。「こうすることで、新しいタスクを学習しつつ、かつ以前の学習内容に上書きされることがなくなるのです」

このアルゴリズムをテストするためにディープマインドが使用したのが、「deep Q-Network」（DQN）と呼ばれるディープニューラルネットワークだ。このDQNは、以前にアタリで勝利を収めたときにも使われていたが、今回はEWCアルゴリズムによって“強化”されていた。

ディープマインドは、このアルゴリズムとニューラルネットワークのテストを、ランダムに選択した10パターンのアタリで行った。これらのゲームはすべて、このAIが人間と同じくらいうまくプレイできることがすでにわかっていたものだ。そして、DQNが1つのゲームを2,000万回プレイしたら、自動的に次のゲームに移るようにした。

「以前なら、DQNはゲームごとにプレイする方法を学ばなければならなかった」と論文には書かれている。「それに対し、EWCで強化されたDQNエージェントは、記憶を保持したまま多くのゲームを学習することができた」

さまざまなゲームにおけるスコアの変化。赤い線はEWCを使った場合。黒い線は、それぞれのゲームを単独で学習した場合。IMAGE COURTESY OF DEEPMIND / PNAS

ただし、決してこのシステムが完全というわけではない。たしかに、システムは過去の経験から学習し、最も役に立つ情報を記憶できるようになった。だが、ニューラルネットワークがひとつのゲームのみをプレイしているときと同じくらいうまくプレイすることはできなかった。

「現時点では、AIが追加学習できることは証明しましたが、その学習効率を高めることはできませんでした」とカークパトリックは言う。「われわれの次のステップは、追加学習を利用して現実世界のことを学習させ、その効率を高めることです」