VIDEO BY WIRED US（字幕は英語のみ。画面右下の「CC」ボタンで字幕のオン/オフが可能）

「BRETT（ブレット）」と呼ばれるそのロボットは、子ども用の立体パズルを手に持ち、四角形の積み木を穴に押し込もうとしている。名前は「退屈な作業から解放してくれるバークレーのロボット（Berkeley Robot for the Elimination of Tedious Tasks）」の頭文字を取って付けられた。

ブレットが不満そうにパズルと格闘する様子は、まるで人間の赤ん坊のようだ。手に持った積み木がパズルの枠に当たってカツンと音を立てると、驚いたように積み木を引っ込める。

それでもブレットはあきらめない。なぜなら普通のロボットとは違い、積み木を正しい形の穴にはめるという目標を与えられたからだ。解決法は教えられていないが、繰り返し挑戦し、やがては目標を達成する。つまり、ブレットは図体の大きい子どものように、自分でパズルのやり方を学んでいるのだ。

目標達成の方法を強化学習で導き出す

子どもでもできるくらい簡単なんだろうって？ とんでもない。ロボット工学においては非常に重要なことだ。なぜなら、未来の機械が真の意味でインテリジェントで役立つものになるには、何かを操る方法だけでなく、新しい環境にあって自分自身で問題を解決する術を学ぶ必要があるからだ。

ロボットに何かを教える場合、正確なコマンドを使ってプログラムを組む。例えば、クルマを組み立てるといった場合だ。しかし現在では、機械学習にはより進化した2つの方法がある。1つは模倣学習と呼ばれ、ロボットを操作することで、ロボット自身にどのように動けばいいのか示してやる方法だ（実際にロボットアームをつかんで動かしてやると、その動きを学ぶマシンもある）。

もう1つは強化学習で、これがブレットがやっていたことだ。強化学習では、ロボットは積み木を穴に入れる必要があるということだけを言われ、「こうやって穴に積み木を入れるんだよ」といったやり方を教えられることはない。ロボットを動かしているAI（人工知能）は、目標に近づくたびに報酬を与えられる（このために強化学習という呼称が使われている）。

シミュレータープラットフォームを用いた強化学習の実験について、聞いたことがあるかもしれない。有名な例が、二足歩行するAIだ。できるだけ速く前進するという目標を与えられたAIは、歩くことを時間をかけて学び、最終的には走ってみせた。つまり、走ることを「発明」したのだ。

AIはシミュレーターのなかでは、こうした試行錯誤を素早く繰り返すことができる。しかし現実世界のロボットの動きはゆっくりしたものだ。

カリフォルニア大学バークレー校でブレットの学習プロジェクトを率いるピーター・アビールは、「試行錯誤を通じて学んでいく強化学習で多くの場合に問題となるのは、ゴールに到達するまでに非常に多くの試行錯誤を繰り返す必要があることです」と説明する。「このため、ロボットにすべてをやらせようとすると、必ずしも簡単というわけにはいきません」

もっと優れたアルゴリズムを自ら生成する可能性

この問題の一部は、機械学習のアルゴリズムがまだ完成していないという点にある。研究者たちは現在、「学習」を次の段階に引き上げることに取り組んでいる。具体的には、学ぶことを学ばせようとしているのだ。

もっと速く学習するように、ブレットのアルゴリズムを調整することは可能である。しかし、もしロボットが自分自身を調整する力を身につけたとしたらどうだろう？ それは、学ぶためのアルゴリズムそのものを学習していくロボットになる。

アビールは「結果として、人間が設計するより優れたアルゴリズムが生まれる可能性もあります」と話す。「数時間か、もしかしたらもっと短い時間で、ロボットに歩行を教えられる強化学習アルゴリズムができるもかもしれません」

ロボットが活躍する未来で人間の気が狂わないようにするには、こうしたアルゴリズムが必要不可欠になる。ロボットが学習することを学ばなければ、人間がいつもロボットの手を握って、ものごとを教えてやる必要があるからだ。

アビールの研究室に所属するチェルシー・フィンは、「この驚くほど多様な世界でロボットが合理的に行動するには、新しい状況に素早く適応しなければなりません」と話す。「リヴィングルームの様子は家ごとに違います。特定のリヴィングだけで訓練されたロボットは、あなたの家のリヴィングには対応できなくなってしまいますから」

立体パズルへの挑戦は文字通り、そして比喩的にも子どもの遊びである。だが、未来のロボットはより賢く、素早く、器用で、混沌とした人間の世界でもやっていけるようになるだろう。それには手始めに、学ぶべきことがあるのだ。