もしルービックキューブをさっと解ける人がいたなら、その人は指先が器用でパズルが得意だと考えていいだろう。だが、相手がロボットだとしたら、必ずしもそうとは言えないかもしれない。

人工知能（AI）を研究する「OpenAI」のOpenAIが、このほど人間の片手のようなロボットハンドでルービックキューブの解法を学習するシステムを披露した。OpenAIはイーロン・マスクやサム・アルトマンらが立ち上げた非営利団体である。

OpenAIは、この「Dactyl」と呼ばれるロボットには「人間レヴェルの器用さ」があると主張している。この機械がキューブをクルクルと難なく回転させる様子を撮影した映像を見ると、確かにその通りであるようにも思える。この動画は、ロボットによる操作の革命がようやく到来したことを示すものとして、一部のソーシャルメディアで話題になった。

見落としてはならない重大な点

ただ実際のところ、わたしたち人間にとってあたり前と思えるような操作をロボットができるようになるまでには、まだしばらく時間がかかるかもしれない。

Dactylのデモには見落としてはならない重大な点がある。例えば、このロボットはテストの際に10回中8回もキューブを落下させている。これでは超人的な器用さ、あるいは人間レヴェルの器用さがある証拠とは、とても言えない。また、キューブの操作方法を学ぶためには、シミュレーションによる訓練が1万年分も必要だった。

「まったくの“誇大広告”である、とまで言いません」と、カリフォルニア大学バークレー校のロボット研究者ケン・ゴールドバーグは言う。彼も実験の繰り返しを通じた強化学習によって、AIに“学習”させている。「人々は今回の映像を見て、『なんてことだ、今度はカードをシャッフルしたりするのか』なんて考えたりするでしょうね。でも実際のところ、そうではないのです」

ルービックキューブを操るロボット「Dactyl」の様子。VIDEO BY OPENAI

制約のある器用さ

派手なデモンストレーションは、いまやAIビジネスの標準となっている。企業や大学は、一般人の想像力をかきたてるような印象的なデモを実施したほうが、学術論文やプレスリリースを公表したりするよりも、ニュースになりやすいことを知っているからだ。これは、研究のための人材や顧客、資金の獲得のために激しい競争を繰り広げている企業にとっては、特に重要である。

こうしたデモや、それを取り巻く大騒ぎに批判的な者もいる。「ルービックキューブを80パーセントの割合で落とす6歳児なんて見たことありますか？」と、AIを巡る“熱狂”に批判的な立場をとる認知科学者のゲイリー・マーカスは問いかける。「そんな子どもがいたら、神経科医に診てもらうことになりますよね」

さらに重要なのは、Dactylの器用さは非常に限定的かつ制約があることだ。Dactylは、ちょっかいを出されるような事態（ロボットハンドをおもちゃのキリンでつつくかわいいデモもある）にも対処できる。だが膨大な量の追加トレーニングがなければ、テーブルに置かれたキューブを持ち上げたり、別の握り方でキューブを操作したり、あるいは別のオブジェクトを掴んで操作したりはできないのである。

「ロボット工学の観点からすれば、これが実現できたのは素晴らしいことです」と、強化学習に取り組んできた経験をもつマサチューセッツ工科大学（MIT）教授のレスリー・パック・ケールブリングは言う。一方で、このアプローチでは多くの訓練が必要になるため、これが汎用ロボットにつながることはないだろうとも警告している。それでも「何かしら役立ちそうな要素があるのも事実です」と、彼女は指摘する。

ロボットに応用されてきた強化学習

この映像からはわからないが、Dactylの本当のイノヴェイションは、シミュレーションで学習した内容を現実世界に適用できるところにある。

OpenAIのシステムは、英国に拠点を置くShadow Robot Companyのロボットハンドと、そこにつながれた強力なコンピューターシステム、カメラ、その他のセンサーで構成されている。Dactylは、大量の実験によってニューラルネットワークに手の制御方法を学習させる方法、つまり強化学習の手法を用いて対象の操作方法を見つけ出す。

強化学習を用いたAIのデモには、ほかにも印象的なものがある。とくに有名なものとしては、アルファベット傘下のAI開発企業であるDeepMindが、囲碁AI「AlphaGo」を強化学習で訓練し、極めて難易度が高く繊細なボードゲームである囲碁で人間のチャンピオンに勝利したものがある。

この技術はロボットにも使われてきた。2008年には、グーグルやバイドゥ（百度）で活躍したAI研究者のアンドリュー・エン（吳恩達）が、この技術をドローンに応用して曲芸飛行をさせている。数年後、エンの教え子のひとりであるピーター・アビールは、この手法を応用してロボットにタオルのたたみ方を学習させられることを示したが、これは商業的には成功しなかった（アビールはかつてOpenAIに非常勤で勤めていたことがあり、現在も同社のアドヴァイザーを務めている）。

真のイノヴェイション

OpenAIは昨年、Dactylが強化学習で得た動きを使って、手のなかで立方体を回転させられることを示している。しかし、Dactylがルービックキューブを解けるようになったのは、強化学習だけによるものではない。このパズルの解法を学習するために、より一般的なアルゴリズムの助けも得ている。さらにDactylには複数のカメラが搭載されているものの、立方体のすべての面を見ることはできない。このため正方形がどちらを向いているのかを理解するために、センサーを搭載した特殊なキューブが必要だった。

また、強化学習をロボット工学に応用するのも大変なことだった。というのも、これは多くの場合で失敗に終わるからだ。実際の場面では、ロボットにひとつのタスクを学習させるために何年もかけることは現実的ではないため、訓練はシミュレーションによって進められることが多い。しかし、シミュレーションでうまくいったものを、ロボットの関節におけるごくわずかな摩擦やノイズによって計算に誤差が生じるような、さらに複雑な条件に適用するのは困難が伴いがちだ。

そしてDactylの真のイノヴェイションはここにある。研究者らは、このシミュレーションにノイズや外的な乱れを与えることで、現実世界の複雑さをより効果的にシミュレートする方法を考案したのだ。

最新の研究では、システムが現実世界の複雑さに対してより確実に学習できるように、徐々にノイズを加えていく方法がとられている。実際、そうすることでロボットはこれまでに実証されてきたよりも複雑なタスクを学習でき、シミュレーションで学習した内容を現実に移行できるようになる。

注目を集めるための“離れ業”？

発表前に今回の研究について説明を受けていたカリフォルニア大学のゴールドバーグは、このシミュレーション学習のアプローチは賢明であり、幅広く応用可能であると語っている。実際に彼は自分でも使ってみるつもりだという。

しかしゴールドバーグは、システムの限界をもっと明確に示すこともできたはずだと指摘する。例えば、失敗率は論文の奥深くに埋もれているうえ、ロボットがキューブを落下させる様子は映像には映っていない。「やはり営利企業ですからね。そこが学術界と企業との違いなんです」と、彼は言う。

認知科学者のマーカスは、Dactylは大勢の注目を集めるための“離れ業”のようなものだとみている。彼はOpenAIが実力を誇大に示している証拠として、かつて同社が発表した「危険すぎて公開できない」というテキスト生成アルゴリズムに関する発表を挙げている。「OpenAIがこうしたことをするのは、これが初めてではありません」と彼は言う。

なお、今回の研究についてOpenAIにコメントを求めたが、回答は得られなかった。

失敗した「バクスター」の教訓

ロボットが人間のような器用さを身につけるまでの道のりは、まだ長い。その確かな証拠として、ロボットは産業界において限られた範囲の反復作業しかできていないことが挙げられる。例えば、テスラは自社工場におけるさらなる自動化に苦戦しており、フォックスコンも「iPhone」などのガジェットを生産する際の厄介な作業の多くをロボット任せにはできていない。

ロボット工学とAIの先駆者であるロドニー・ブルックスは、強化学習のような学術的研究が商業的に有用なものになるには、まだ長い道のりがあると語る。彼はスマートで使いやすい産業用ロボット「バクスター」の生産を目指したリシンク・ロボティクス（Rethink Robotics）の創業者だったが、同社は廃業している。

関連記事：開発元が廃業した研究用ロボット「バクスター」、その偉大なる功績（動画あり）

現在はロボット工学のスタートアップであるRobust.aiでマーカスと仕事をしているブルックスによると、AIシステムの能力は誤解されやすいのだという。「人間が何かしているのを見たとき、人はそれがほかのことにも一般化できると受け取ります。同じようにロボットが何かをしているのを見ると、それも過剰に一般化してしまうのです」

「それに…」とブルックスは付け加える。「もし（人間並みの器用さの）実現がそんなに近いなら、わたしはとんでもない金持ちになっていたでしょうね」