2016年03月10日 15時00分 ハードウェア

14台のロボットアームに分散自己学習させて人間が数年かけて覚える動作を爆速で経験して身につけさせる恐るべきムービーをGoogleが公開



コンピューターやロボットが自分で学習することで能力を身に付けていくディープラーニングの技術が話題にのぼることが多くなりました、この技術の本当に優れている点の一つには、複数の学習を同時並行で進める分散型の自己学習が可能である点が挙げられます。数々のロボット・AI（人工知能）の研究が行われているGoogleでは、14台のロボットを使った分散型自己学習が行われており、人間よりも速い速度で動作をマスターして行く様子がムービーに収められています。



Research Blog: Deep Learning for Robots: Learning from Large-Scale Interaction

http://googleresearch.blogspot.jp/2016/03/deep-learning-for-robots-learning-from.html



14 robot arms learn to hold in a cluttered world

https://thestack.com/iot/2016/03/09/googles-hive-mind-robot-arms-learn-to-negotiate-a-cluttered-world/



Googleでロボット研究を行っているセルゲイ・レヴィーン氏はブログで、複数のロボットによる分散型自己学習の様子と成果を公表しています。以下のムービーはそのブログで紹介されているもので、研究の様子や学習の軌跡を見ることができます。





研究施設の様子を収めたムービーがコレ。台の上に置かれたロボットと、与えられた課題の様子がわかります。



Large-scale data collection with an array of robots - YouTube





一斉に動きを開始するアーム型ロボット。下のトレーに置かれた生活用品を指のようなレバーで挟む動作を繰り返しながら、正しくモノをつかむ方法を学習しています。





しばらくすると、それぞれが違った動きを見せるように。おのおのが置かれている状況に応じた動きをしていることがよくわかります。





室内にズラリと並べられたアームロボット。中央にはスタッフの姿も見えます。アームにはカメラが取り付けられ、ロボットの動きと映像が蓄積されています。このようにして得られた自己学習の経験データは毎日回収され、画像・映像認識と脳のニューロンの構造を模した畳み込みニューラルネットワークが視覚と各部の動きからどのような結果が生まれるのかを予測するための学習に用いられます。このようにして学習を行った「知能」が次の日に再びロボットに実装され、再び経験を積ませることでどんどんと能力が上がっていくというわけです。





その学習の中で、ロボットはさまざまな知恵を得ている様子。以下のムービーでは、単純にモノをつかむだけでなく、うまくつかむための工夫を身に付けている様子がわかります。



Learning hand-eye coordination for robotic grasping - YouTube





上に見えるのがロボットの指。赤枠で囲んだ中にある黄色いブロックをつかもうとしていますが、黒いホッチキスが邪魔をしています。





するとロボットは、指でホッチキスを押しやり、邪魔にならない位置まで移動させました。





このようにして、ロボットは見事に黄色いブロックをつかむことに成功。この動きはあらかじめプログラムされたものではなく、ロボット(たち)が自ら学習して得た知恵だというのだから驚きです。





また、強さの調整も自ら学習している模様。このように、柔らかいものをフワッとつかめるほか……





さまざまな形状・素材に応じてつかみ方を変えている様子がわかります。





この学習によるビフォー・アフターを以下の2本のムービーで見ることができます。指でつかんだ物を隣のトレーに移す動作ですが、まずはあまり学習していない段階の様子。



One-shot grasping often leads to failed grasp attempts - YouTube





トレーに置かれた生活用品をつかむテスト。画面左下には、成功と失敗の回数を数えるカウンターがあります。





スタートしてしばらく経った時点の途中経過は、成功が15回、失敗が9回というもの。





最終的に成功が17回、失敗が10回となり、失敗率は約37％という結果に。また、トレーの上には残されたモノがいくつか見えている状態。





次に、学習によるフィードバックを繰り返したあとの状態で同じテストを実施。



Continuous visual feedback improves grasp success rate - YouTube





同様の状態からテストを開始。なお、置かれているモノの配置や個数は全くの統一状態ではない模様。





途中経過の数字は7対1となっており、明らかに失敗率が下がっていることがわかります。





最終結果は、成功が22回、失敗が6回と言うことで、失敗率は約21％と16ポイントも下落しました。





通常、人間の赤ちゃんは1歳頃からモノをつかむことを覚えはじめ、5歳頃に一定の能力を身に付けると言われています。これら複数のロボットは、そんな学習を合計で何十万回と繰り返すことで非常に素早い能力取得を実現しているとのこと。今回の例はごく限られた一つの動作であるため、体全体を使う人間と同じ学習を行う段階とはいえないものの、やがてそれが実現するのもそう遠い未来のことではないと感じさせられる光景です。

