｢アレクサ、届いた宅配、冷蔵庫と棚にしまっておいてね｣

デバイスは音声コントロールが時代の流れとなってきています。テクノロジーで便利になったはずが、人々が皆小さい画面を覗き込んで歩いている...！なんて批判が長らくされてきましたが、音声アシスタントの出現で｢アプリによる操作｣が少しずつ減ってきつつあります。特にスマートホーム関連を始めとするIoTはアメリカでは音声操作がかなり普及してきています。

そんな｢音声によるデバイスの操作｣の極みを見せてくれるのが、MITの研究者たちが開発しているロボット操作システムです。

MITのCSAILコンピューター研究室によって開発されたこのシステムは｢視覚情報から文脈を理解してコマンドを実行する｣というもの。それによってロボット・メーカーRethink Roboticsによる工場用ロボットBaxterがテーブル上の物を持ち上げたり、箱に入れたりをしてくれるのです。ポイントは｢視覚情報から文脈を理解する｣、そしてコマンドが｢曖昧な言語｣である点です。

従来のロボット操作ではステップごとに正確な指示を与えないといけません。目の前に物体を置いて｢それ持ち上げて｣と言ってもロボットは｢？？？｣となってしまうのが普通です。

しかし彼らが｢ComText｣と呼ぶこのシステムでは、ロボットの前にバナナを置いて｢それは私のバナナです｣と言い、｢それ持ち上げて｣と言うとロボットはバナナを持ち上げるとのこと。3Dカメラを通じて｢あユーザーがテーブルに何か置いた。その後に｢それは私のだと言った｣。それから｢持ち上げろ｣と言った、ということはさっき置いたものを持ち上げるのか｣と理解してくれるというわけですね。

ビデオでは｢私がテーブルに置いたクラッカーを持ち上げなさい｣という指示も見事成功。｢箱と缶は私のお菓子です｣とアレクサに伝えた後、｢お菓子を詰めなさい｣と指示をするとちゃんと箱と缶を箱に入れてくれます。

バナナは箱に入れません。詳細はこちらの論文で読むことができます。｢視覚的な情報を通じて口頭の指示の文脈を理解する｣ことで｢効率的なロボットと人間のコミュニケーション｣を実現することが目標とのこと。こう言われると確かに未来のロボット社会実現に向けて必要なテクノロジーということが分かります。

我々が普段使っている言葉使いは決して正確だったり厳密だったりはしないですよね。それをロボットが理解できるように我々が直すのではなく、我々の言葉遣いをロボットが視覚情報を頼りに理解できるようになれば色々な現場でロボットが活躍できるのでしょう。

ビデオで使われているような業務用のロボットがすぐに一般家庭に普及することは無いかもしれませんが、アレクサを通じたIoTコマンドがますます楽になるのは間違い無さそうです。





Images by Rohan Paul / MIT / YouTube screencaps

source: MIT / YouTube via qz

（塚本 紺）