マイクロソフトの研究チームは、カーネギーメロン大学との共同研究で、新しい人工知能のシステムを開発しました。機械に画像解析をさせ、その画像に関する質問に対して回答する訓練ができるようになったんです。

そのシステムでは、コンピュータビジョン（ロボットの目）とディープラーニング、画像分析と適切な回答を解析するための自然言語処理技術を使います。質問に対する回答の推論は、次のような処理の仕方が異なる複数のレイヤーで行われます。

まず、画像情報をニューラルネットワークで処理することで、与えられた質問の意味や前提となる状況を理解します（第1レイヤー）。次に画像の中で回答に必要なものをふくむ領域に視点をフォーカスします。これは写真に写り込んだ無関係な情報を排除するプロセスでもあり、抽出された情報から｢最も適切と思われる｣回答を導き出すことができます（第2レイヤー）。

たとえばトップ画像の写真について｢自転車のカゴの中にいるのは何ですか？｣という質問があったとします。第1レイヤーでは、自転車やカゴといった物体と｢カゴの中｣という概念を認識します。そして第2レイヤーでカゴの中身に焦点を当てて、その中にあるのは何かを分析します。この場合、質問への回答は｢イヌ｣となります。

これらは、毎日の生活の中で私たちがやっている視覚情報の処理と同じ仕組みですが、人工知能への実装は初めてです。

マイクロソフトは、このように人の行動を問題解決のためにモデル化する技術は、人工知能ツールの開発において重要だとコメントしています。画像を見て学習をし、複数のレイヤーからなる推論というプロセスを経て特定の質問に答えるシステムは、人工知能を搭載した機械が人の潜在的なニーズを先取りして、より適切なレコメンドをする技術に結びつきます。

また、車載システムなどに搭載すれば、より運転を安全にできるはずです。たとえば車載カメラが周囲の環境から認識したものが何なのか、どのような動きをする可能性があるかをリアルタイムに解析して予測できれば、ドライバーがどんな行動を取るべきかアラートを出せるからです。これは自動運転にも使えそうな機能ですよね。

source: Microsoft Research, arXiv

（高橋ミレイ）