Facebookは25日、人工知能研究機関「Facebook AI Research（FAIR）」で開発している画像内のオブジェクトを抽出して識別する3つの技術「DeepMask」「SharpMask」「MultiPathNet」の研究論文とソースコードをGitHubで公開した。

FAIRでは、機械が人間の目と同じように画像のオブジェクトをピクセルレベルで理解できるようにする技術を開発している。

FAIRは公式ブログで、画像を分類して物体を検出する画像認識技術について、「Convolutional Neural Network（畳み込みニューラルネットワーク）」と、ディープラーニング（機械学習）の技術により、過去数年間で大幅に進展しているとしている。

Convolutional Neural Networkは、各ピクセルのカラー値を数値の配列として符号化、ピクセル単位でのパターンを検索して、一定の領域をフィルターとしてまとめて入力、入力領域をスライドさせながら繰り返し、作成されたフィルター内の画像のベクトルと、畳み込みに使用するベクトルを畳み込んでレイヤーを作成することで、画像に対して高精度の判定を行うもの。

今回、ソースコードが公開された技術のうち、DeepMaskは、画像内のすべてのオブジェクトを検出してマスクを生成する技術。セグメント改良モジュールであるSharpMaskにより、このマスクに対して高精度な修正を加え、MultiPathNetを用いて、マスクによって描写されたオブジェクトオブジェクトの種類のラベルを付けるという3段階の手順で、画像内のオブジェクトを正確に描写するという。

こうした視覚認識技術については、画像検索のほか、Facebookですでに提供されている視覚障害者向けの画像キャプション生成機能で活用されている。また、将来的には、画像を認識し、食べ物のカロリーを表示したり、家具の価格を表示したり、ヘルスケアに応用するなど、幅広い用途での活用できる可能性があるとしている。

FAIRでは、今回のソースコード公開により、今後の技術改善に期待するとしている。