Google Brainの研究者らは、数ヶ月前、機械学習モデルの設計を機械学習で自動化するアプローチ「AutoML（Auto Machine Learning）」を発表しましたが、今回は、これまで小規模にテストしてきたAutoMLを大規模な画像分類と物体検出に適応した論文を発表しました。

Learning Transferable Architectures for Scalable Image Recognition（PDF）

「AutoML」とは、人工知能に機械学習のコードやアルゴリズムを生成させる新しい開発アプローチで、ニューラルネットワークがニューラルネットワークを設計する技術です。

これまでは、小規模のデータセットに制約していましたが、今回は、検出データセット「COCO」や画像分類データセット「ImageNet」に適応しました。この2つは、コンピュータビジョンで尊敬される大規模な学術データセットです。

この2つに適応させるために、AutoMLは新しいアーキテクチャ「NASNet」を設計しました。

（「NASNet」と呼ぶ新たなアーキテクチャ。Normal Layer（左）とReduction Layer（右）の2種類のレイヤーで構成されており、これらの2つの層はAutoMLによって設計されました。）

NASNetは、ImageNetに適応した場合、同社が構築した以前のモデルを上回る、検証セット上で82.7％の予測精度を達成しました。過去の公表されたすべての結果よりも1.2％優れており、モバイルプラットフォーム用の小規模サイズでは、最先端モデルよりも3.1％優れていると報告しました。



（NASNetの精度と、ImageNet画像分類で人間が設計してきたさまざまな最先端モデル。どれもNASNetが上。）

そして、実験では、ImageNet分類から学んだ機能をFaster-RCNNフレームワークと組み合わせオブジェクト検出に適応しました。結果、以前発表された最先端の技術よりも4％優れており、43.1％のmAPを達成しました。



（NASNetでFaster-RCNNを使用したオブジェクト検出の例）

Googleは、ImageNetとCOCOのNASNetで学んだ画像の特徴が、多くのコンピュータビジョンアプリケーションで再利用される可能性があると考えて、SlimとObject DetectionのTensorFlowリポジトリでリリースしています。

関連

Google、機械学習の可視化を強化する「TensorBoard API」を発表。独自の機械学習ビジュアライゼーション構築へ | Seamless