イメージネットを使った画像認識の一例

中国最大の検索サイトを運営するバイドゥ（百度）の開発した人工知能（AI）専用スーパーコンピューターの画像認識率が、米グーグルの世界記録を上回った。5月11日に公開されたバイドゥの研究者による論文によれば、北京に設置された独自開発の「Minwa」というスパコンと、AI技術の一種であるディープラーニング（深層学習）を使い、画像認識ソフトの標準的な評価基準での誤認識率を4.58%にまで抑えることができたという。それまでの世界記録は3月にグーグルが達成した4.82%だった。Minwaは、72個のMPUと144個のGPU（画像処理専用プロセッサー）で構成される。脳の神経回路をモデルにしたニューラルネットワークでデータを処理するディープラーニングの手法により、情報を階層構造のレイヤーに配列。膨大なデータで訓練を繰り返すことで認識の精度を上げる。今回は、結合部が数千億という、これまでの数百倍もある大規模なニューラルネットワークを作り出すことなどで、高い画像認識率を実現できたのだという。バイドゥの研究者らは、画像認識ソフトの標準的な評価基準である「イメージネット・クラシフィケーション・チャレンジ」を利用し、1000種類にカテゴリー分けされた150万もの訓練画像でMinwaに画像を憶え込ませた。その上で、これまで見たことがなかった10万枚の画像が新たに提示され、それをどのカテゴリーに分類するかでコンピューターの画像認識能力を測定した。実はグーグルが世界記録を達成した１カ月前の2月には、米マイクロソフトの北京チームが独自アルゴリズムで当時トップとなる4.94%という画像誤認識率を報告し、この時に初めてイメージネットでの人間の画像認識能力（平均誤認識率5.1%）をコンピューターが上回った。ディープラーニングは画像認識能力の向上による画像検索、顔認識に加え、音声認識、テキスト認識、さらには動画内容の解釈や、画像の文章説明などへの適用も期待されている。MITテクノロジーレビュー誌によれば、バイドゥではMinwaのニューラルネットワークをさらに大規模化し、動画やテキスト認識に取り組むほか、学習させたニューラルネットワークの縮小版を、モバイル端末で使えるようにもしていくという。

ニュースイッチオリジナル