GTCの基調講演は、2日目と3日目は今年はGoogleとBaiduのディープラーニング（深層学習）の責任者がスピーチを行った。どちらももともとディープラーニングの著名な研究者である。また現在Baiduに所属しているAndrew Ng氏は、かつてGoogleで「Google Brain」のプロジェクトなどディープラーニングの責任者を務めていた。

ディープラーニング（深層学習）は

すでにAndroidの音声認識などで用いられている

グーグルのスピーチを行ったのは、同社シニアフェローのジェフ・ディーン（Jeff Dean）氏。グーグルのディープラーニングは、画像や音声認識、ソーシャルグラフなどの多岐にわたり、同社のクラウドサービスで使われていたり、Androidなどにも搭載されている。

たとえば、Android 4.3に搭載された音声認識機能には、ディープラーニングを利用した音声認識エンジンが組み込まれているという。また、Google+の写真検索機能では、たとえば「食事」と入力すると、自分のアップロードした写真の中から食事に関係するものの写真を検索可能だ。これもディープラーニングを利用した技術だ。

グーグルでは、社内でのディープラーニング利用環境を整備しており、最終的には社内で誰でも簡単にディープラーニングを利用して問題を解決したり、ソフトウェアに技術を組み込むことができるようにする予定だという。また、学会のコンテストに積極的に参加したり、論文を出すなどアカデミズム系での活動も活発だ。

ディープラーニングにとって時間のかかる学習は大きな問題だ。グーグルなどが扱う巨大なデータを識別、認識するようなニューラル・ネットワークを動かすには、大きな計算量が必要になる。具体的には語られなかったが、巨大なデータベースを持つグーグルでは、相応の巨大な計算力を持つディープラーニング専用の環境が構築されていると思われる。

そのグーグルであっても、1ヵ月以上かかる学習は行なうことが難しく、1週間以上なら特に価値がある場合のみ、数日になる場合でも並列性の研究が主体で、おもに1日以下の学習で済ませるようにしているという。GPUが持つ汎用の行列計算性能を使うことは、昨年あたりからのブームなのだが、これによりグーグルを含め多くの企業の「学習」時間が短縮されているはずである。ぞれでも、研究としては学習時間は長くて1日程度なのだという。

グーグルでは、YouTubeにアップロードされている1000万本のビデオからそれれぞ1フレームを抜き出してサンプルデータとして、ディープラーニングを行なった。入力層と中間層、出力層の三段で、出力層にはニューロンが6万あり、学習（教師なし）は1万6000のCPUコアで1週間かかったという。

また、サンプルにしたフレームにはラベルなどの付加情報はつけず単に画像として学習させたという。すると、最上位のニューロンには、人の顔を区別するものなど、高いレベルの抽象化が見られたという。

また、最後にグーグルのロンドンにあるDeepMindリサーチグループが行ったゲームの自動プレイのデモビデオを紹介した。これは、AtariのVCS（Video Computer System、Atari 2600）のゲームを、スコアを高くすることを目標に学習を行なったもの。ゲーム画面をデータとして、操作するジョイスティックの情報やスコアは与えられるものの、操作ボタンなどの意味は与えられていない。

つまり、ゲームに対してまったく無知の状態からゲームを観察して学習させたわけだ。インベーダーゲームでは、防護壁を使って敵の弾を避けるようになり、ブロック崩しでは一定の場所に跳ね返すようになって、上の空間に玉を入れるようになった。

（次ページでは、「人はすでにトランスフォーマーを実現するAIと計算力を手にしている!?」）