トレーニングと推論向け

Googleは2017年5月17日（米国時間）、第2世代の「Tensor Processing Unit（TPU）」と、法人顧客や研究者に向けたクラウドサービスで利用できるマシンラーニング（機械学習）用ASIC「Cloud TPU」を発表した。Cloud TPUは1枚のボードに4つのプロセッサを搭載していて、同ボードの処理性能は180TFLOPSになる。トレーニングと推論の両方のタスクに使用することが可能だという。

Googleは今回の取り組みにより、機械学習への関心の高まりを利用して、自社のクラウドサービスの利用を促進したい考えだ。さらに、新しいチップでサポート可能な唯一のソフトウェアインタフェースである、TensorFlowフレームワークのユーザー数を増加させたいという狙いもあるようだ。

Googleは、「浮動小数点演算が可能なCloud TPUは、トレーニングと推論の両方に最適化されており、実装を簡素化できる」と述べる。第1世代のTPUは整数演算を使用し、推論のみをターゲットとしていた。

上述した通り、Cloud TPUは4つのチップを1枚の専用アクセラレーターボード上に搭載している。このボードを64枚接続した「TPUポッド」は、11.5PFLOPSの処理性能を実現するという。

Googleでシニアフェローを務めるJeff Dean氏は、記者会見で、「第2世代のTPUの開発メンバーは、第1世代の時とほぼ同じである。第1世代TPUは規模が小さかったため、第2世代の方が完成度の高いシステムだといえる。推論に関しては、1つのチップ上で実行可能だが、トレーニングの場合はもっと全体的な考察が必要だ」と述べている。

トレーニングではGPUを上回る

Googleは、「トレーニングに関しては、新型ASICがGPUを優に上回る」と主張する。同社の最新の大規模な言語翻訳モデルでは、既存のトップエンドGPUを32個使用した場合、トレーニングに丸1日を要するが、ポッドの8分の1に相当する8個のTPUを使用すると、同じジョブを6時間で実行することが可能だという。

Googleは、第1世代のTPUの導入を2015年に開始して以来、検索や翻訳、「Googleフォト」など同社のさまざまなクラウドサービスにおいて使用してきた。

GoogleがTPUを最初に発表したのは、同社の開発者向けイベント「Google I/O 2016」（米国カリフォルニア州マウンテンビュー、2016年5月18〜20日）においてである。同社が2017年4月に発表した論文によれば、第2世代TPUは28nmプロセスを適用したチップで、消費電力は40W、動作周波数は700MHzである。主論理ユニットには6万5536個の8ビット乗算累算ユニットと24Mバイトのキャッシュを搭載しているという。

第1世代のTPUは、2015年にGoogleのマシンラーニングジョブに使われたベンチマークで、IntelのサーバCPU「Haswell」やNVIDIAのGPU「K80」に比べて処理速度が15〜30倍、ワット当たり性能が30〜80倍とされている。

1|2 次のページへ