Radeon InstinctイニシアチブでGPUコンピュート市場を狙う AMDは1枚のカードで25TFLOPS(FP16)の性能を実現できる新GPU「Radeon Instinct MI25」を、GPUコンピュート向けに投入する。次世代GPUアーキテクチャ「Vega」ベースのGPUだ。登場すれば、NVIDIAのPascalベースの「Tesla P100(GP100)」の21TFLOPS(FP16)を上回ることになる。 AMDが、GPUコンピュートに向けた包括的な戦略とハードウェア製品系列、ソフトウェアプラットフォームを発表した。盛り上がっているマシンラーニング(AMDはMachine Intelligence(MI)と呼んでいる)にフォーカスし、GPUコンピュート向けに新たな製品ブランド「Radeon Instinct」を投入する。Radeon Instinctは、マシンラーニングアクセラレータをメインターゲットとしたGPU製品で、来年(2017年)前半に市場投入される。今後は、こうしたGPUコンピュート向けの製品もRadeonブランドのサブブランドとなる。 Radeon Instinctには現在の「Polaris」、「Fiji」アーキテクチャGPUだけでなく、次世代の「Vega」アーキテクチャGPUもラインナップされている。新アーキテクチャVegaベースの「Radeon Instinct MI25」では、パックド(SIMD)フォーマットのFP16(16-bit浮動小数点演算)がサポートされることも公式に明らかにされた。 AMDはRadeon Instinctに合わせて、オープンソースのマシンラーニング向けのライブラリ「MIOpen」を来年(2017年)第1四半期に提供する。また、AMDは今年(2016年)4月に、Radeon上のGPUコンピュートのソフトウェアプラットフォーム「Radeon Open Compute Platform(ROCm)」を発表している。ROCmは、マルチプログラミング言語対応のオープンソースのGPUコンピュートプラットフォーム。HSA(Heterogeneous System Architecture)のAMD GPU向け拡張実装プラスアルファだ。Radeon Instinctに合わせてAMDは、ROCmを拡張しディープラーニングフレームワークへと最適化した。 また、AMDのLisa Su(リサ・スー)氏(President and CEO, AMD)はRadeon Instinctの背景として「コンピューティングが没入的(Immersive)で本能的(Instinctive)なものになりつつある」と説明。そうした時代には、データセンターが変化する必要があり、高性能なCPUだけでなく、高性能なGPUと、CPUとGPUを連携させる仕組みが必要だとした。その両方を備えるのはAMDだけ、という主張だ。

満を持してGPUコンピュート市場に攻め入るAMD Radeon Instinctイニシアチブは、一言で言えば、AMDによるGPUコンピュート市場への“再”参入宣言だ。GPUを汎用に使うGPUコンピュートは、現在、NVIDIAのほぼ独擅場となっている。NVIDIAの対抗馬は、これまではAMD GPUではなくIntelの「Knights Landing(ナイツランディング:KNL)」やFPGA(Field-Programmable Gate Array)、専用アクセラレータだった。AMDはこの市場への切り込みを何度か試みたが、目立った成功は収めていない。原因はいくつかある。 1つは、2年前までのAMDが、CPUとGPUをダイ上で統合した「APU(Accelerated Processing Unit)」にフォーカスしてディスクリートGPUを積極的にGPUコンピュートに推進しなかったこと。GPUコンピュートのためのソフトウェアプラットフォームを「HSA」として他社を巻き込み広げようとしたため、策定に時間がかかったこと。そして、おそらくはGPUコンピュート市場の急拡大を予測していなかったことだ。 しかし、状況は変わった。現在、AMDはAPUを全ての市場に当てはめる戦略を止め、ハイエンドのCPUとGPUはそれぞれディスクリートとする戦略へと切り替えたように見える。両プロセッサ間は、コヒーレントインターコネクトで接続する方針をアナウンスしている。ソフトウェアについては、AMDはGPUをオープン化する「GPUOpen」イニシアチブを1年前に立ち上げ、オープンソース化を推進。その成果がようやく浸透し始めた。一方、GPUコンピュートは、マシンラーニングの唐突な勃興によって、HPC(High Performance Computing)市場だけでなく、幅広い市場に急速に浸透しつつある。データセンタでのニューラルネットワークの「学習(Training)」と、エッジ側での「推論(inference)」にGPUが使われている。 現在、AMDはマシンラーニングの波に対応したGPUコンピュート製品の投入を迫られている。ここで乗り遅れると、HPCという相対的に狭い(金額は大きいがノードが少ない)市場だけでなく、「全てのデータセンターにGPUが入る(かも)」という絶好のチャンスを致命的に逃してしまうことになる。AMD自身も、ディスクリートGPUセントリックな方向に転換し、ソフトウェアの土台もオープンソースのコミュニティの力も借りて整った。さらに、FinFETプロセスとスタックドDRAMによってGPU自身の性能も急激に上がる時期で、マシンラーニング向けの拡張を加えた新GPU「Vega」の投入というタイミングが合う。Radeon Instinctは、こうした状況での投入となる。

学習フェイズにVega、推論フェイズにPolaris Radeon Instinctのラインナップは、3世代のAMD GPUに渡っている。性能と電力の順番に、「MI6」、「MI8」、「MI25」となっている。MIはマシンインテリジェンスから来ているとみられる。数字は、FP16演算時のTFLOPS数を示すものと推測される。ちなみに、MI6は、007が所属していた英国の諜報機関MI6(Military Intelligence section 6)と同じ名称だ MI6はパッシブクーリングで5.7TFLOPS、224GB/secのメモリ帯域で150W以下の電力となっている。スペックから、14nm FinFETプロセスの「Polaris 10(グラフィックス製品ではRadeon RX 480)」であることが推測できる。 MI8はスモールフォームファクタで8.2TFLOPS、512GB/secのメモリ帯域で175W以下の電力。スペックから28nmプロセスの「Fiji XT(グラフィックス製品ではRadeon R9 Nano)」であることが推測できる。Fijiアーキテクチャの低電力版だ。 MI25がRadeon Instinctの目玉。次世代のVegaアーキテクチャベースで、パッシブクーリング。図では2倍のパックド演算となっており、AMDはQ&Aで、これがパックド(SIMD)フォーマットのFP16(16-bit浮動小数点)であると説明している。AMD GPUはFP32(32-bit浮動小数点)演算に最適化したパイプラインを備えている。しかし、Vegaでは、32-bitパイプで16-bitの浮動小数点演算を2並列のSIMD(Single Instruction, Multiple Data)フォーマットで行なうことで、FP16時にFP32の2倍の性能を出すことができる。 これは、マシンラーニングのトレーニングフェイズにおいて、データ精度を下げたFP16の利用が進んでいる状況に対応したものだ。現在のGPUコンピュートは、マシンラーニングのために低精度のサポートの競争になっており、NVIDIAもPascal(パスカル)ではFP16に対応している。 AMDは、マシンラーニング市場において、この3つの製品が棲み分けると説明する。認識を行なう推論フェイズ向けはPolarisのMI6で、MI8も推論フェイズ向けの位置付けだ。それに対して、MI25は学習フェイズと、ラージな推論向けとAMDは説明する。データセンターで学習やラージスケールの推論に使われるのは、MI25ということになる。