2期連続でスーパーコンピュータ「京」がGraph500で世界第1位を獲得

―ビッグデータの処理で重要となるグラフ解析でも最高レベルの評価―

要旨

理化学研究所（理研）と東京工業大学、アイルランドのユニバーシティ・カレッジ・ダブリン、九州大学、富士通株式会社による国際共同研究グループは、ビッグデータ処理(大規模グラフ解析)に関するスーパーコンピュータの国際的な性能ランキングであるGraph500※において、スーパーコンピュータ「京（けい）」[用語1]による解析結果で、2015年7月に続き第1位を獲得しました。これは、東京工業大学博士課程（理研研修生）上野晃司氏らによる成果です。

大規模グラフ解析の性能は、大規模かつ複雑なデータ処理が求められるビッグデータの解析において重要となるもので、今回のランキング結果は、「京」がビッグデータ解析に関する高い能力を有することを実証するものです。

本研究の一部は、科学技術振興機構（JST）戦略的創造研究推進事業CREST「ポストペタスケール高性能計算に資するシステムソフトウェア技術の創出」（研究総括：佐藤 三久 理研計算科学研究機構）における研究課題「ポストペタスケールシステムにおける超大規模グラフ最適化基盤」（研究代表者：藤澤 克樹 九州大学、 拠点代表者：鈴村 豊太郎 ユニバーシティ・カレッジ・ダブリン）および「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」（研究総括：喜連川 優 国立情報学研究所）における研究課題「EBD：次世代の年ヨッタバイト処理に向けたエクストリームビッグデータの基盤技術」（研究代表者：松岡 聡 東京工業大学）の一環として行われました。

※ アメリカのオースティンで開催中のHPC（ハイパフォーマンス・コンピューティング：高性能計算技術）に関する国際会議「SC15」で11月17日（日本時間11月18日）に発表。前回（2015年7月）のランキングでも、「京」は第1位。

Graph500上位10位

公開されたGraph500 の上位10位は以下の通り。

順位 システム名称 設置場所 ベンダー 国名 ノード数 プロブレムスケール GTEPS 1 K Computer 理研 計算科学研究機構 富士通 日 82.944 40 38.621 2 Sequoia ローレンス・リバモア研 IBM 米 98.304 41 23.751 3 Mira アルゴンヌ研 IBM 米 49.152 40 14.982 4 JUQUEEN ユーリッヒ研 IBM 独 16.384 38 5.848 5 Fermi CINECA IBM 伊 8.192 37 2.567 6 天河2号 国防科学技術大学 NUDT 中 8.192 36 2.061 7 Blue Joule ダーズベリー研 IBM 英 4.096 36 1.427 7 DIRAC エジンバラ大学 IBM 英 4.096 36 1.427 7 Zumbrota EDF社 IBM 仏 4.096 36 1.427 7 Avoca ビクトリア州生命科学計算イニシアティブ IBM 豪 4.096 36 1.427 7 Turing GENCI IBM 仏 4.096 36 1.427

Graph500とは

近年活発に行われるようになってきた実社会における複雑な現象の分析では、多くの場合、分析対象は大規模なグラフ（節と枝によるデータ間の関連性を示したもの）として表現され、それに対するコンピュータによる高速な解析（グラフ解析）が必要とされています。例えば、インターネット上のソーシャルサービスなどでは、「誰が誰とつながっているか」といった関連性のある大量のデータを解析するときにグラフ解析が使われます。また、サイバーセキュリティや金融取引の安全性担保のような社会的課題に加えて、脳神経科学における神経機能の解析やタンパク質の相互作用分析などの科学分野においてもグラフ解析は用いられ、応用範囲が大きく広がっています。こうしたグラフ解析の性能を競うのが、2010年から開始されたスパコンランキング「Graph500」です。

規則的な行列演算である連立一次方程式を解く計算速度（LINPACK[用語2]）でスーパーコンピュータを評価するTOP500[用語3]においては、「京」は2011年（6月、11月）に第1位、2015年11月16日に公表された最新のランキングでも第4位につけています。一方、Graph500ではグラフの幅優先探索（1秒間にグラフのたどった枝の数（Traversed Edges Per Second;TEPS[用語4]））という複雑な計算を行う速度で評価されており、計算速度だけでなく、アルゴリズムやプログラムを含めた総合的な能力が求められます。

今回Graph500の測定に使われたのは、「京」が持つ88,128台のノード[用語5]の内の82,944台で、約1兆個の頂点を持ち16兆個の枝から成るプロブレムスケール[用語6]の大規模グラフに対する幅優先探索問題を0.45秒で解くことに成功しました。ベンチマークのスコアは38,621GTEPS（ギガテップス）です。Graph500第1位獲得は、「京」が科学技術計算でよく使われる規則的な行列演算だけでなく、不規則な計算が大半を占めるグラフ解析においても高い能力を有していることを実証したものであり、幅広い分野のアプリケーションに対応できる「京」の汎用性の高さを示すものです。また、それと同時に、高いハードウェアの性能を最大限に活用できる研究チームの高度なソフトウェア技術を示すものと言えます。「京」は、国際共同研究グループによる「ポストペタスケールシステムにおける超大規模グラフ最適化基盤プロジェクト」および「EBD：次世代の年ヨッタバイト処理に向けたエクストリームビッグデータの基盤技術」の2つの研究プロジェクトによってアルゴリズムおよびプログラムの開発が行われ、2014年6月に17,977GTEPSの性能を達成し第1位、また「京」のシステム全体を効率良く利用可能にするアルゴリズムの改良が行われ2倍近く性能を向上させ、2015年7月に38,621GTEPSを達成し第1位でした。そして今回も前回と同スコアにて、世界第1位を2期連続で獲得しました。

今後の展望

大規模グラフ解析においては、アルゴリズムおよびプログラムの開発・実装によって今回のように性能が飛躍的に向上する可能性を示しており、今後も更なる性能向上を目指していきます。また、上記で述べた実社会の課題解決および科学分野の基盤技術へ貢献すべく、スーパーコンピュータ上でさまざまな大規模グラフ解析アルゴリズムおよびプログラムを研究開発していきます。

東京工業大学博士課程 上野晃司氏のコメント 私たちが開発した手法によって「京」が前回7月に続いて世界1位を達成できたことを大変嬉しく思っています。激しい競争がされてきたGraph500にて1位を継続することができたことは、「京」のハードウェア性能とそれを最大限に活かす私たちの手法が真に優れていることを示したものと思っています。今後もこのような努力を続け、「京」のポテンシャルをどこまで活かせるか、挑戦したいと思います。

用語説明 [用語1] スーパーコンピュータ「京（けい）」 : 文部科学省が推進する「革新的ハイパフォーマンス・コンピューティング・インフラ（HPCI）の構築」プログラムの中核システムとして、理研と富士通が共同で開発を行い、2012年に共用を開始した計算速度10ペタフロップス級のスーパーコンピュータ。「京（けい）」は理研の登録商標で、10ペタ（10の16乗）を表す万進法の単位であるとともに、この漢字の本義が大きな門を表すことを踏まえ、「計算科学の新たな門」という期待も込められている。 [用語2] LINPACK : 米国のテネシー大学のJ. Dongarra博士によって開発された規則的な行列計算による連立一次方程式の解法プログラムで、TOP500リストを作成するために用いるベンチマーク・プログラム。ハードウェアのピーク性能に近い性能を出しやすく、その計算は単純だが、応用範囲が広い。 [用語3] TOP500 : TOP500は、世界で最も高速なコンピュータシステムの上位500位までを定期的にランク付けし、評価するプロジェクト。1993年に発足し、スーパーコンピュータのリストを年2回発表している。 [用語4] TEPS（Traversed Edges Per Second） : Graph500ベンチマークの実行速度をあらわすスコア。Graph500ベンチマークでは与えられたグラフの頂点とそれをつなぐ枝を処理する。Graph500におけるコンピュータの速度は1秒間あたりに調べ上げた枝の数として定義されている。 [用語5] ノード : スーパーコンピュータにおけるオペレーティングシステム（OS）が動作できる最小の計算資源の単位。「京」の場合は、ひとつのCPU（中央演算装置）、ひとつのICC（インターコネクトコントローラ）、および16GBのメモリから構成される。 [用語6] プロブレムスケール : Graph500ベンチマークが計算する問題の規模をあらわす数値。グラフの頂点数に関連した数値であり、プロブレムスケール40の場合は2の40乗（約1兆）の数の頂点から構成されるグラフを処理することを意味する。