SS研:sci2007-2(2007/11/28)

科学技術計算分科会「サイエンティフィック・コンピューティングの最前線」

「GRAPE-DRとスーパーコンピューティングの未来」

（6/8）

6. 類似アプローチとの比較

さて、1チップに非常に多数の演算器を入れる方向を目指すアーキテクチャは GRAPE-DRの他にもいくつかある。以下では、その例として FPGAによる再構成可能計算、GPGPU、類似の超並列SIMDプロセッサ^[6]、タイルプロセッサ等の MIMD超並列プロセッサをとり上げる。

6.1. FPGA

FPGAによる再構成可能計算については天野の講演で詳しく述べられるはずなのでここでは繰り返さない。ビット長が短いデータに対する処理では FPGAは優れている。しかし、浮動小数点演算、特に倍精度演算が必要になると、専用乗算回路を持つ大規模なFPGA でも実装可能な演算器の数は少なく、汎用マイクロプロセッサに比べて動作クロックも桁で低いために性能で上回るのは困難になる。GRAPE-DRの場合には初めから多数の演算器を持ち、クロックもそこそこなので性能はかなり有利になる。
外付メモリバンド幅については FPGAでも高くするのは困難であり、適した問題の性質は同様になる。

6.2. GPGPU

GPGPUの歴史、発展については 8月の HPCフォーラムで伊野から発表があった。GPUは元々は画像表示のための専用回路であり、座標変換、Zバッファ、テクスチャマッピング等を専用回路で行ってきたが、これらの処理が次第に複雑になったためにプログラマブルなプロセッサに多数が複合した動作をさせることで高速性と柔軟性を両立させようとしている。その結果、汎用計算にも対応できるものになってきた。
これは GRAPEの進化と並行的なものであるが、いくつかの違いがある。
GPUは高速な外付メモリを持つ
GPUは GRAPE-DRよりもはるかに複雑なハードウェアであり、チップ当りの演算性能は高くない
GPUではメモリバンド幅に対してそれほど演算性能を高くできないので、今後の発展の方向は不明である。
実際、90nmの nVidia G80から 65nmの G92になって、トランジスタ数は 1.5倍になったにもかかわらず演算器の数は 128から 112に減少している。それでもチップ面積は 300平方ミリに及ぶ巨大なものである。
GPUはその設計がグラフィック処理以外の具体的なアプリケーションを念頭においていないので、意外なところで性能低下がある
GPUは大量生産されるのでチップ単価が安い
GPUは 1年程度のサイクルで新製品がでるので、テクノロジー的には有利である
それぞれの要因はかなり大きなものである。例えば、GPUのオンボードメモリは GRAPE-DRのオンボードメモリの 20倍以上高速である。これに対して演算器の数は GRAPE-DRと nVidiaの現時点で最新プロセッサである G92を比べると、GRAPE-DRのほうが 4倍以上多い（その代わりクロックは1/3）。倍精度演算に関しては 2007/11/7現在では G92の性能は全く不明である。

性能低下は、行列乗算、N体計算等様々な問題で報告されている。現在のところ、nVidia G80プロセッサの重力多体問題での性能は、GRAPE-6 チップ 4個のボードよりも若干遅い程度であり、GRAPE-DRチップに比べてもかなり低くなる。しかし、価格の違いは 10倍近い。

一般的なテクノロジーの方向、特に大量生産によるコストメリットと最新のテクノロジーが使えるメリットは GPUのほうで極めて大きく、GRAPE-DRのような HPC専用プロセッサでは勝負にならないようにも思われる。

しかし、GPGPUの最大の敵は汎用マイクロプロセッサである。例えば、4コアの Intel/AMDプロセッサは単精度演算では 100Gflops近いピーク性能をもち、nVidia G80の 256Gflopsと大差ない。バンド幅が低い PCI-Expressでつながっていることによる性能低下を考えると、GPUの側で演算するのと CPUの側でそのままやるのでどちらが得かは難しい、というより、GPUで性能向上ができるケースはそれほど多くない。
この意味では、GPGPUの将来がどれほど明るいかは自明ではなく、これは GRAPE-DRも同じかもしれない。

6.3. ClearSpeed CSX600

ClearSpeed CSX600^[6] はGRAPE-DR に極めて良く似たアーキテクチャをもった SIMD超並列チップである。大きな違いは演算器の数(96) と動作クロック(200MHz) であり、このために CSX600は理論ピーク性能が 1チップ 50Gflops程度と低く、発表時点でマイクロプロセッサとの競合が難しいものになっていた。これは、テクノロジーが 1世代古いこともあるが、GRAPE-DRに比べるとチップ面積に対する演算器の割合は小さい。
GRAPE-DRでは、かなり極限まで演算器の割合を増やすことでピーク性能を上げている。

6.4. タイルプロセッサ等

Intelが発表した 80コア超並列プロセッサ等、比較的単純だがそれぞれが独立にプログラムを実行するプロセッサを多数集積したチップでアプリケーションを実行する研究はかなり以前から非常に沢山ある。
現在のところ実用的なアプリケーションで性能がでたという報告がないので、評価は難しい。

［目次］［1ページ目］［前ページ］［次ページ］［Ｑ&Ａ］