SS研:sci2001-2-doc

[目次] [1ページ目] [前ページ] [次ページ] [質疑応答]

(6/7)

6. 1,024台PCクラスタの評価
　MPICH-SCoreの性能を他の通信ライブラリと比較する。比較対象として、Myrinetの場合には、Myricom 社が提供しているMPICH-1.2.1を基にしたMPI-GMを、Ethernetの場合には米国ノートルダム大学が開発したLAM/MPI 6.5.1を、それぞれ使用した。LAM/MPIは、TCP/IP プロトコルを使用している。

6.1 基本通信性能
　図10および図11は、MyrinetおよびEthernetにおけるMPIレベルでの通信バンド幅を他の実装と比較したグラフである。図10において、PM/MyrinetがMPICH-SCoreで、GMがMPI-GMの評価結果である。Myrinetにおいては、MPICH-SCoreが最大227MByte/sec出ているのに対し、MPI-GMでは162MByte/secしか出ていない。

図10: MyrinetにおけるMPIの通信バンド幅による比較

　図11において、PM/Ethernetが100Mbps Ethernetを1リンク使用した時のMICH-SCoreの性能で、PM/Ethernet(2Way)が100Mbps Ethernetを2リンク使用した時のMPICH-SCoreの性能である。TCP/IP(LAM) は、LAM/MPIの性能である。MPICH-SCoreもLAM/MPIも最大12MByte/sec とほぼ同じ性能が出ている。また、2リンク使用時のMPICH-SCoreの性能は、最大24MByte/secと2倍の性能が出ている。

図11: EthernetにおけるMPIの通信バンド幅による比較

　4バイトメッセージにおけるMPIの通信遅延を表2に掲載する。Myrinetでの通信遅延は約12マイクロ秒であるのに対して、100Mbps Ethernetでは約56マイクロ秒で、4倍以上の差がある。

6.2 アプリケーション起動時間
　表3にジョブの起動時間を示す。これは、シングルユーザモードで、ユーザがscout 環境でアプリケーションを実行したときの起動時間である。マルチユーザモードでは、512ホストにおけるジョブ起動時間は4秒程度となる。シングルユーザモードでは、アプリケーション起動時に各プロセッサでscoreboardデータベースサーバとの通信が生じるため、プロセッサ数が増えると起動時間が長くなる。マルチユーザモードの場合には、この処理がないため起動時間が速くなる。

表2: MPI の通信遅延による比較

RTT/2: 1/2往復時間（マイクロ秒）

低レベルライブラリ RTT/2

PM/Myrinet 12.3

GM 12.8

PM/Ethernet 55.6

PM/Ethernet(2Way) 55.6

TCP/IP(LAM) 77.5

表3: アプリケーション起動時間

単位秒

ノード数 Myrinet Ethernet x 1 Ethernet x 2

16
32
64
128
256
512
2.42
2.71
3.47
4.39
7.31
13.31
2.38
2.72
3.41
4.50
7.60
14.16
5.48
5.72
6.28
7.02
9.40
14.17

6.3 姫野ベンチマークの結果
　図12に姫野ベンチマークの結果を示す。Large(512x256x256)サイズでの結果である。コンパイラはPGI社のコンパイラで最適化オプションは-O4とした。なお、256台までしか計測していないのは、Largeサイズの大きさでは、256台以上では正しく実行されないためである。

図12: 姫野ベンチマークの結果

6.4 Linpackベンチマークの結果
　世界中のスーパコンピュータをLinpackと呼ばれるベンチマークプログラムを使った性能値でランク付けしているTOP500と呼ばれるサイトがある（http://www.top500.org/）。2001年6月のTOP500では、SCore IIIは547.90Gflopsの性能で36位だった。この時は、一部ハードウェアが故障しており、全てのプロセッサが利用できなかった。2001年8月には、1,012台のプロセッサを使って、618.3Gflopsの性能に達成した。この時点で、2001年6月のTOP500リスト中のクラスタの中では一番の性能だった。

[目次] [1ページ目] [前ページ] [次ページ] [質疑応答]