[目次] [1ページ目] [前ページ] [次ページ] [質疑応答]
(3/7)

3. 1,024台PCクラスタの設計

 2000年より、高さ1U(4.4cm)のラックマウント型PCサーバが市販されるようになった。メーカにより多少の差はあるが、概ね、以下のような特徴を持つ。

  1. 2つのCPUが搭載されたSMP 構成が可能
  2. ボード上に2つのEthernetが搭載されている
  3. 2つのPCIバススロットがある
  4. 2つのリムーバブルSCSI ディスクが搭載可能
 このようなPC サーバとMyricom社Myrinet-2000を用いて、コンパクトなクラスタを構築できるようになった。新情報処理開発機構が製作した1,024台CPU構成のPCクラスタであるSCore IIIのハードウェア仕様を表1に示す。

表1: SCore IIIの仕様
計算ホスト NEC Express Server 5800 120Ra-1
(Pentium III 933 MHz x 2
512 Mbytes 主記憶,
9.1 Gbytes SCSI ディスク x 2)
512
Server NEC Express Server 5800 120Rc-2 4
Network Myrinet-2000
100Mbps Ethernet
1
2


3.1 Myrinet ネットワークトポロジ

 Myrinetネットワークでは、構成要素として16ポートクロスバスイッチを結合してネットワークトポロジを組む。クロスバスイッチはパケットをスイッチ内部で蓄積することなく他のポートに直接送出する。Myrinetのスイッチではクロスバスイッチにワームホールルーティングと呼ばれる方式を採用することによりスイッチ処理を高速化している。
 SCore IIIのMyrinetネットワークトポロジは、512台のコンピュータ接続においてバイセクションバンド幅が最大になるように設計した。バイセクションバンド幅とは、ネットワークに接続されているコンピュータを2分割した時に、2分割間の通信バンド幅を意味する。
 図2にMyrinet ネットワークトポロジを示す。図中、四角の線で囲われた部分がSCore IIIの1 モジュールで、64台のコンピュータとMyrinet Clos128スイッチ(図中E128)から構成される。E128は、128台のコンピュータを接続することが出来るが、このうちの半分を他のスイッチとの接続に使用している。図中、上部にある丸はスイッチを表現しているが、分かりやすくするために、Point to Pointのつながりとして示した。一つの丸が一つのスイッチを表現しているわけではない。


図2: Myrinet ネットワークトポロジ


 このように、512台のコンピュータにおけるバイセクションバンド幅は、64 x 4 x 2 x 2 Gbps(full duplex すなわち送受信のバンド幅を考慮)、すなわち、1Tera bpsとなる。これは、512台のコンピュータをMyrinetを使って接続した場合のフルバイセクションバンド幅である。

3.2 Ethernet ネットワークトポロジ

 PCオンボードに搭載されている2つのEthernet NICを用いて、2 系統の独立したEthernetリンクを構築している。1系統はIPアドレスを持ちTCP/IPによる通信が可能である。もう一系統はPM/Ethernetが提供するネットワークトランキング機能を使ったときに使用される。


図3: Ethernet ネットワークトポロジ


 図3に示す通り、各リンクでは、32台のPCが一台の100Mbps Ethernetスイッチに接続され、16台の100Mbps Ethernetスイッチは1台の1Gbps Ethernetスイッチに接続されている。すなわち、512台のコンピュータにおけるバイセクションバンド幅は16Gbpsであり、100Mbps Ethernetを使ったときのフルバイセクションバンド幅51.2Gbpsの1/3でしかない。
 Ethernet 系でフルバイセクションバンド幅を提供しなかったのは、予算の関係とMyrinetネットワークを主に使うことを念頭においていたためである。

3.3 ラックの構成

 PCサーバ、Myrinetスイッチおよび2系統のEthernetスイッチを搭載するために2つの19インチラック(高さは44U)で1モジュールとなるような配置にした(図4)。すなわち、32台のPC サーバと128ポートMyrinetスイッチが、もう一つのラックには32台のPCサーバと2台のEthernetスイッチが搭載されている。図4の左の写真は、組み立て中のモジュールで、左側のラックにはまだMyrinetスイッチが設置されていない。右側ラックにはEthernetスイッチが2つ設置されている。512台のPCサーバを格納するために8モジュール構成となっている。


図4: SCore IIIの1モジュール


 各モジュールのMyrinetおよびEthernetスイッチを接続するためのスイッチとクラスタ用サーバは、2本のラックに収められている(図5)。図5において、右側のラックにはMyrinetスイッチだけが設置されている。左側のラックには、サーバおよびGigabit Ethernetスイッチ、Myrinetスイッチが設置されている。


図5: サーバ・スイッチモジュール


 図7に示す通り、SCore IIIは合計18本の19インチラックから構成され、設置面積は3メートルx 7.5メートルとなっている。図6は、正面左側から撮影したSCore IIIである。


図6: SCore IIIの外観


図7: SCore IIIのレイアウト


3.4 配線

 ラック内の配線の様子を図8に、ラック間のMyrinet配線の様子を図9に示す。ラック内のケーブル類は19インチラックの両脇に収めるようにした。これは、ケーブルによる空調の流れの遮断をなくすようにするとともに、コンピュータ本体を取り出すときに、ケーブルの着脱を容易にすることが目的である。


図8: ラック裏側の配線の様子


 左側に延びているケーブルは、Myrinet-2000のserial line、真中のケーブルはPCサーバ間のシリアルリンク、右側のケーブルが2本のEthernetリンクと電源ケーブル。


図9: Myrinetの配線


3.5 コンソールモニタ

 クラスタを構築するとき、PCのコンソールをどうするか悩ましい問題である。大抵は、一つのディスプレイ・キーボード・マウスだけで操作できるようディスプレイ・キーボード・マウススイッチを使うだろう。SCore IIIを構築する前に128CPU構成のクラスタであるSCore IIを製作した際、一つのラックに16 台のPCサーバとディスプレイ・キーボード・マウススイッチを載せた。しかし、太いケーブルがラックの裏でとぐろを巻き、保守性を著しく低下させたので、取り外してしまった。
 このような経験から、SCore IIIでは、図8の写真に示す通り、PCサーバ間をシリアルラインで数珠繋ぎしている。これは、あるPCサーバがネットワーク経由でログイン出来ない状況になった時に、隣のPCサーバにログインして、シリアルライン経由でコンピュータの状況を把握することを仮定している。
 初期不良洗いだし時には、反応しなくなったコンピュータが発生したら、ディスプレイ・キーボード・マウスを載せた台を持っていき、直接つなげて調べていた。
 一度、安定稼働すれば、コンソールモニタは必要ないので、全てのPCサーバに接続するためにディスプレイ・キーボード・マウススイッチを用意するのは得策ではないだろう。


[目次] [1ページ目] [前ページ] [次ページ] [質疑応答]