7. 利用状況と障害件数
3月に運用を開始したRSCCの利用状況を、各サブ・システムごとに紹介する。導入直後ということもあり、平均して50%前後のCPU利用率は比較的良いスタートである。3月から5月までの3ヶ月間はテスト運用を行った。6月からの本運用では、「スパコン課題審査委員会」による審議の結果、許可された申請者だけが利用出来ることになっている。本運用開始にあたってシステム設定の変更などを行ったために、6月当初は利用率が一時的に低迷したが、7月に入ってからは徐々に上昇してきている。今後情報基盤センターでは、ユーザー教育・プログラム相談などのサポートを強化するだけでなく、MPI、スカラーチューニング、可視化などの講習会の実施や、潜在的な利用者を発掘するための「プログラム高速化・並列化支援」、「プログラム高度化支援」などのサービスを強化していく予定である。
次に、Linuxクラスタを計算機センターで運用する上で重要となる、ハードウェア故障について報告する。RSCCでは、システムの状態把握を目的としたログの収集と、障害検知を目的とする自動監視を行っている。ログの収集には、理研で開発したログ収集&解析ソフト「Pitsaw」と、Linuxクラスタに実装されているハードウェア「IPMI(Intelligent Platform Management Interface)」の2つにより行っている。また、障害検知のための監視は、ハードウェア、ネットワーク、OS、ミドルウェア、ソフトウェアなど様々なレベルで行い、障害検知を行っている。
実際に起こったハードウェアの故障台数は、3月からの約5ヶ月間で33台であるが、全て個々の計算用ノードでの障害であったため、全システム停止ということは無い。また、33台のうち、19台の故障はLINPACK測定中に起こったものである。事後の調査によりそのうちの16台のハードウェアには潜在的な問題があったことが判明し、まだ故障していないハードウェアも全て予防交換した。また、実際に障害は起こらなかったが、IBのケーブルに潜在的な問題があることも判明し、512ノード(1024CPU)のサブ・クラスタのIBケーブル1024本のうち半分を予防交換した。
8. おわりに
これまで運用してきたベクトル型並列計算機から大規模Linuxクラスタを中心とした複合システムへのリプレースは、我々にとって大きな挑戦であった。日本で初めて計算機センターのマシンとしてLinuxクラスタの採用であればなおさらである。そのため、RSCCの設計においては、不足していた機能を補い利便性を高めるために、いくつもの新しい機能と試みを取り入れた。導入後のベンチマークによる実効性能は非常に高く、ハードウェア障害も予想以上に少なく安定稼動している。しかし、バッチ・ジョブ・スケジューラの修正、ジョブ凍結機能の改善などという課題が残っている。これらの課題を克服し、RSCCとしてのより効率的なシステム運用を可能とし、利用者の研究活動を支援するシステムを目指していきたい。