[目次][前ページ][次ページ][OHP][質疑応答]
(5/7)

5.トラブル

 BELLE実験は本夏より本格的にデータ収集を始めている。システムは1997年に導入されたので、約2年間は実験データなしに、シミュレーションデータの生成やソフトウエアの開発に使用されてきた。この段階で計算サーバのCPU使用率が平均で70〜90%、使用ファイル量 6TB(うち4TBがテープにある)、ファイルサーバの平均CPU使用率は3〜20%程度である。今まで述べてきた各種の分散コンピューティング環境を適用した結果はどうであったろうか。下図にトラブルの発生状況を描いたグラフを示す。ただし、運用に全く影響の出なかった冗長部分の故障などは含まれていない。最近のUNIXシステムワークステーションはかなり安定で何か月もダウンせずに動作するが、このような大規模なシステムでは、また次元の違う話がある。



 グラフよりシステムを運転してから一年半ほどは非常にトラブルが多かったことがわかる。主な原因はソフトウエアおよびハードウエア(ファームウエアの問題や不適切な部品の使用等)のバグであり、SMP上のDFSクライアントの不具合、RAIDコントローラの不具合、ファイルサーバのハードウエア、テープライブラリ・ドライブの不具合等が含まれる。図中システムダウンとあるのは、フォルトトレランス機能がなかったり、バグで機能しなかったために、ユーザーがなにも仕事ができない状況におちいった回数である。これらは障害全体の1/10以下ではあるが当初は半月に一回程度も発生した。また、問題を解決するために頻繁なメンテナンスダウンも必要であった。しかしながら、最近では、ほぼ仕様(3ヶ月に1回以下)程度に安定運用できるまでこぎつけている。これもひとえに、このような複雑なシステム見捨てず、ご努力いただいた富士通および関連メーカ各位のご協力の賜である。この場を借りて深く感謝するとともに、今後の変わらぬサポートをお願いする次第である。
 最後まで残っている問題としては、テープドライブの問題(最近解決した)、CPU故障による障害、キャッシュメモリーのソフト放射線による問題とあといくつかのソフトウエアに関する問題がある。


[目次][前ページ][次ページ][OHP][質疑応答]