[目次][次ページ][OHP][質疑応答]

KEKB計算機における大規模分散計算システムの運用


高エネルギー加速器研究機構
計算科学センター
真鍋 篤
Atsushi.Manabe@kek.jp

1.はじめに
2.KEKBコンピューターシステムの概要
3.分散コンピューティング技術の適用
4.ファイルサービス
5.トラブル
6.分散システムの憂鬱
7.参考文献

(1/7)

1.はじめに

 高エネルギー加速器研究機構(KEK)では、素粒子物理学の重要な問題であるCP不変性の破れを解明するために、Bファクトリー加速器および BELLE 測定器を建設し、今年からデータ収集を開始した。KEKBコンピューターシステム(以下 KEKBシステム)は実験準備、実験データ解析を目的に1997年より導入された 1,000 SPECint95 以上の計算処理能力、4TBのディスクと150TBのテープライブラリーを有する大規模な分散計算機システムである。このような大規模な計算機資源をひとまとまりのものとして実現するには分散コンピューティング環境が必須である。分散システムでは、ハードウエアが分散され構成要素が多くなり、また構成要素間の複雑な相互依存関係が生ずる。 結果、ユーザーにとって名も知らぬ一台の計算機に問題が生じただけで、その影響が全体におよぶこともある。このため、大規模なシステムにおいては要素機器毎の信頼性には大きな問題がなくても、全体として信頼性・可用性の低いものとなる危険が少なからずある。これを避けるためには構成要素の冗長度をあげ障害時にできるだけバックアップ可能とすることが有効である。しかし、予算に限りがあるため、どこの冗長度をあげるかを見極める必要があるし、また、せっかくのバックアップ機構も肝心なときに働かないこともある。


[目次][次ページ][OHP][質疑応答]