KEKBシステムはすべて Solaris 2.5.1 をOSとするUNIXシステムであり、中核のファイルサーバ(36台)と計算サーバを富士通 AP3000システムによりまかなっている。7台の計算サーバは28CPUを有するSMP(Shared Memory Processor)マシンであり、これが KEKのAP3000を特徴づけている。 ファイルサーバーは一台あたり約0.1TBの RAID5 ディスクにSCSI2で接続されNFSサーバとして運用されている。NFSサーバのうち2台は4CPUをもつSMPで後述する階層型ファイルシステム(HSM:Hierarchical Storage Management)サーバとしても機能している。
KEKB 加速器で電子、陽電子が生成、加速され、BELLE実験装置内で衝突させられる。この衝突で生じた二次粒子はBELLE実験装置で検出され、検出データは光ケーブルで3km離れた計算機室に転送されテープライブラリーに記録される。最高15MB/秒のデータを終日滞りなく記録する必要があるため、高速のディジタルテープが使用されている。
データは同じテープライブラリの計算サーバに直結された別のテープドライブから読み出され解析が行われる。計算サーバでは表1に示される種々のジョブが実行される。
これらの主なジョブは、1ジョブでfork()とshared memoryプロセス間通信による比較的単純な並列プロセッシングをおこない、28CPUを無駄無く使用している。電子-陽電子の一回の衝突事象を「イベント」というが、高エネルギー実験物理学のデータはイベント間の依存性が殆どなく、また多数のイベントを解析する必要があるため、本質的に並列計算が容易である。しかしながら、28CPUまで台数効果を上げることができるのはSUN Ultra Enterprise System のメモリ設計、バス設計の優秀さによるところが大きい。
KEKBシステムにおいては、AP3000 のセールスポイントであるAP net は並列計算の計算機間通信には使われておらず、ジョブが走る計算サーバとファイルサーバの間でNFSプロトコルを運んでいるだけである。
ユーザーは、X端末やWS(work station)経由で13台のワークグループサーバにログインしてプログラム開発やグラフィック処理を行う。多量のデータや計算資源を使用するジョブはPlatform Computer社の LSF(Load Sharing Facility) によるバッチキューシステムで負荷分散をとりつつコントロールされる。
表1
JOBの種類 | 必要計算能力 (SPECint95) | 必要I/O能力 (MB/s) | 同時実行数 | データ生成量 | 記憶媒体 |
---|---|---|---|---|---|
実験データ収集 | - | 15MB/s | 1 | 10TB | tape |
実験データ解析(再構成) | 120 | 6MB/s | 1〜3 | 15TB/年 | tape |
実験データ解析(分類) | 20 | 6MB/s | 1 | 1TB/年 | disk |
グループによるシミュレーション | 120 | 5MB/s | 1 | 8TB/年 | tape & disk |
ユーザーによる解析1(抽出) | 8 | 5MB/s | 2〜3 | disk | |
ユーザーによる解析2 | 2 | 2MB/s | 〜20 | disk | |
ユーザーによるシミュレーション | 20 | <1MB/s | 〜10 | disk |