[目次][前ページ][次ページ][OHP][質疑応答]
(4/8)

4.VPP800の運用とシステム設計

4.1 VPP800のサービス

4.1.1 会話型サービス

 P-PEに直接ログインする形で会話型のサービスを行っている。
 なお、P-PE以外のPEには/etc/nologinを設定し、一般ユーザがロングインすることを禁止している。
 また、会話型の許可量は、CPUを1時間、メモリサイズを標準1GB、最大2GBとしている。

4.1.2 NQSバッチ処理

 NQSのキュー名と許可量を表4に示す。キューclはコンパイル専用であり、zは40PEを超えるジョブのためのキューである。

表4.キュー名と許可量

キュー名PE数CPU時間経過時間メモリサイズ
cl130分60分2GB
d160分90分7GB
e1360分540分7GB
f1060分90分7GB×10
g10360分540分7GB×10
h40360分540分7GB×40
z41以上


4.1.3 MVPP連携

 VPP500導入に開発したMVPP連携機能によるサービスは、NQSキューの内ベクトルジョブd,eと並列ジョブf,g,hについてサービスを行っている。また、コンパイル、リンクのステップは、専用のコンパイルキューを定義している。

4.2 NQSの定義とサービス

 NQSのサービスに関するいくつかの設定パラメータがあるが、現在は、次のようにしている。

4.2.1 ジョブリストと実行多重度

 まず、NQSのキューと割付けPEを管理するジョブリストの設定は、次のようしている。
 1)コンパイル専用キュー(cl)は、IO-PEに割付ける。
 2)並列ジョブキュー(f,g,h)は、S-PEだけに割付ける。
 3)ベクトルジョブキュー(d,e)は、全てのPEに割付ける。
 また、空きPEを極力少なくし、且つ、PE割付け待ちの発生を押さえるために、NQSジョブの実行多重度の制御は、キューのRun LimitとComplex QueueのRun Limitを次のように定義している。

表5.実行多重度の制御

Complex QueueRun LimitQueueRun Limit
Vector20d12
e8
Parallel105f3
g2
Parallel401h 1


4.2.2 NQS-JM(Job Manager)の利用と定義

 NQS-JMは、ユーザ当りの受付ジョブ数と実行多重度およびジョブの資源量の設定値を管理する機能である。
 現在は、実行多重度制御により、特定のユーザがシステムを占有しないようにしている。
 また、ジョブの資源量の設定値管理を用い、ジョブMRFS(Memory Resident File System)のサイズを標準0GB、最大値7GBに設定(NQSのMRFSのサイズは、7GB)し、利用者が任意のジョブMRFSのサイズを指定できるようした。

4.3 ファイルシステムの設計とサービス

 今回のスパコンリプレースの重要な課題の一つに、ユーザに高速、大容量ファイルを提供することがあった。
 したがって、導入したGen5にスパコン専用のホームディレクトリおよび大容量ファイルの割当てが必須であったが、システム設計段階で、当面、使えるファイルシステムとしてはUFSとVFLであり、UFSでは2GBを超えるファイルシステムが作れない、また、VFLではi-nodeが3,2768個しか作れないという大きな制約があった。
 しかし、大容量、高速なアクセスが運用上の必須要件であるのでVFLファイルシステムを選択し、ホームディレクトリを3つに分けて配置、極力ファイル個数を減らすように設計を行った。表6にGen5上のファイルシステムの配置と容量を示す。

表6.ファイルシステムの割付けと用途

ファシリティ用途容量
#1ユーザホーム1200GB
センターIDホーム100GB
ジョブ凍結、ジョブスワップ60GB
#2大容量ファイル領域300GB
ジョブ凍結、ジョブスワップ60GB
#3ユーザホーム2200GB
ジョブ凍結、ジョブスワップ16GB
#4MVPP連携ホーム80GB
ジョブ凍結、ジョブスワップ28GB


 ジョブ凍結、ジョブスワップのためのファイルスペースは、並列アクセスが有効なために4つのファシリティに分散して配置し、合計で164GBを確保した。
 また、ユーザホームおよび大容量ファイル領域として合計800GBを確保した。これらの領域は、ユーザ当りの容量、個数をquotaで管理している。現在のユーザ当りの許可量およびブロックサイズを表7に示す。

表7.ユーザ当りの許可量とブロックサイズ

項目Soft LimitHard Limitブロックサイズ
容量個数容量個数
ホーム20GB1500個40GB 3000個64KB
大容量ファイル領域100GB20個200GB 40個640KB


 さらに、ユーザホームで使用するi-node数を極力減らすために、次のような処置を行っている。
1)個々のユーザのホームディレクトリは、ユーザがVPP800へ最初にログイン時に作成する。
2)標準的な環境設定はシステム内で行うことで、ユーザがホームディレクトリに設定ファイル(.cshrcなど)作らなくても使えるようにした。

4.4 移植および開発したソフトウエア

4.4.1 開発ソフトウエア

 VPP800の運用のために作成したコマンドには、次のようなものがある。

1) qsub
 独自の課金処理のために独自のリクエスト名管理と、ジョブプロフィールの出力オプション(-oi)を標準で設定している。
2) df
 Gen5上のファイルシステムは、HIPPI接続されたIO-PEにしか情報が無いために、P-PEの会話型サービスでユーザがホームに関する情報が得られない。したがって、P-PEでdfコマンドが入力されると必要なIO-PEにrshコマンド経由でdfを実行し結果を整形し出力している。
3) quota
 これもdfコマンドと同じようなもので、Gen5上のファイルシステムのquota管理情報を表示するために、必要なIO-PEにrsh経由でquotaを投げ、結果を出力している。

4.4.2 移植ソフトウエア

 VPP800に移植したソフトウエアには、次のようなものがある。

  ・emacsエディタ
  ・tcsh、less
  ・GNUツールgzip,patch,make,tar
  ・kterm,ウインドマネージャfvwm
  ・Secure Shell
  ・parl5
  ・pgplotグラフックライブラリ


[目次][前ページ][次ページ][OHP][質疑応答]