[講演1]PCクラスタ〜その性能と今後〜 : 久門(富士通研究所)
PCクラスタの構成要素であるCPUとネットワークのあり方に関する所感から始まり、現状デリバリされているプロセッサの性能比較を実施しての問題点などの報告。
- 最近のコモディティハードウエアの性能向上は目覚ましいが、それらをスペックの額面どうり使いこなすには、適切なハードウエアの組みあわせ、ハードウエアードライバの組みあわせや、システムのバージョン、コンパイラの選択、チューニングの実施などが必要である。
- 良く分っている人と、なにも知らない人で同じ予算でも利用できる計算機資源に差があるが、これがどんどん広がる傾向にある。
- これらの情報について、検討、集積、流通、公開が重要である。しかし言うは易く、行うは難しい。せめて、富士通のIAサーバは推奨のGigabitなどや、その性能の詳細などを公開したらどうだろうか。
- CPUとインターコネクトについて性能評価、使いやすさ等の比較を元に今後のPCクラスタについての講演があった。
- CPU : IA64, P4, Athlon
- インターコネクト
- 専用 : Myrinet, cLAN, Infiniband(?)
- コモディティ : 性能が確認されたNICを選択する事が必須
|
|
[講演2]RWCPでのPCクラスタへの取り組みと構築上のポイントについて : 住元(RWCP)
PCクラスタの登場からRWCPでのこれまでの取り組みを紹介。SCore開発推進に当たってきた実際の経験をベースとしてきたからこそ言える、構築のポイントやこの分野の今後の展望などを報告。 また、PCクラスタコンソーシアムについても紹介があった。
- PCクラスタを確実に動かすためには、講演1の議論と同様、ハードウエアの適切な選択が大事。
- また、設置にたいしても、空調、電力、ケーブリングなど細かく気を使う必要がある。これがあとの稼働に大きく響く。
- 自分でどこまでやるのか/やれるのかをよく考えて、仕様書を書こう。
- 導入当初の試験が初期不良出しや、所定の性能を出すために重要。
- センターなどでの共同利用計算機として使う場合、課金システムをどのようにするか。
- ケーブル配線が多数あるが、ラックの場所を移動させる場合はどうするのか?
→そのラックに接続されているケーブルを全部はずして移動するしかない。
- 配線をすっきりということだが、一本ずつケーブル長が違うのか?
→1本ずつ違う。ただし、PCを搭載する構成が決まれば何mが何本という形で業者に作ってもらうことができる。
- 電源の線は各PCから全部だしているのか、UPSはどうしているのか?
→各PCから出している。UPSは数が多いため設置していない。
- セキュリテイ対策はどうしているのか?
→PCクラスタをプライベートネットワークに接続し、対外接続はファイアウォール経由とする、各ノードへのtelnetを禁止する、といった対策が考えられる。
- 大きな計算をする場合各ノードに結果ファイルが分散することになるが、それらの管理はどうすればよいのか?
→計算後にバラバラのデータを1ヶ所へ集めて処理する方法、クラスタファイルやNFSのようなファイルを利用する方法、計算ノードで最終処理(可視化など)までする方法、などが考えられる。
- 並列コンパイラはMPIを不要にするものではないのか?
→理想はそうだが、現実はMPIで開発されている方が多い。
- 富士通はVPPのコンパイラでそれを実現しているのだから、そいう技術をPCクラスタでも実現してほしい。
- 1000台規模のクラスタの利点と欠点は?
→利点はトラブル切り分けの時、半分のシステムに分割して同一プログラムを流すことにより問題個所を切り分けられる、欠点は数が多いのでハードトラブルが色々出る、また、トラブルが出たときベンダーの対応力がわかる。
- トラブル発生率の高い順にいくつかの問題を教えてほしい
→ケーブルの接続不良が多い、その他は熱問題によるCPUのトラブル、メモリエラー、DISK障害、ネットワークスイッチ障害、という感じ。
- 某ベンダーのPCはファンがよく壊れたがそういうことはないのか?
→RWCPではファンが壊れたということはない。
- 途中でノードを追加したとき、SCoreはそこだけ最新バージョンにできるのか?
→全ノードでバージョンを合わせる必要がある。
- 構築上のポイント
- アプリケーションの性質の把握 → 測定してみる。
- ネットワークの選択 → 測定してみないと判らない。
- ラックレイアウト → 移動を考慮したレイアウト
- 試験 → 一晩くらいの全ノード通信試験が必須、NAS並列ベンチマークで値の検証する
- 購入時のポイント
- 購入業者にどこまで頼むかを明確に、技術力があり実績を持つ業者選定が重要。
- 運用面
- 1000台規模の故障率はベンダーのエラー率程度
- トラブル切りわけは半分ずつ切りわけて確認していく。
|
|
会員報告〜現状or検討中システムの課題等〜
- ファイル
- PCクラスタを構成するCPU廻りは安価にできても、ファイル廻りにお金がかかる。
- プリ/ポスト処理との連携
- PCクラスタで数値シミュレーションさせた時のプリ/ポスト処理システムとの連携で使いやすい接続、大量のシミュレーション結果データの取り扱い
- 計算センターとしての大型PCクラスタの運用
- 運用管理機能(特に課金)、エンドユーザのデータの扱い
- ハードスペック向上速度にどう対応するか?
- 価格低下、性能向上が激しく仕様書を作った調達をかけても導入時にそのものでない可能性がある。また、増設時には同じものが手に入らない。テスト環境が必要。
|
|
その他〜問題提起/要望/感想など〜
- 計算だけでなく、計算結果出力の画像処理などの処理が必要。これらを効率的におこなうにはどうしたらよいか。
- 同様に ファイルI/Oは全体のスループットとして重要であるが、これを、並列化された計算性能に見合うだけ実現しなくてはならない。どうしたらよいか。
- コンソーシアムが設立され普及に注力する方針が示されている。では、普及に成功するためのキーテクノロジは何であるか議論したい。システム構築上の相談に乗るくらいでは普及はたかが知れている。
- PCクラスタはスパコンを狙っているのか、というか本当に汎用スパコンになりうるのか?これから大学でスパコンが欲しいと言った時PCクラスタ以外思いつかないが、全学にスパコンでございますどうぞ自由に使ってくださいといえるほど環境が整っていない。大計センターのように支援組織がしっかりしていれば別だが。。
- PCクラスタが劇的に安くなっているなら、レンタル月1000万で大計センター並のベクトルスパコン位の演算パワーが揃えらるようなシステムを組んで具体的に示せば実感が湧く。尤も提供するアプリ、ツール環境などはもちろん利用マニュアル付き。レイテンシーとスループット議論だけでは大学の何処に有効なPCクラスタか判らない。
- 最近大学は教育用としてPCを500〜600台くらい導入しているところが多い。これこそクラスタの最たるものだが、このPCクラスタWGはこの世界はHPCではないとして考慮の外と見える。HPC−PCクラスタの市場は教育用のPCクラスタとどちらが多いだろうか?このWGはHPC用のPCクラスタのみを研究するのでしょうか。なんかシステムを一緒にした提案もあるような気がしますが。
- プレゼンテーションしたクラスタの技術的検討の項目は私がやっていたころと変わっていない。クラスタの魅力として主張している項目も同じであった。話の内容は明るい点だけが述べられており、ディスカッションが明るい面のみであったのが救い。
|
|
|