[目次] [発表資料]

質疑応答「大規模システムの運用(理化学研究所)」


−司会− 九州大学大型計算機センター 渡部善隆

【司会】
質疑応答に移りたいと思います。

【根本】(アトムテクノロジー研究体)
最後の図で、フロントエンドの S7マシンの負荷を減らすためにと言われたと思います。たぶんバッチで投げるジョブは、クロスコンパイルしてフロントエンドから投げていると思います。もう1つ、会話型ジョブという方で、ログインサーバとしてフロントエンドから VPPログインをして PEに入るわけですね。それ以外の用途でフロントエンドのマシンは使っていないのでしょうか。それだけだとかなり負荷が低いような感じがしますが。

【姫野】(発表者:理化学研究所)
そうですね。当初はいろいろ考えたことがあったのですが、実際に多くのユーザは、一旦フロントエンドに入ったあと、VPPログインで各プロセッサに入って処理をするという形態がほとんど、少なくとも会話型については全部そうなっています。コンパイルもわざわざフロントエンドでクロスコンパイルをかけるよりも、直接 VPPに入ってコンパイルをかける方が多いですね。当初、富士通から提供されている WWWサイトやいくつかのツールをフロントエンド側で使うので、コンパイリングやチューニングをフロントエンドでやるというのを考えていました。そのためにあまり負荷をかけたくなかったということと、ディスク装置をフロントエンド側にもっていたり、ユーザから見ると通信がフロントエンドに集中しているので、その負荷を考えて分散したかったということです。CPUに関しては、先ほど言いましたようにほとんど負荷はかかっていないと思います。

【内田】(富士通(株)コンピュータ事業本部HPC開発統括部)
HIPPIの障害の件でご迷惑をおかけしておりまして、誠に申し訳ないと思っております。どうも頻繁に障害が起こっていて、また、対応が鈍かったようで、本当に申し訳ないと思っております。

 このHIPPIスイッチというのは、各システムの中核と言いますか、いちばん要になっておりまして、なおかつ我々が提供している装置ではなくて、外部から購入した装置です。そこで障害の解析等についてもかなり時間がかかっているというのが現実です。現状、障害が発生している装置を沼津工場に持ち込んで原因調査をはじめたいと考えています。納入ベンダーについても、障害の発生する装置を納入したということで、我々からも強く言っていますが、最悪事態としては全面入替えも含めて対応したいと考えております。
 もう1つは、こういう要の装置を外部から購入してシステム構成をするということで、我々も障害発生を疎かにしたシステム構成ではなかったかと反省しております。そういう意味でもう少し障害に強いシステム構成はないかと、システム構成自体についてもレビューをしております。見直しを行って、もう少しいいシステムが提供できるとすれば、そういうことでご協力いただきたいと考えています。いずれにしましても、外部から購入した装置と結合していますので、ユーザさんのご協力がないと障害解析がむずかしいという状況ですので、今後ともご協力をお願いしたいと思っています。よろしくお願いいたします。

【司会】
いまのは質問というよりお詫びですね(笑)。富士通からさらに言うことはありますか。

【姫野】
実はオンサイトでいろいろなテストをやるとどうしても緊急補修ということで、センターのサービスを止めなければいけない。それが実は 4月頃から何度か発生したので、一旦持ち帰って全部問題を洗い出してから持ってきてくれという話になって、ここに至りました。

当初、負荷を分散するようなことを考えていたのですが、我々の反省点として、負荷を分散するという考えはまちがっていた、ということがあります。リダンダントに、つまり、同じものを複数用意して負荷を分散するのは安全サイドですが、分散してもそれぞれで機能をもつと、それ 1個がコケると全体がコケるというシステムになり、事故率がかえって増えてしまうシステム設計になっていました。負荷を分散するときは、同じものを複数用意して危険を分散する、あるいは回避ルートがとれるような機器構成にするということが必要だなと思います。

【高橋】(岐阜大学総合情報処理センター)
私は VXをほとんど会話型のジョブとして使っているのですが、先ほどのお話ですと、会話型のジョブはデバッグなどに使われていて、大きいのを走らせるときは、みんなバッチの方に移られるということでした。例えば 1PEで動かしている方も結構いると思うのですが、こういう方もバッチの方へ行ってなかなか会話型を使ってもらえないという理由は、どの辺にあるとお考えでしょうか。

【姫野】
私はそういうふうにいったつもりはないのですが、大規模な計算を狙っている方は、プロセッサを増やしたときのチェックを会話型でやって、バッチへ移行される。1PEは結構長時間、CPUリミット近くまで使っているので、たぶんその状況で完結した仕事をしているのだと思います。8PEまでは結構 CPU時間を使っているけれども、16はあまり使っていないとか、ああいうのはバッチへ移行する人たち、1PEの方はそれでずっと使っている人たちということのようです。

【司会】
時間になりましたので、質問がある場合は、このあとにフリーディスカッションの時間がありますので、そちらで質問していただければと思います。姫野さん、ありがとうございました。(拍手)

[目次] [発表資料]