東京大学宇宙線研究所の現状と課題

(4/26)

４．まとめと今後の課題

　データサーバーとしての大型計算機とCPUサーバーとしてのWSを組み合わせた分散型のシステムから、SMP型のサーバーWSへ移行したことによって、I/Oバンド幅の問題が解決された。それとともに、ユーザープログラムが非常に簡潔なものとなり、プログラム開発にかける時間の短縮や、プログラムの安定性の大幅な改善がみられた。また、大型計算機を廃止できたことによって、消費電力が低減し維持費の負担が減った。反面、ソフト面の問題が多く、通常なら軽微な損害ですむところが、大規模なシステムになっているために致命的な障害になってしまうことがある。
　今後の課題としては、システムの安定稼働は当然のこととして、

a. 高負荷で急激に使用不能まで性能の下がってしまう階層型ファイルシステムを改善したい。これは、構成や利用形態の変更だけでなく、ハードやそのコントロールプログラムの問題が大きい。

b. また、ネットワークポートを束ねることで、100BASE-TXのような安定して安価な規格を使い、１つのホスト名、１つのIPアドレスで太いバンド幅を確保したい。

c. FiberChannelArbitrationLoop等を利用したディスクサーバーの利用で、クロスマウントがなく複数のホストで共有できる高速ディスクシステムを導入したい。

d. 多数のWSにジョブを投入する際の、効率的なCPUの割り振り、また、簡便な実行パラメータの設定手段を確保したい。ジョブ間での乱数の整合性の問題を解決したい。

e. RCSやCVSのようなソースコードの管理だけでなく、データファイルの処理履歴も管理できるようなツールの開発または導入をしたい。

と、考えている。
　最後は現在開発中のデータストレージのツールを紹介して終わりとする。ストレージやI/Oの負荷を助長しているものとして、シーケンシャルファイルを使ったデータの保存方法があげられる。これまでのスタイルでは、「入力ファイルに対して、ユーザープログラムはそれをシーケンシャルに全て（不要な部分も含めて）読み込み、各自の解析結果をそれに付加して、出力ファイルを作る」ということで行っている。したがって、多くの場合は、入力１、出力１で、出力が入力より大きくなる。さらに、必要ない情報も読み込み、重複したデータを書き出すため、無駄なI/Oを繰り返すことになっている。このような方法を採っている理由としては、ユーザーの付加するデータが位置的にもサイズ的にも構造的にも全く予測できなかったからというところが多い。そこで、現在（東北大学では）、多入力、多出力タイプのI/Oのモデルを使ったツールを開発している。ここでは、各ファイルは単一の情報（各解析結果等）を内包し、情報を得るために必要なファイルは、自動的に開かれる。付加するデータはそれ専用のファイルに自動的に書き込まれていき、無駄なI/Oや重複したデータの作成を行わない。各ファイルは付随するインデックスを持っており、ファイル中の必要な部分まで一気にシークできるようになっており、不定レコード長のダイレクトアクセスファイルのようになっているため、さらに無駄なI/Oを低減できる。また、必要なファイルの検索にはサーチパスが使われており、リモートマシンのディスクも指定できるようになっている。これによって、使用頻度の少ない巨大なファイルは一カ所のデータセンターにおいておき、ユーザーは海外からでもそのデータに透過的にアクセスできるようにすることで、国際的な共同研究にも対応する。このリモートデータのアクセスにはhttpが利用され、多くのマシンで特別な設定やソフトウェアの移植なしに、データの共有ができるように考えられている。

[目次] [１ページ目に戻る] [前ページ] [次ページ] [質疑応答]

a.	高負荷で急激に使用不能まで性能の下がってしまう階層型ファイルシステムを改善したい。これは、構成や利用形態の変更だけでなく、ハードやそのコントロールプログラムの問題が大きい。
b.	また、ネットワークポートを束ねることで、100BASE-TXのような安定して安価な規格を使い、１つのホスト名、１つのIPアドレスで太いバンド幅を確保したい。
c.	FiberChannelArbitrationLoop等を利用したディスクサーバーの利用で、クロスマウントがなく複数のホストで共有できる高速ディスクシステムを導入したい。
d.	多数のWSにジョブを投入する際の、効率的なCPUの割り振り、また、簡便な実行パラメータの設定手段を確保したい。ジョブ間での乱数の整合性の問題を解決したい。
e.	RCSやCVSのようなソースコードの管理だけでなく、データファイルの処理履歴も管理できるようなツールの開発または導入をしたい。