ホーム > ダウンロード > WG成果報告書 > データマネジメントを意識したストレージソリューションWG 検討結果報告書 > 3.データマネジメントの現状とストレージソリューションへの期待

3.データマネジメントの現状とストレージソリューションへの期待

3.1.データマネジメントの現状

3.1.5.理研におけるデータマネジメントの特徴

3.1.5.5.現状の課題

 2章で定義されたデータマネジメントにおける機能範囲である8カテゴリに基づいて現状の課題を述べる。

(1)データプロテクションの観点

    上述の理研におけるデータマネジメントにおいて、データプロテクションを行う必要があるのは、スーパーコンピュータシステムにおけるユーザデータの一部のみである。ライフサイエンス系データベースや高エネルギー実験データは、元のデータがあって、その複製を保持しているため、自動的にバックアップやディザスタリカバリがされている。ただ、ライフ系データは元データを保管している相手先には伝わっていないため、本質的にプロテクションとは言えないが、理研でプロテクションを意識する必要はない。高エネ実験データはBNL−理研間双方向でリカバリされているという前提の元でデータ格納が運用されている。
    スーパーコンピュータで出力されるデータのプロテクションの課題としては、出力データは元になるデータやソースコードがあれば、基本的に再取得可能であり、その出力データをどこまでプロテクションするかと言う点である。元データやソースコードは容量としてそれほど大きなものではないため、一般的な方法でバックアップ可能である。また、出力データをバックアップするかは基本的には運用ポリシーとコストの問題であり、バックアップデータ量とデータを出力可能な時間および計算機コストおよびバックアップ機器費用等から、何かしらか一般的な指針や指標の策定が望まれる。
(2)アーカイブとHSMの観点
    スーパーコンピュータ用アーカイブと高エネルギー物理学実験のデータ格納用にHPSSを用いている。理研で用いているHPSSでは最下層の媒体としてコストの問題でテープを用いている。テープを用いるHSMは全般として、多くの課題がある。読み込みのレイテンシが非常に大きなブレがあること。粒度の細かい大量のデータを扱うのが苦手であること。データ移行に時間がかかる、特に細かいデータ移行は膨大な時間がかかること。また、テープドライブとその媒体の進歩で読み書きの互換性が無くなる場合があること、等が挙げられる。多くの場合、運用でカバーしているが、データ格納を必要とし、利用者がそれを意識しているプロジェクトにおいては、それほどのネガティブ要因ではないが、特にスーパーコンピュータシステム内で利用するHSMシステムとして考えた場合、ユーザに不便を感じさせ、クレーム対象となることが多く、また、管理者として頭の痛い問題である。これらの問題を一つでも解決するソフトウェアが有ればよい。
    テープを用いるアーカイブの本質的な問題は、PB級のデータを保持していく場合の将来的なデータ移行・保持の問題が非常に大きい。それには三つの問題があり、一つ目はデータ移行に膨大な時間を要すること。二つ目はドライブと媒体の互換性の問題、最後にデータを保持する期間を明確にする必要があり、そのコストをどうするのかという問題がある。最後の問題はポリシーの問題であるため、ここでは触れない。一つ目の問題はテープからのデータ移行の本質的な問題であり、技術でどうにかなる問題かどうかが不明である。ただ、無法地帯で利用されたHSMのテープからのデータ移行は致命的な問題を発生することが明かであり、運用は十分に考えておく必要がある。そのため、ある程度粒度の大きなデータをユーザ透過に使う方法が欲しいところである。二つ目の問題が大きな課題であるが、テープに記録されたデータの寿命等を考えた場合、テープtoテープのデータ移行はやむを得ないのかもしれない。ただ、テープドライブ・媒体の互換性が十分考慮されることを期待する。
(3)ストレージ管理の観点
    現在のシステムにおけるストレージ管理の課題は構成が正常に動作することを確認可能とすること、スーパーコンピュータシステムのファイルシステムの拡張性が欠けることである。容量・速度・可用性などを確保するためにストレージシステムは年々複雑な構成となってきている。スーパーコンピュータシステムやデータ保管やサービスを行っているサーバのストレージシステム構成を考えても、RAIDやコントローラやパス、サーバ等の二重化は必ず行われている。これらの構成はハードウェア的に組むことは簡単であるが、サーバソフトウェアとの連携等ハードウェア構成だけでは閉じない事が多い。問題はストレージ構成が予定通りに機能しているかをいかに検証できるかが重要で、ストレージシステムを構築し、構築したストレージ構成が必ず意図したサービスが実現できるか、機能するかどうかを検証できるソフトウェアが必要だと考えている。
    また、年々増加するデータを管理する場合、後述のファイルシステムやテープの管理本数のフレキシビリティが非常に重要となる。ファイルシステムの場合、運用停止をすることなく、HDDの拡張やファイルシステムの拡張が出来ることが重要となる。テープの場合、テープの管理(マイグレーション等)が柔軟かつ効率よく、テープの投入が容易であることが必要であり、HSMソフトウェアの柔軟さやテープライブラリ装置の使いやすさがポイントである。
(4)データアクセス管理の観点
    データアクセスを行うストレージシステムへのリーチャビリティの管理という観点でスーパーコンピュータシステムでもバイオ系データや実験データでもほぼ同じ事が言える。RAID装置とコントローラおよびサーバから構成されるシステムでは、その間の接続状態をサービスレベルとともにモニターする必要があり、トータルシステムとしてユーザサービスが問題なく動作しているのか、それとも設計と異なる動作をしているのかを判定できる管理ソフトウェアおよびその状況を管理者に通知する仕組みが必要であり、ユーザにはサービスレベルを通知する方法が必要となる。
    データアクセス管理とは少し異なるが、ユーザにインターネット経由でデータをサービスするような場合、あるいは、インターネット経由でデータを更新する必要があるような場合、インターネットの回線品質(遅延、帯域等)も含めてモニタできるようなシステムが望ましい。
(5)デバイス管理の観点
    ストレージシステムはスーパーコンピュータシステムにせよ、バイオ系や高エネ実験データシステムにせよ、システムの中心に位置するものであり、構成するデバイスの管理・設定変更・システム増強を正常に動作・変更可能とするストレージシステムを運用することは、システム全体の安定動作に不可欠となる。その中でRAIDやコントローラ、テープドライブ、ライブラリ装置の個々管理は当然として、トータルシステムとしてのデバイス管理という観点を持った管理ソフトウェアが必要である。
    また、巨大データの移行性をこの先どのように確保するかがきわめて重要であるが、移行時間を考慮すると事実上不可能な場合が多い。ただ、そのような場合、データ移行が出来ないという物理的な問題あるいはテープ媒体やドライブの互換性の問題やファイルシステムの柔軟性の欠落から、全くデータ移行が出来なくなる可能性が非常に高い。この状況の一番大きな問題は性能が良く、低価格な別製品への移行性も奪い、競争原理が働くなる可能性が高く、由々しき問題である。このため、巨大データの移行性あるいはバックアップを考えていくことは、今後のデータの移行性やサービスの性能向上の上でも重要であり、検討が必要な問題である。
(6)データレプリケーションの観点
    スーパーコンピュータではローカルHDDにデータをステージング(レプリケーション)することで、ストレージシステムの集中を防ぎ、ローカルHDDのアクセス性能を引き出し、並列計算時のストレージ性能を十分に引き出している。ただし、これはユーザビリティの観点では、ユーザがデータ移動のイメージを持つ必要があり、UIを工夫し使いやすい利用環境を提供しているが、バリアを持ったシステムである。理想的にはステージングなどせずに十分な性能を持つストレージシステムを設計すべきであるが、これは価格性能のバランスを考慮していくしかない。並列計算時の十分な性能を提供するには、ローカルHDDを利用するのがリーズナブルであるが、ステージングのためにいかに簡単なUIを提供できるかが重要である。
    また、バイオ系データや高エネ実験データに関しては、上記でディザスタリカバリの観点で記述したが、それ以外には仮にインターネットの帯域が十分にあるような場合は特に今のように二重化のような構成は必要ない。数十から数百TBクラスのデータをインターネット経由で自由に移動出来る帯域を持つことは無いと考えられ、これからも性能の問題としてもレプリケーションは必要である。インターネットを通したレプリケーション時のデータの一貫性を如何に確保するかである。
(7)ファイルシステムの観点
    ファイルシステムにおいてPOSIX標準I/Fを有することは言うに及ばす、一定の可用性を満たした上で、拡張性と高い性能を確保することは導入時の設計に非常に重要な問題である。拡張性と高性能はファイルシステムだけではなく、いくらハードウェアに拡張性があり、高性能であってもファイルシステムによって、その拡張性や高性能が犠牲にされることがしばしばある。
    現在スーパーコンピュータシステムのストレージはEXT3をベースとしており、最大のファイルシステム作成サイズが1TBと非常に小さく、拡張性に欠ける。ストレージとして大きなサイズを用意しても、活用できていない。単一ファイルシステムのサイズは大きければ大きいほどよい。その中でユーザがサイズを設定できるようなファイルシステムが望ましい。また、I/O帯域も1台のサーバでFCの本数や外部I/O能力でまかなえる帯域で縛られるのではなく、ストレージを直結したサーバ台数の増減によって帯域の調整や可用性を高められる構成が取れる事が望ましい。
    バイオ系データベースのサーバはNRシステムのOSであるData ONTAP GX 10.0を用いており、拡張性はあると思われるが、現時点では拡張したことがないため、どんな問題が発生するかどうかは不明であり、問題がないことを期待する。
(8)その他(圧縮、暗号化など)の観点
    理研のシステムの多くは暗号化も圧縮も必要ない。それよりもGrid的なファイルシステムを管理できるストレージマネジメントを期待したい。具体的には、スーパーコンピュータシステムにPCクラスタを用いる場合、多くでローカルHDDを持つ。ローカルHDDの総容量は10TBを越えるが、ステージングのみでは有効に活用できていない。細かいステージングを行うことで、多くの部分は活用できるが、ローカルHDDでクラスタファイルシステムが構築できれば、ステージングの細かさをかなり緩和することが可能で、帯域もスケーラブルに増強可能となる。また、データGridで用いられるデータインテンシブ・コンピューティングなどでも活用でき、ジョブ・スケジューラとの連携で有効性は非常に高いと考えられる。
    また、ファイルシステムとして、PCの増加とともに容量をスケーラブルに増加できる拡張性の高いファイルシステムを構築できれば、年々データが増加するような実験データなどにも柔軟に対応可能であり、そのようなストレージシステムを容易に導入できることを期待する。

SS研について

イベント情報

研究会活動

資料アーカイブ

情報発信

リンク集




鍵マークがついている情報の閲覧にはWebサイトIDが必要です。登録/変更ページへ
Webサイト閲覧時にIDが必要なページには、鍵マークが付いています(当CD-ROM内では不要)。
コンテンツの最新/詳細情報は、SS研Webサイトをご覧下さい。
All Rights Reserved, Copyright© サイエンティフィック・システム研究会 1996-2024