ホーム > ダウンロード > WG成果報告書 > データマネジメントを意識したストレージソリューションWG 検討結果報告書 > 3.データマネジメントの現状とストレージソリューションへの期待

3.データマネジメントの現状とストレージソリューションへの期待

3.2.調査結果の整理と分析

3.2.3.課題の抽出

 各機関は、3.2.2.項のように状況に合わせ様々な対応をとっているが、まだまだ現状および将来への課題は多く残っている。そこで前3.1.節にある課題のカテゴリについて、各機関にとってどのカテゴリを課題として重要視しているか調べた。その結果を表3-4に示す。
 なお、カテゴリごとに最重要課題(◎:5点)、重要課題(○:3点)、将来対応すべき課題(△:1点) 、対応不要(−:0点)を選択し、重要度の順位付けをした。

表3-4:課題の重要度一覧
  JAXA 天文台 中京大 JAIST 理研 得点
1 (4)データアクセス管理 25
2 (2)アーカイブ・HSM 19
3 (1)データプロテクション 17
4 (7)ファイルシステム 15
5 (5)デバイス管理 15
6 (3)ストレージ管理 15
7 (6)データレプリケーション 6
8 (8)その他(圧縮、暗号化など) 2

 課題の第一位は「(4)データアクセス管理」であり、全機関とも重要課題との認識であった。次いで「(2)アーカイブ・HSM」、「(1)データプロテクション」、「(7)ファイルシステム」、「(5)デバイス管理」、「(3)ストレージ管理」と続き、「(6)データレプリケーション」、「(8)圧縮、暗号化」はコストを意識し優先度付けした結果、将来対応すべき課題となっている。
 内容としては、エンドユーザへのサービスレベル向上、管理者の負荷軽減、状況認識の即時性向上が主なものである。以下に各カテゴリの具体的内容を重要度の得点上位カテゴリから記述する。

@(4)データアクセス管理

各機関とも利用者への利便性の向上のための課題をあげており、一番の課題は利用者からの一定のアクセススピードの確保、二番目はデータアクセス時のオペレーションである。
研究所は、インターネットでの大量データ配信や他研究機関とのデータ交換、大学はキャンパスの分散などで、データ共有のエリアがより広域化している。また、接続方法も多様化している。このような状況において場所や接続方法が異なっても一定のアクセススピードを保証しサービスレベルを確保したいというのが一番目の課題である。そのために、接続状況やサービス状況を常にモニタし、設計と異なる動作をしたとき管理者へ自動通報し、利用者へはサービスレベルを通知するような管理ソフトウェアが望まれている。
また、二番目の課題であるデータアクセス時のオペレーションに関しては、現在は使用クライアント端末、接続方法、使用ファイルシステムによりオペレーションやアクセス制御が異なっていることが課題として挙げられている。これらの場合でも同様なオペレーションでのデータアクセスが望まれている。
一方、個人情報や機密情報の保護についてより強化したいとの要望も挙がっている。そのためには、データアクセス権の細かい制御がより簡単に設定できるようにしたい、というものである。その他、多様なクライアント端末からデータを取り扱う場合や、用途に応じて異なるファイルシステムを使用しなければならない場合も多い。OSやベンダの垣根を越え、ファイルシステムのユーザインタフェースの統一化を期待する声も多い。

A(2)アーカイブ・HSM

大規模データを所有する3研究所は、いずれもディスクに比べ比較的安価な二次媒体にテープを使用したHSMを導入して、大容量ストレージの提供を行っている。しかし、HSMに対する改善要求は多くある。
一番の要求は、速度と信頼性の向上である。HSMは読み込み時のレイテンシのバラツキが大きく利用者へのサービス向上のためには一定化を望む声が多い。また、信頼性に関しては、データの保証をするために、テープとディスク間のコピー時およびテープ自体の信頼性の向上が望まれている。
次にテープドライブや媒体自体の互換性を望む声がある。これはシステム更新時などのデータ移行時間が多大にかかっており、それを解消するのが主な目的である。
その他としては、遠隔ファイルシステムとの連携によるデータプロダクションの実現、HSMのライセンスの定量課金化、等が望まれている。
以上のようにHSM自体への要望が多いが、HSMとコストが同程度のディスクの提供が各機関の本音と考える。

B(1)データプロテクション

各機関ともバックアップ・リカバリ時間短縮と手間の簡素化を望んでいるが状況・課題は様々である。各機関の状況および課題を以下に記す。
JAXAは大規模HSMにより、自動バックアップ/リカバリを既に実現しており、現状の課題はバックアップ不要ファイルの自動認識を挙げている。
天文台はハワイ山頂システムでバックアップし原本管理をしている。また、山麓、三鷹へ送られることによりディザスタリカバリを実現している。天文観測データは再観測が不可能であり、観測装置の進歩によりデータの質量ともに巨大化している。そのため、バックアップ時間の短縮と確実なリカバリ手段の提供が課題となっている。
中京大は、卒業生から学生時代のファイルの閲覧希望が増えており、その都度手動でテンポラリ領域へリカバリし、ファイルを探索している。この作業を簡略化するため、大きなシステムを必要とせずテープから直接必要なファイルを簡単に探索する仕組みを望んでいる。また、講義期間中と休暇期間中で使用頻度の格差が大きく、システムの稼動状況を監視しながらバックアップ頻度・範囲の調整を自動化したい、との要望もある。
JAISTではバックアップ領域をテープからディスクへ変更しつつある。速度や利便性は向上してきたが、電源・冷房装置等の設備面の負荷が拡大しているため、省電力・省スペースかつ一定の信頼性を持ったバックアップシステムの実現を望んでいる。
理研ではデータプロテクションを行う必要があるのは、スーパーコンピュータシステムにおけるユーザデータの一部のみである。その課題としては、出力データは元になるデータやソースコードがあれば、基本的に再取得可能であり、その出力データをどこまでプロテクションするかと言う点である。バックアップデータ量とデータを出力可能な時間および計算機コストおよびバックアップ機器費用等から、指針を出そうとしている。

C(7)ファイルシステム

ファイルシステムについては、高速性、拡張性の向上が望まれている。CPU(特にスーパーコンピュータ)等のハードウェアがいくら高速化され拡張性を持っていても、ファイルシステムがボトルネックとなりその性能や拡張性を犠牲にしてしまうことがしばしばある。ハードウェアの機能・性能を損なわないファイルシステムが望まれている。
その他、ファイルディレクトリへのアクセス制御設定の容易化、遠隔地や複数機関でのファイル管理を実現する遠隔共有性向上の期待がある。

D(5)デバイス管理

導入時期や利用目的が異なるマルチベンダによる複数のストレージシステムが稼動している。管理者側としての立場では、これら全体の運用管理を如何に効率的に行うかについても大きな課題となっている。更新時にはサービスへの影響を最小限にしながらデータの移行を行うための方法を今後検討していく必要がある。これらのことから、ストレージシステムのハードウェア的な管理のフレームワークを提供するデバイス管理技術への期待は非常に大きい。また、マルチベンダかつ各種ストレージ(RAIDやコントローラ、テープドライブ、ライブラリ装置)の個々管理は当然として、トータルシステムとしてのデバイス管理という観点を持った管理ソフトウェアが必要である。
また、短期間でのデータ移行、物理的制約(容積・電源・設備)の軽減も挙げられている。
次の課題は、構成が正常に動作することを確認可能とすることである。RAID、コントローラ、パスやサーバ等の二重化は必ず行われている。これらストレージ構成が予定通りに機能しているかを如何に検証できるかが重要で、構築したストレージ構成が必ず意図したサービスを実現しているかどうかを検証できるソフトウェアを望む声もある。

E(3)ストレージ管理

ストレージ管理での課題の一番目は高可用性である。単体ディスクが故障した場合は、RAID構成となっていれば運用を停止することなく復旧可能であるが、RAIDコントローラや複数故障が発生した場合は、運用を停止する必要が出てくる。大容量化が進めばこの課題は今まで以上に顕在化してくると思われる。

F(6)データレプリケーション

デジタルデータの複製時に劣化しない保障はない。文書データとは違い、天文観測データはホワイトノイズに近いため複製ミスを人間が発見することは困難である。デジタルデータの複製方式も進化させる必要がある。

G(8)その他(圧縮、暗号化など)

今回調査した会員機関では、データ圧縮や暗号化は行っていないが、今後多岐にわたるユーザが単一システムを利用する場合、暗号化は利用者から要求される可能性が高い。具体的には、システム内でのデータ漏洩防止やデータをシステム外に持ち出す場合のセキュリティの観点から、ファイルの暗号化が必要になる可能性がある。また、データ量が増大する中、ストレージの媒体総容量を圧縮するためにデータ圧縮技術を利用することが期待されるが、ファイルへのアクセス速度の劣化を不安に思っている。

 課題の抽出時、8カテゴリに分類しがたい課題も挙げられた。ログ/解析データ統合管理とデータGridへの対応である。以下にこの2点について述べる。
 ログ/解析データ統合管理は、マルチベンダかつ多種のストレージを保有している中、ログが各ストレージから出力されるため大量過ぎて活用できていない。それらのログを統合的に管理し、システムの状況を的確に把握したいという要望がある。二点目のデータGridへの対応については、高エネルギー物理学実験の分野ではペタバイト規模のデータ解析が必要であり、効率的なデータ連携が必要となっている。しかし、Gridコンピューティングからの類推としてデータ保存ノードとデータ処理ノード間での連携技術が課題となり、ネットワーク性能やデータ規模に対応するデータ管理技術がペタバイト規模のデータ処理のために必要となる。

SS研について

イベント情報

研究会活動

資料アーカイブ

情報発信

リンク集




鍵マークがついている情報の閲覧にはWebサイトIDが必要です。登録/変更ページへ
Webサイト閲覧時にIDが必要なページには、鍵マークが付いています(当CD-ROM内では不要)。
コンテンツの最新/詳細情報は、SS研Webサイトをご覧下さい。
All Rights Reserved, Copyright© サイエンティフィック・システム研究会 1996-2024