3.データマネジメントの現状とストレージソリューションへの期待
3.2.調査結果の整理と分析
3.2.1.各機関保有データの特性
調査対象のシステム内の主なデータを以下に記す(詳細は添付資料を参照)。
- JAXA:
スーパーコンピュータ上の数値シミュレーション入出力データ、風洞試験・飛行試験・観測等の実験データ、公開Web用コンテンツデータ、電子メール
- 天文台:
ハワイ観測所における観測データ・望遠鏡エンジニアリングデータ・環境・気象データをハワイおよび三鷹本部に保管、野辺山45m・10m望遠鏡の観測データ
- 中京大:
理系学部の教育研究用コンピュータ演習室に関するデータであり、学生演習用個人データ、課題・レポート提出領域、個人用ホーム、およびメールスプール
- JAIST:
個人用ホーム、スーパーコンピュータ上の数値シミュレーション入出力データ、遠隔教育用コンテンツデータ、外部公開用Web・FTB領域、メール、各種ログデータ
- 理研:
スーパーコンピュータ上の数値シミュレーション入出力データ、高エネ物理学実験データ、および公開遺伝子・タンパク質データ
保有データの調査の結果から以下のデータ特性がわかった。
- 研究・教育用のシステムが対象のため(事務関係システムは調査対象外)、データは殆どが非構造型である。
- 非構造型データの内、観測/実験データのように公開/共有されているデータは、メタデータのみ市販や独自のDBMSで構造化し管理している。また、永久保存のものが多い。
- 大学のデータは目的別に領域を分けて管理している。
- 学生のディスク上保有データは在籍期間に限られる。
- データの種別により要求される要件が異なる。
- 数値シミュレーション入出力データ:高速性
- 観測データ:大容量、保全性
- ホーム領域データ:可用性、高速性
- ワーク領域データ:大容量、高速性
今回の調査対象機関も同様であるが、一般的に大学・研究機関の共同利用システム内に保有されているデータのもっとも特徴的なことは非構造型データが多いということである。この非構造型データを如何に管理するかが、ストレージシステム管理を効率化するためのポイントと言える。
特に天文学観測データ、実験データおよびライフサイエンスデータは膨大な数のファイル群として非構造型データのまま保存されており、データアクセスの容易性を向上させるため管理データのみを管理ツールやDB内に持ちメタデータデータベースを構築している。これらのデータは多くの利用者に活用されており、たとえば天文観測データは複数のファイルデータを処理することが多く、またそのデータから派生するものや、コピーされるものがある。さらに、データが不要になったときには、個々のファイルだけでなく複製を含めて一括削除したいとの要望があるため、データ管理者はこれらのデータの状況を把握し管理する必要に迫られている。
また、スーパーコンピュータなどのシミュレーション結果は、関連のある複数の結果が集まって初めて意味をなすこともあり、それらをまとめて構造的に管理したいとの要望がある。
データマネジメントを意識してストレージシステムを構築する観点から、このようなファイル群をコンテンツとしてまとめて管理するデータマネジメントの概念(コンテンツ管理)が浮き彫りになった。