2.ストレージソリューションの現状
2.2.非構造型データの認識とデータマネジメント
データマネジメントについてのユーザ要件を具体的に理解するために、多くのストレージベンダが言及している「非構造型データ」についてWGを通じて議論を深めた。この非構造型データの定義および議論の中から抽出したデータマネジメントの特徴について、以下に示す。
- 構造化データの対義語として非構造型データという類型的な呼称を使用した。非構造化データという呼称もあるが、「非構造化(テキスト)データ処理」の意味で使われることもあり、ストレージソリューションにおけるデータマネジメントの共通要件を抽出する目的を明確にしつつ混同を防止するため「非構造型データ」と呼称した。
- 構造化データはRDBなどに格納された「データベース」を指す。データベースは情報を分解したデータをレコードとして管理し、各レコードにはデータ処理を目的とするフィールドの設定やインデックスのような内部構造を持たせている。データベースのデータ処理は、レコードの更新、検索、ソートなどの形式的な変形処理を指す。一方、データベースのテーブル管理やテーブルを格納するストレージ空間や装置の管理機能はデータ保全を目的とした機能として区別できる。
- 共通構造を持たないという意味で構造化されていないデータ群を「非構造型データ」と呼称したが、実際はサーバにおけるオペレーティングシステムが提供するファイルシステムに格納されるファイルと同一視できる。
- オープンシステムによる分散処理のデータ管理はファイルを基本単位にしており、ファイルサーバの普及とあいまって、ファイル群を効率よく管理するデータマネジメント手法が必要となっている。
- PCなどの普及によって、ファイル形式で保存されるデータは著しく増加している。また企業や組織の業務にとって重要なデータがファイルとして保存される傾向にある。
- ファイルとして保存されるデータは特定のアプリケーションソフトウェアにおいて処理するものであり、複数のファイルを群として扱うこともある。たとえば、メールサーバは非常に大量のメールデータをファイルとして処理しており、データベース処理に匹敵する変形処理と保全処理機能を持っている。
- 論理的にはアプリケーションソフトウェアとファイルが揃えばユーザは処理が実行できるので、サーバ、ストレージなどのプラットフォームに依存しない仮想的処理環境が必要となるだろう。
- 大学・研究所が持っている学術データや高精細画像など長期保存を目的としたデータアーカイブでは、データ保存だけでは不十分で、将来においてデータを活用するための処理系の保存も重要である。
- アプリケーションからみて一つの業務単位を構成するファイル群をまとめて管理できるコンテンツ管理というミドルウェアの考え方は学術データの管理に応用できる可能性がある。