ホーム > 資料ダウンロード > ニュースレターCD-ROMホーム > 科学技術計算分科会 2011年度会合 > 分科会レポート
ホーム > 資料ダウンロード > 分科会レポート > 科学技術計算分科会 2011年度会合

科学技術計算分科会 2011年度会合 レポート

分科会ページにプログラム,講演資料などを掲載しています。

Hisa Ando
 今年のテーマは「ペタスケール時代のData Intensive Scienceとストレージ」である。ビッグデータの処理は,11月にシアトルで開催されるSC11でも大きく取り上げられており,最近,その重要性が認識されている時宜を得たテーマである。
 今回の分科会では,企画委員である国立情報学研究所の三浦謙一氏の挨拶に続いて4件の発表が行われた。
写真
<挨拶する三浦氏>

写真
<科学技術計算分科会の会場の様子>

 最初の発表は,「エクサバイト規模のストレージシステムへ向けて」と題する高エネルギー加速器研究機構の佐々木節氏の発表である。加速器実験は粒子の衝突によって生成される2次,3次などの粒子のデータを記録する。大量の衝突が起こるので,生成されるデータも膨大で,J-PARCでは最大で年間2PBのデータが溜まるという。しかし,目指す現象はそのごく一部で,膨大なデータの藁の山から針を探すということになる。
 稀な現象を観測するためには,ビームの強度を高めて単位時間あたりの衝突回数を増やす必要があり,2015年には総容量が200PB,CPUとのデータ転送バンド幅が80GB/sのストレージが必要となり,データを処理するCPUも1万コア程度が必要になるという。
写真
<佐々木氏スライドより>
 また,このような大規模な実験では海外の研究機関と協力して行うのが一般的であり,それらの研究機関とのデータの共有や処理を分散する技術が必要となる。とりあえずはグリッド+クラウドで対応するが,データ量の増大に伴い新たな技術が必要になるかもしれないという。
 データ量と処理量は増大の一途であるが,予算は減る傾向でお金では解決できない。といって手をこまねいていると海外のライバルプロジェクトとの競争に負けてしまう。解決には,メーカーとの協力を密にして技術力で解決する知恵と工夫が重要であるという。

 もう一つのビッグデータのアプリケーションとして,「Data Intensive Astronomyに向けて」と題して国立天文台の大石雅寿氏が発表を行った。ハワイのすばる望遠鏡は高解像度のCCDからの大量のデータが出てくる。また,最近稼働を始めたALMA電波望遠鏡はさらに大量のデータを生成する。これら以外にも多くの天文観測装置があり,膨大なデータが溜まる。
写真
<大石氏スライドより>
 そして,これらのデータは観測したチームが占有するのではなく,誰でもアクセスできるようにして利用を促進する仮想天文台(Virtual Observatory)化が進められており,データの記録形式やアクセスプロトコルの標準化が行われている。そして,このような大量のデータは,使いやすくなければ単にディスクの肥やしになってしまうので,スマートストレージ,スマートアーカイブであることが必要であり,データの持ち方などが工夫されている。
 将来的には,大量の観測データをリアルタイムで1次処理してデータ量を減らすことが必要となる,また,データ処理のアルゴリズムも現在はシリアルなものが多く,数万コアでの処理にはスケールしないなどのチャレンジがある。加えて,ビッグデータのストレージや処理には,予算や消費電力という制約も問題となるという。

 3番目は,「大規模ストレージシステムの課題と今後の展望」と題する発表である。この発表は,2009年1月から2011年1月までの2年間活動を行ったSS研の大規模ストレージWGの成果であり,宇宙航空研究開発機構(JAXA)の藤田直行氏が発表を行った。
 大規模ファイルシステムの構成は小さなファイルサーバを多数使用してバンド幅を稼ぐという方向になってきており,ホストインタフェースとしてはFCoEが有望であるという。
 大規模ストレージシステムのディスク容量は1.5〜2年に1.5〜2倍に増加しており,更新時には,以前のシステムの10〜100倍の容量が要求される。この容量増に伴う設置面積や消費電力の増加に対しては,ハードウェアの高密度実装や低消費電力技術の適用で対応するが,仮想ボリュームへの必要量だけの領域の割り当てを行うThin Provisioningやバックアップに当たって重複したデータの多重格納を避けて領域を節約するDe Duplicationなどの技術も必要容量の低減に有効である。
 高速化については,高いIOPSを必要とする場合はSSD(Solid State Disk)を使う,ストレージサーバに大容量のキャッシュを持ちアクセス速度を改善するなどの方法が採られる。また,一人のユーザが過大なバンド幅を使ってしまうことがないようにフェアシェア,あるいは総スループット優先などの運用ポリシーを適用することが必要である。
 バックアップやリビルドなどはその完全性や処理時間などに問題があるが,根本的な解決策は見つかっておらず,運用の工夫で悪影響を避けるのが現実解である。
 このような大規模ストレージの性能測定を行う共通ツールが無いという問題があり,本WGでファイルシステムの健康診断ツールを開発した。このツールではファイルシステムを100GB/sクラスの論理スループットを持つ超大規模,10GB/sクラスの大規模,1GB/sクラスの中規模,100MB/s程度の小規模にクラス分けし,プロセス数とIO長を可変して最大,最小スループットバンド幅やメタデータアクセスの性能を測定する。
 このツールを使ってJAXAのファイルシステムを測定した結果,設計方針通り,ファイルサイズが1MB以上で多数プロセスという条件で高いバンド幅が得られていることが分かった。また,同時にファイルstatを行うジョブは50プロセス未満にすべきことや,ファイル/ディレクトリのcreate/removeは100プロセスの場合がピークで,それ以上プロセスを増やしても性能は頭打ちになることが分かった。
写真
<藤田氏スライドより>
 また,理研のシステムでは,IO長によらずバンド幅は一定であり,プロセス数に比例してバンド幅が増えるという設計通りの傾向が確認された。しかし,ファイルstatは50プロセスの場合が最大で,それ以上のプロセス数では性能が劣化するので注意が必要であることが判明した。
 なお,このツールはSS研のサイト
http://www.ssken.gr.jp/MAINSITE/download/wg_report/lsstorage/index.html
から入手 (ダウンロードには会員IDが必要) することができるようになっている。

 そして,富士通の住元真司氏が,「世界トップクラスシステムに相応しい超大規模ストレージを目指す「京」のストレージシステム」と題する発表を行った。京の計算ノードやインターコネクトに関しては,8月のSS研のHPCフォーラムで発表されたが,ストレージについての発表は,今回が初めてである。
 「京」のストレージを作るにあたり海外のスパコンのストレージの調査を行い規模や実現方法,IO要求の頻度などの情報を収集した。その結果,米国ではファイルIOはPosix IOから並列IOに移行している。そして,並列IOはMPI-IOのデータ管理ライブラリを採用するという構造が使われていることが判明した。このため,京でも同様に高速な並列Posix IOとMPI-IOの提供が必要と考えた。そして,京の規模からTB/sクラスの並列IO性能と単一障害に耐える信頼性を実現することを設計目標とした。
 スパコンではLustreファイルシステムが良く使われているが,京の規模で使用するには不足な機能があり,コミュニティーと連携しながら,Lustreの将来拡張を先取りする形でファイル数やファイルサイズの拡大や高性能化,信頼性の改善などを行ったFEFS(Fujitsu Exabyte File System)を開発した。
写真
<住元氏スライドより>
 そして,グローバルストレージとローカルストレージという2階層のストレージを持つ構造とした。ToFuインターコネクトのZ軸は16計算ノードと1個のIOノードをもつループとし,IOノードからローカルストレージに接続している。計算ノードがアクセスするファイルは,同じZ軸ループに含まれるIOノードに繋がるローカルストレージに割り当てるという構造として高速アクセス性を確保している。そして,グローバルストレージとローカルストレージの間でステージングを行ってデータの出し入れを行っている。
 また,メタデータサーバはRAID10,データサーバはRAID6として,ディスクの故障に耐えられるようになっており,ネットワークパスやサーバも2重化して単一箇所の故障でデータがアクセスできなくなることが無いようにしている。
 まだ,プレリミナリな結果であるが,288台のデータサーバ(OSS)で10000クライアントを接続した構成で,POSIX WRITEは96GiB/s,POSIX READは147GiB/sという性能を得ていると報告された。また,発表時には574OSSでそれぞれ249GiB/s,334GiB/sの性能を得ており,世界でトップクラスであるというデータが追加された。さらに,IAサーバでFEFSとLustreの性能を比較した結果では,create,mkdir,rmdirでは1.5〜2倍の性能が得られており,unlinkでもほぼ同等の性能であると報告された。

以上

SS研について

イベント情報

研究会活動

資料アーカイブ

情報発信

リンク集




鍵マークがついている情報の閲覧にはWebサイトIDが必要です。登録/変更ページへ
Webサイト閲覧時にIDが必要なページには、鍵マークが付いています(当CD-ROM内では不要)。
コンテンツの最新/詳細情報は、SS研Webサイトをご覧下さい。
All Rights Reserved, Copyright© サイエンティフィック・システム研究会 1996-2023