ホーム > 資料ダウンロード > ニュースレターCD-ROMホーム > HPCフォーラム2012 > 分科会レポート
ホーム > 資料ダウンロード > 分科会レポート > SS研HPCフォーラム2012

HPCフォーラム2012 レポート

分科会ページにプログラム,講演資料などを掲載しています。

Hisa Ando

8月20日に2012年度のSS研HPCフォーラムが開催された。今年の参加者は約180人で,一般参加は前年並みだがSS研会員の参加が増えているのが特徴であるという。
今年のHPCフォーラムは「エクサスケールコンピューティングに向けて」というタイトルで,1件の海外招待講演,3件の講演,そして富士通のエクサスケールへの取り組みの発表と,計5件の発表が行われた。
海外招待講演を行ったのは,イリノイ大学のWilliam Gropp教授である。Gropp教授は,分散処理の世界では標準となっているMPIの開発で有名であり,2008年にSidney Fernbach賞を受賞したHPC分野では知らぬ者の無いビッグネームの研究者である。また,現在では,イリノイ大学でBlue Watersプロジェクトを率いている。
Gropp教授は,“Algorithms and Software in the Post-Petascale Era”と題して講演を行った。

写真
海外招待講演を行うWilliam Gropp教授

ムーアの法則でコンピュータは急速に高性能化してきたが,2004年ころからクロックの向上が止まり,微細化もペースがスローダウンし,202X年には原子サイズのリミットから微細化も止まってしまう。しかし,CMOSに代わるテクノロジも見当たらない。従って,一定の消費エネルギーや一定のトランジスタ数で,より多くの計算を行うことが重要になるという。
2020年〜2023年ころのエクサスケールのマシンは,消費電力の制約からクロックは現在のものから殆ど改善されず,Flopあたりのメモリ量は現在よりずっと少なくなってしまう。そして,耐故障性が必要となるが,ハードウェアでの実現は消費エネルギーとのトレードオフになり,ソフトウェアでエラーを検出することも必要になる可能性があるという。

写真
2020〜2023年のHPCシステムで予想される諸問題

クロックを上げないで高性能を達成するには,より高い並列性が必要になる。しかし,並列度が上がると,わずかなジッタなどが大きな影響を持つようになってきて実行時間がばらつくので,ダイナミックにロードバランスを行うことが必要になってくる。また,メモリはCPUコアから更に遠くなり,数100〜数1000サイクルのアクセス時間がかかる。このため,レーテンシを許容するアルゴリズムが必要となる。このように,エクサ時代のマシンを有効に動かすためには,アプリケーションのアルゴリズムが変わらなければならないという。
して,エクサ時代のシステムを効率的に動かす一つの手段として,コンパイラを改良してより効率の良いコードを作ることを挙げた。また,コンパイラ自体の改良も重要であるが,より良いコードをコンパイラに与える手段としてAuto tuningを挙げた。
また,メモリのレーテンシを隠すためにはプリフェッチの有効利用が重要で,プリフェッチをうまく使うためには,それに適したデータ配置をすることが重要であると述べた。
そして,Post Petascale時代のシステムを使いこなす準備として,現在のシステムを有効利用して,性能重視のプログラミング,リソースのダイナミックマネジメントなどの技術を磨き,耐故障性やハイブリッドプロセサシステム,レーテンシを許容する処理アルゴリズムなど,次世代のシステムで必要となる技術を蓄積する必要があると結んだ。

写真
エクサの時代に向けて準備しておくべきこと


2番目の発表は,「3D-RISMを中心として生体機能解析:理論と京への実装そして応用〜京スパコンで可能になること〜」と題する九州大学の吉田 紀生准教授の講演である。3D-RISMは分子研の平田教授らのグループで開発された液体の構造を記述する統計力学理論である。

写真
3D-RISMを使う薬剤の結合計算について発表する九大の吉田准教授

タンパク質と薬剤分子の結合シミュレーションというと量子力学(QM)や分子力学(MM)シミュレーションが頭に浮かぶ方が多いと思うが,タンパク質の周りに水分子が大量にある状態をシミュレーションすると膨大な計算量になってしまい,計算は容易ではない。また,タンパク質のどこに結合するのかが分からないと,闇雲に無駄なシミュレーションを繰り返すことになってしまう。
3D-RISMは系全体の自由エネルギー変化を駆動力とする状態変化を統計的,確率的に解析し,標的のタンパク質の周りに薬剤を溶かした溶媒原子がどのように存在するかの確率を計算する。このため,事前の知識がなくても,結合しそうな場所を全て知ることができるという。そして,3D-RISMで求めたPhospholipase A2とアスピリンの結合状況が実験で得られた結果と比較的良く一致することを示した。

写真
3D-RISMの収束ループには2回の3D-FFTが含まれる

3D-RISMはその収束ループの中で3D FFTとその逆変換を行っており,これが計算の主要部分となっている。3D FFTは,例えばZ軸の値ごとに別プロセスで処理すると,並列度はZ軸の長さで制限され,また,Z軸方向のFFTを計算する場合には,AlltoAllの通信が必要となるという問題がある。そのため,京への実装では,筑波大の高橋准教授らが開発したVolumetric並列3D-FFTライブラリを使い,2軸での並列化と通信量を半減を実現した。これにより1024の3乗のグリッドで16Kノードまでスケールするという結果が得られた。ただし,通信ネックになっていると思われ,ピーク性能比は数%と低い性能に留まっている。
京を使うことにより,大量の計算ができるようになるので,多種の薬剤のタンパク質への結合をシミュレーションすることができるようになり,ドラッグスクリーニングが効率的に実施できるようになると期待される。また3D-RISMで求めた結合サイトの情報をQM/MM計算に引き継ぎ,結合状況をより詳細にシミュレーションするような連成計算が可能となり,セルロース分解酵素反応の解析などが可能になると期待されるという。

3番目の発表は,東京大学の石川 裕教授の「HPC基盤と現状と将来」と題する講演である。

写真
HPC基盤について発表する東大の石川教授

国内のHPC基盤(HPC Infrastructure)として,京スパコンを中心として北は北海道大学から南は九州大学までの9大学のスパコンを国立情報学研究所が運営するSINETで結合し,どのスパコンにもシングルサインオンができ,ファイルの共用もできるHPCIシステムがこの9月末から運用を開始するとのことである。実際に使用するためには,それぞれのスパコンにアカウントを持つ必要があるが,自分の大学のスパコンと京を使うというような場合の使い勝手が大きく改善される。そして,このHPCIを使って,ライフサイエンス,新物質創造,気候,もの作り,宇宙の戦略5分野の研究が進められていくことになる。
また,2011年から,京の先のエクサに向けての検討も始まっており,戦略5分野のアプリケーションの要件の分析とシステムの検討を行っている。文部科学省のプランでは,2012年と2013年の2年間でエクサシステムのフィージビリティースタディ(Feasibility Study:FS)を行い,その後,2018年ころにシステム開発というタイムラインとなっている。

写真
エクサに向けた検討,開発タイムライン

FSは,アプリの検討とシステムの検討があり,アプリは京を擁する理研AICSと東工大のチーム,ハードのFSは3チームあり,東北大,NECチーム,筑波大,東工大,日立のチーム,東大,九大,富士通,日立,NECのチームが検討を行っているという。石川教授は,この東大,九大と3社のチームを率いている。このチームでは富士通は京の発展系の汎用スパコン,日立はストレージ,NECはシステムソフトウェアスタックを担当することになっている。

写真
東大,九大,3社のFSチームの分担


4番目の発表は,東工大の牧野 淳一郎教授の「アプリケーションから−「欲しかったのはこれじゃなーい!!」と叫ばないために」と題する講演である。

写真
講演する東工大の牧野教授
写真 ©ZariganiWorks
ガンダムが欲しかったのにプレゼントはコレジャナイロボ。色と頭の角は似ているが,何か違う。
ザリガニワークス社の許可を得て転載

欲しいガンダムの仕様を良く伝えておかないと,上の図のようなロボットが届いて「これじゃなーい」と叫ぶというのが牧野教授の発表のタイトルの元ネタである。なお,右側の写真のロボはザリガニワークス社のコレジャナイロボという製品で,2008年度のグッドデザイン賞を受賞しているそうである。後の懇親会で伺ったら,この発表の司会をされた九大の天野先生は,実物をお持ちだとのことである。
牧野教授の講演の中身であるが,京の時も21種のアプリをピックアップしたが,性能評価では,そのうちの7種とLINPACK(HPL)とFFTだけに絞り込まれてしまった。また,HPLで10PFlops,電力30MW以下,この範囲で7種のアプリの性能をできるだけ上げるという目標設定がなされたので,Flopsあたりのメモリバンド幅やネットワークバンド幅がBG/Qと比べて2.4~4倍と大きい設計となり,電力あたりの性能はBG/Qの1/2.5になってしまったという。
エクサに向けて,ほぼ1年前にアプリケーションを検討する部会を立ち上げ,戦略5分野から40種のアプリを集めて,ExaFlopsシステムで必要となるメモリバンド幅やメモリ量などの特性を分析した。

写真
アプリケーションのメモリバンド幅とメモリ量の要求
このスライドは石川教授の講演のもの

メモリのBF比では0.1〜1.0というものが大部分であるが,0.001〜0.01というものもある。必要なメモリ量は数100TB以下の小容量,数100TBから数10PBの中容量,それ以上の大容量というクラスがある。そして,中容量でメモリバンド幅要求も大きいクラスをベースライン,メモリバンド幅要求の小さいクラスをアクセラレータ,バンド幅要求は高いがメモリ量は少なくて良いクラスをSoC,バンド幅もメモリ量も欲しいというクラスをバンド幅重視というアーキテクチャに分類した。

写真
前の図で破線で囲んだそれぞれのアプリ群に対応するマシンの
アーキテクチャタイプわけ

そして,各アーキテクチャタイプのマシンの諸元を上の表のように見積もった。このベースラインは汎用と呼ばれることになり,東大,九大,3社チームがFSを担当する。バンド幅重視は,東北大,NECチームの担当で,残る2タイプは筑波大,東工大,日立チームが担当する。
まだ,FSは始まったばかりであるが,牧野教授は,3つのFSチームが同じ目標仕様を実現する競争になり,京の時のスカラとベクトルのように,同じようなデザインになり,結果として1つだけを作ることになるという最悪のシナリオになることを恐れると述べていた。

写真
最近公開された京の検討時点でのベクトル案とスカラ案の性能予測の比較
方式は違うがBF比などがほぼ同じになり,性能も大体同じになって特徴が出ていない

1つのシステムで済むこと自体は悪いことではないが,例えば,ベースラインだけを作るとなると,SoCやアクセラレータアーキテクチャで良いアプリケーションに対してはオーバースペックの高価で電力消費の大きいマシンになってしまう。

最後の発表は,富士通の次世代テクニカルコンピューティング開発本部長の追永 勇次氏の「富士通のエクサスケールに向けた取り組み」と題する講演である。

写真
富士通のエクサに向けての取り組みを発表する追永本部長

先ずは,現在の京とその商用機であるPRIMEHPC FX10の説明と,レジスタ拡張,2並列SIMDなどのHPC-ACEとワンチップに集積されたコアをOpenMPで並列化するVISIMPACTによる性能向上の分析を示し,その成果からエクサスケールへの方向性を想像させようという趣向であった。
レジスタ拡張や逆数や平方根の逆数近似命令により,ソフトウェアパイプラインで実行できる部分が大きくなり,11本のアプリのうち6本でピーク比率が30%を超え,ベクトル機とそん色ないレベルになっているという。
エクサに向けての取り組みとしては,次の図が示された。ワンステップでエクサのシステムを作るのは困難なため,第1段階は100PFlops級のシステムを作り,第2段階でエクサを実現するという計画である。

写真
現在は第1段階の100PFlops級システムの開発を行っており,第2段階でエクサスケールシステムの実現を目指す

第1段階はすでに開発中であり,FX10では16コア,2SIMDとなっているCPUのコア数やSIMDの並列数を増やす。そして,実装密度の向上と電力低減を行う。この第1段階の開発でエクサにつながる各種キーテクノロジを確立させ,第2段階では,さらに高性能,低電力化を進めるとしており,今後の具体的な報告を待ちたい。

以上

SS研について

イベント情報

研究会活動

資料アーカイブ

情報発信

リンク集




鍵マークがついている情報の閲覧にはWebサイトIDが必要です。登録/変更ページへ
Webサイト閲覧時にIDが必要なページには、鍵マークが付いています(当CD-ROM内では不要)。
コンテンツの最新/詳細情報は、SS研Webサイトをご覧下さい。
All Rights Reserved, Copyright© サイエンティフィック・システム研究会 1996-2024