

# PRIMEHPC FX10後継機における 性能と評価

2014年10月29日 富士通株式会社 千葉 修一

Copyright 2014 FUJITSU LIMITED

## Agenda



## ■PRIMEHPC FX10後継機 (Post-FX10)

## ■ノード性能の評価

- ■1コア性能
- ■SIMD性能
- ■スレッド並列性能
- ■アプリケーション性能

■まとめ





# Post-FX10

# Post-FX10 (1)



#### ■FX10のフィードバック



#### システム性能は評価高

- •Tofuインターコネクトによる高いスケーラビリティ
- •超並列システムとして他に類を見ない信頼性
- •大規模演算を高速化する高いメモリスループット

VISIMPACTによるハイブリッド並列

■課題点 システムアーキの継承

#### ノード性能が課題

- •アウトオブオーダの資源不足 CPUコアの強化
- •L1キャッシュが貧弱

•最適化の機能不足

Post-FX10

Tofuの強化

コンパイラの強化



# Post-FX10 (3)

## ■Tofu2

# ■「京」互換のトポロジ、通信方式

■複数RDMAエンジンによる高速集団通信

■ハードウェアバリアのサポート

|            | 京/FX10                                       | Post-FX10                                            |  |
|------------|----------------------------------------------|------------------------------------------------------|--|
| CPUとの関係    | 別LSI(ICC)                                    | 内蔵                                                   |  |
| トポロジ       | 6次元メッシュ/トーラス                                 | $\leftarrow$                                         |  |
| リンクハ゛ント、「幅 | 5 GB/s<br>(6.25 Gbps x 8<br>lanes x 10 dirs) | 12.5 GB/s<br>(25 Gbps x 4<br>lanes x 10 dirs)        |  |
| ノート゛ハ゛ント゛幅 | 20 GB/s x in/out                             | 50 GB/s x in/out                                     |  |
| 新機能        | -                                            | キャッシュ<br>インジェクション<br>アトミック<br>シャーシ間接続<br>(全体の2/3)を光化 |  |





# Post-FX10 (4)



## ■Rack ■216ノード / キャビネット ■CPU、メモリ、光モジュールを直接水冷(水冷率90%)

Chassis

■19インチランクマウント型シャーシ

■12ノード / 2U

■本体装置間 Tofu2は光接続

CPU Memory Board
 CPU x 3
 3 x 8 Micron's HMCs







# Post-FX10 (5)

## ■ SPARC64<sup>TM</sup> XIfx ■HPC-ACE2 ■L1キャッシュ、Wayを2倍 ■スーパースカラーの強化 アウトオブオーダ資源の増加 分岐予測の強化 ■256 bit wide SIMD ●単精度倍幅モード •8バイト整数命令 ■アシスタントコア •IO・OS・通信のデーモンを処理 ▶OSノイズの低減 ▶演算と通信のオーバラップ化



FUITSU

# Post-FX10 (6)



#### ■SPARC64<sup>TM</sup> XIfx

|              | 京                                                                       | FX10                                                                     | Post-FX10                                                                |  |
|--------------|-------------------------------------------------------------------------|--------------------------------------------------------------------------|--------------------------------------------------------------------------|--|
| アーキテクチャ      | SPARC64 VIIIfx                                                          | SPARC64 IXfx                                                             | SPARC64 XIfx                                                             |  |
| CPU性能        | 128 GFlops                                                              | 236.5 GFlops                                                             | 1 TFlops Class                                                           |  |
| コア数/CPU      | 8                                                                       | 16                                                                       | 32+2*                                                                    |  |
| SIMD<br>データ幅 | 倍精度浮動小数点x2                                                              | 倍精度浮動小数点x2                                                               | 倍精度浮動小数点 x4<br>単精度浮動小数点 x8<br>64bit整数 x4                                 |  |
| キャッシュ        | L1I\$:32KB/core<br>(2way)<br>L1D\$:32KB/core<br>(2way)<br>L2\$: 6MB/CPU | L1I\$:32KB/core<br>(2way)<br>L1D\$:32KB/core<br>(2way)<br>L2\$: 12MB/CPU | L1I\$:64KB/core<br>(4way)<br>L1D\$:64KB/core<br>(4way)<br>L2\$: 24MB/CPU |  |
| メモリ          | 16GB                                                                    | 32GB/64GB                                                                | 32GB                                                                     |  |
| スループット       | 64GB/s                                                                  | 85GB/s                                                                   | 240GB/s x2(R/W)                                                          |  |
|              |                                                                         |                                                                          | *アシスタントコア                                                                |  |



# ノード性能を支える技術

## FX10の評価



#### ■ノード性能の課題

■命令レベルの並列化が弱い

•実アプリケーションへのSIMD命令適用率が低い

アプリケーションの高速化にチューニングが必須
 L1キャッシュの32KB/2WAYが使いにくい
 実行性能にブレが発生する
 チューニング時、キャッシュ効率or最適化の選択肢が難しい
 コンパイラの最適化が不足

■C/C++アプリケーションの性能問題 ・富士通コンパイラよりGNUコンパイラの翻訳コードの方が高速

#### これらの課題を改善する機能を開発

## ノード性能を支える技術

HPC-ACE2 (High Performance Computing - Arithmetic Computational Extensions 2)
 256 bit wide SIMD
 HPC向け拡張命令

■メモリ/キャッシュ ■HMC採用によるスループット強化 ■L1キャッシュの強化

■コンパイラ

■最適化の強化

■並列化解析能力の強化

#### 各改善が連動することで最大限の性能を引き出す

FUITSU

# HPC-ACE2 (1)



#### FX10に比べ、倍精度2倍・単精度4倍のSIMD幅を実現

FUITSU

# HPC-ACE2 (2)

■HPC-ACE(FX10)からの拡張

- Stride Load/Store
- Indirect Load/Store
- Permutation
- Concatenate



#### 多種のカーネルに対してコンパイラがSIMD化を適用可能

メモリ/キャッシュ



## ■メモリ/キャッシュの強化 ■HMCサポートによるスループット強化 ■L1キャッシュの強化

|                           | 京                   | FX10                | Post-FX10           |  |
|---------------------------|---------------------|---------------------|---------------------|--|
| L 1 <i>キ</i> ャッシュ<br>(命令) | 32KB/core<br>(2way) | 32KB/core<br>(2way) | 64KB/core<br>(4way) |  |
| L 1キャッシュ<br>(データ)         | 32KB/core<br>(2way) | 32KB/core<br>(2way) | 64KB/core<br>(4way) |  |
| L 2 キャッシュ                 | L2\$: 6MB/CPU       | L2\$: 12MB/CPU      | L2\$: 24MB/CPU      |  |
| メモリ                       | 32GB                | 32GB/64GB           | 32GB                |  |
| スループット                    | 64GB/s              | 85GB/s              | 240GB/s x2(R/W)     |  |

#### キャッシュサイス<sup>\*</sup> & WAY数は2倍、スルーフ<sup>®</sup>ットは大幅に増加



#### 各種アプリケーションに対する最適化の適用率をアップ

コンパイラ(2)
コンパイラの並列化解析能力を強化
命令レベルの並列化
コアレベルの並列化
etc.

| ループ内の演算  | データ依存関係 | その他     |  |  |
|----------|---------|---------|--|--|
| 四則演算     | 依存なし    | データ型    |  |  |
| リダクション演算 | 順方向依存   | 対象ループ次元 |  |  |
| 収集・拡散    | 逆方向依存   | 粒度      |  |  |
| DOブランチ   |         | 分岐      |  |  |

#### 並列化解析の対象要因の一例

#### VPPの技術をベースに解析能力を強化





# ノード性能の評価

## ノード性能の評価



#### ■4つの観点で評価







# 1コア性能

# 1コア性能(1)



#### ABCMarks

#### 素性能を評価する目的で自社開発したカーネル群 (EuroBen Benchmarkライクなコード)

■連続アクセス系カーネル

■不連続アクセス系カーネル

■マスク系カーネル



#### コンパイラがHPC-ACE2を使い切れているかを評価

1コア性能(2)



## ■連続アクセス系カーネル ストリーム、DAXPYを含む基本カーネル



1コア性能(3)



## ■不連続アクセス系カーネル ストライド、インダイレクトアクセスを含む基本カーネル



1コア性能(4)



#### ■マスク系カーネル

整数型の判定、浮動小数点型の判定を含む基本カーネル





※ 数値は、if構文の真率

# 1コア性能(5)



#### ABCMarks

連続アクセス系はほぼ想定どおり、不連続アクセス系、マスク系を改善中



#### チャレンジ目標に向けてコンパイラを改善中



#### 連続体コードなどの間隔アクセスに対して性能効果



## ■アドレス計算もSIMD命令で並列計算



流体解析、FEMなどのリストアクセスに対して性能効果

FUITSU



# SIMD性能

## SIMD性能



# 評価カーネル (実アプリケーションから抽出) FX10 vs Post-FX10の実行性能を比較 周波数換算を行い、256 bit SIMD効果を可視化 FX10性能を"1.0"とした場合の比率を昇順にソート



#### 平均2倍の性能向上し、256 bit SIMDは効果大

## SIMD性能を支える技術(1)







- ループ内に4つのSIMDロード命令を出力
   b(i:i+3)、 b(i+1:i+4)、 b(i+2:i+5)、 b(i+3:i+6)
- この時、それぞれのロード命令に同じ要素が含まれる
- •冗長のロードがL1キャッシュを圧迫

## SIMD性能を支える技術 (2)



■ステンシルコードの高速化

■コンカチネーションシフト命令の利用コード





enddo

#### コンカチネーションシフト命令によりロード命令が削減

## SIMD性能を支える技術 (4)



■ハンドチューニング

■気象系コードへの適用事例

```
real(8)::b(0:6, Imax, kmax, 1:3)
(中略)
do l=1, Imax
!$omp do
do k=1, kmax
do n=nstart, nend
ij=n
q(n, k, l)=( &
+b(0, ij, l, 1)*vx(ij, k, l) &
+b(1, ij, l, 1)*vx(ij, k, l) &
:
+b(6, ij, l, 3)*vz(ij3, k, l) &
)*fact
```

<u>インダイレクトロードアクセス</u>

<u>ストライドロードアクセス</u>

#### 判断材料を与えることでストライドロード命令を出力

SIMD性能 – 気象コード



■ハンドチューニングによる効果





# スレッド並列性能

## スレッド並列化性能



# ■ANL ベクトル化コンテスト

コンパイラの解析能力を判定するプログラムの全135ループを比較
 VPPの技術を完全に取り込み解析能力を強化

#### ■「京」、FX10へフィードバック



#### コンパイラの解析能力の強化により並列化数が向上



# アプリケーション性能

アプリケーション性能 – NPB (1)



## NAS Parallel Benchmarks



アプリケーション性能 – NPB (2)



#### NAS Parallel Benchmarks

|    |           | メモリスループット<br>(GB/s) | SIMD命令率<br>(%) | L1Dミス率<br>(%) | 性能値<br>(MOP/s) | SIMD化<br>向上比率 | 性能値<br>向上比率 |
|----|-----------|---------------------|----------------|---------------|----------------|---------------|-------------|
| рт | FX10      | 11.9                | 11.6           | 3.4           | 19396          | 1.8           | 1.3         |
|    | Post-FX10 | 16.2                | 21.3           | 1.4           | 26114          |               |             |
| CG | FX10      | 17.7                | 22.7           | 35.5          | 2929           | 3.2           | 1.2         |
| CG | Post-FX10 | 20.5                | 72.9           | 32.9          | 3403           |               |             |
| ED | FX10      | 5.8                 | 0              | 1.5           | 305            | 1.0           | 1.3         |
| LF | Post-FX10 | 7.2                 | 0              | 0.8           | 391            |               |             |
| FT | FX10      | 32.1                | 63.4           | 7.8           | 10319          | 1.0           | 21          |
|    | Post-FX10 | 64.7                | 63.5           | 4.5           | 21445          |               | 2.1         |
| τς | FX10      | 11.8                | 0              | 6.5           | 567            | 1.0           | 2.0         |
| 15 | Post-FX10 | 23.7                | 0              | 5.0           | 1118           |               | 2.0         |
|    | FX10      | 56.7                | 25.0           | 6.6           | 18241          | 1.7           | 16          |
| LU | Post-FX10 | 91.3                | 42.7           | 2.4           | 28706          |               | 1.0         |
| MG | FX10      | 29.8                | 77.8           | 11.0          | 8923           | 1 1           | 3.0         |
|    | Post-FX10 | 108.3               | 87.9           | 1.3           | 31957          | 7.7           | 3.9         |
| SP | FX10      | 67.3                | 28.4           | 5.6           | 11471          | 2.0           | 1.8         |
|    | Post-FX10 | 118.3               | 56.3           | 3.1           | 20149          |               |             |

## アプリケーション性能 - NPB (3)



#### NAS Parallel Benchmarks : FT



#### ストライド命令により命令の並列性が向上

## アプリケーション性能 - NPB (4)



#### NAS Parallel Benchmarks : MG

108.3

MG

Post-FX10



#### L1Dキャッシュの強化により性能向上

1.3

31957

87.9

3.9

1.1

## アプリケーション性能 – NPB (5)



#### ■NAS Parallel Benchmarks : CG



#### リストアクセスに対するコンパイラの命令出力を改善中

# アプリケーション性能 – OpenFOAM (1) Fujinsu

### OpenFOAM 2.1.0



## アプリケーション性能 – OpenFOAM (2) Fuirsu

#### OpenFOAM: sloshingTank3D/interDyMFoam



#### アウトオブオーダの強化により整数演算の並列性が向上



# まとめ

Copyright 2014 FUJITSU LIMITED

## Post-FX10の評価



■FX10で課題となったノード性能を大幅に改善 ■命令レベルの並列化を強化 HPC向け拡張命令、コンパイラの強化 ■チューニングレスでアプリケーションの高速化 256 bit wide SIMD、HMCサポート、L1キャッシュの強化 ■C/C++アプリケーションの性能向上 コンパイラの強化

#### HPCをトップレベルで牽引するPost-FX10に乞うご期待

# FUJTSU

shaping tomorrow with you