コロナ禍の影響で
今年はどこもかしこも
イベントが中止になったり
オンラインになったり。
先月開催された
nVIDIAのGTC2020も
オンライン開催。
そこで発表されたのが
Voltaの次となるアーキテクチャ。
待ってました!
V100の後継であるA100の登場!
Voltaの20倍、性能向上?
そして約1ヶ月遅れで
A100 PCIe版も発表!
ただ、今回のAmpareでは
QuadroというよりはHPC用途向け?
なのかも。
542億個のトランジスタを搭載
7nm製造
SumsungではなくTSMC製造N7とのこと。
ダイサイズは826mm2
TDP400W
第3世代Tensorコア
新精度 Tensor Float(TF32)
マルチインスタンスGPU
(1つのA100を7つのGPUインスタンスに分割)
最大で内部には8GPC構成(実際は7GPC)
(GPC=GPU Processing Cluster)
さらに1つのGPCには
7~8個のTPCを搭載
(TPC=Texrure Processing Cluster)
そして1つのTPCには2つのSMを搭載
(SM=Shader Module)
よって、128SM構成で
108SMが利用可能。
Tensorコアは
1つのSMあたり
Volta世代は8つ
Ampere世代は4つと半減
但しSMあたりの
INT32/FP32/FP64のコア数は
両世代とも64で変わらず。
ただし、コアあたりの動作周波数は
Pascal世代のGP100は1,480MHz
Volta世代のGV100は1,530MHz
Ampare世代のGA100は1,410MHz
と低下している模様。
[本来]
8GPC、64TPC、128SM、12ch
[A100]
7GPC、54TPC、108SM、10ch
第3世代NVLinkについては
GPU間の直接帯域幅が
PCIe Gen4の約10倍の
600GB/sec
スゴいですね。
AI推論で発揮する構造的疎性
”疎なモデル”のパフォーマンスを2倍に。
これは、疎行列を圧縮して
AI推論タスクを加速するのだとか。
50%の”スパース性”という方法を定義。
なるほど。
電力と時間、メモリと帯域幅を
節約するのですね。
1.5TB/secのメモリ帯域幅
(前世代比67%増)
1.6Gbps HBM2×6(実際5)
8GBスタック利用
最大48GB(実際40GB)
40MBのレベルキャッシュ
(前世代比7倍)
Mellanox買収による恩恵として?
SmartNIC は
最大 200Gb/secのラインレート復号
AI 処理用に
ビデオフレームを
直接GPU メモリへ転送するGPUDirect
全てが刷新された
Ampare GPU
PCIe版もようやく出て
普通のワークステーションでも
搭載されるのを期待!
さて、いつ試せるかな?