コロナ禍の影響で

今年はどこもかしこも

イベントが中止になったり

オンラインになったり。

 

先月開催された

nVIDIAのGTC2020も

オンライン開催。

 

そこで発表されたのが

Voltaの次となるアーキテクチャ。

待ってました!

Ampereアーキテクチャ

V100の後継であるA100の登場!


Voltaの20倍、性能向上?





そして約1ヶ月遅れで

A100 PCIe版も発表!



 

ただ、今回のAmpareでは

QuadroというよりはHPC用途向け?

なのかも。

 

542億個のトランジスタを搭載

 

7nm製造

SumsungではなくTSMC製造N7とのこと。

ダイサイズは826mm2

TDP400W

 

第3世代Tensorコア

新精度 Tensor Float(TF32)

 

 

マルチインスタンスGPU

(1つのA100を7つのGPUインスタンスに分割)

最大で内部には8GPC構成(実際は7GPC)

(GPC=GPU Processing Cluster)

 

さらに1つのGPCには

7~8個のTPCを搭載

(TPC=Texrure Processing Cluster)

 

そして1つのTPCには2つのSMを搭載

(SM=Shader Module)

よって、128SM構成で

108SMが利用可能。

 

Tensorコアは

1つのSMあたり

 Volta世代は8つ

 Ampere世代は4つと半減

 

但しSMあたりの

INT32/FP32/FP64のコア数は

両世代とも64で変わらず。

 

ただし、コアあたりの動作周波数は

 Pascal世代のGP100は1,480MHz

 Volta世代のGV100は1,530MHz

 Ampare世代のGA100は1,410MHz

と低下している模様。

 

[本来]

8GPC、64TPC、128SM、12ch

 

[A100]

7GPC、54TPC、108SM、10ch

 

 

第3世代NVLinkについては

GPU間の直接帯域幅が

PCIe Gen4の約10倍の

600GB/sec

スゴいですね。

 

AI推論で発揮する構造的疎性

”疎なモデル”のパフォーマンスを2倍に。

 

これは、疎行列を圧縮して

AI推論タスクを加速するのだとか。

50%の”スパース性”という方法を定義。

 

なるほど。

電力と時間、メモリと帯域幅を

節約するのですね。

 

 

1.5TB/secのメモリ帯域幅

(前世代比67%増)

1.6Gbps HBM2×6(実際5)

8GBスタック利用

最大48GB(実際40GB)

 

40MBのレベルキャッシュ

(前世代比7倍)

 

 

Mellanox買収による恩恵として?

SmartNIC は

最大 200Gb/secのラインレート復号

 

AI 処理用に

ビデオフレームを

直接GPU メモリへ転送するGPUDirect

 

全てが刷新された

Ampare GPU


PCIe版もようやく出て

普通のワークステーションでも

搭載されるのを期待!


さて、いつ試せるかな?