nVIDIA 新アーキテクチャ Ampere GPU PCIe版も！性能はいかに？ | Design / Next Generation

新型コロナウイルスに関する情報について

ホームピグアメブロ

芸能人ブログ人気ブログ

nVIDIA 新アーキテクチャ Ampere GPU PCIe版も！性能はいかに？

コロナ禍の影響で

今年はどこもかしこも

イベントが中止になったり

オンラインになったり。

先月開催された

nVIDIAのGTC2020も

オンライン開催。

そこで発表されたのが

Voltaの次となるアーキテクチャ。

待ってました！

Ampereアーキテクチャ。

V100の後継であるA100の登場！

Voltaの20倍、性能向上？

そして約1ヶ月遅れで

A100 PCIe版も発表！

ただ、今回のAmpareでは

QuadroというよりはHPC用途向け？

なのかも。

542億個のトランジスタを搭載

7nm製造

SumsungではなくTSMC製造N7とのこと。

ダイサイズは826mm2

TDP400W

第3世代Tensorコア

新精度 Tensor Float(TF32)

マルチインスタンスGPU

（１つのA100を7つのGPUインスタンスに分割）

最大で内部には8GPC構成（実際は7GPC)

(GPC=GPU Processing Cluster)

さらに１つのGPCには

7～8個のTPCを搭載

(TPC=Texrure Processing Cluster)

そして1つのTPCには2つのSMを搭載

(SM=Shader Module)

よって、128SM構成で

108SMが利用可能。

Tensorコアは

1つのSMあたり

　Volta世代は8つ

　Ampere世代は4つと半減

但しSMあたりの

INT32/FP32/FP64のコア数は

両世代とも64で変わらず。

ただし、コアあたりの動作周波数は

Pascal世代のGP100は1,480MHz

Volta世代のGV100は1,530MHz

Ampare世代のGA100は1,410MHz

と低下している模様。

[本来]

8GPC、64TPC、128SM、12ch

[A100]

7GPC、54TPC、108SM、10ch

第3世代NVLinkについては

GPU間の直接帯域幅が

PCIe Gen4の約10倍の

600GB/sec

スゴいですね。

AI推論で発揮する構造的疎性

”疎なモデル”のパフォーマンスを2倍に。

これは、疎行列を圧縮して

AI推論タスクを加速するのだとか。

50%の”スパース性”という方法を定義。

なるほど。

電力と時間、メモリと帯域幅を

節約するのですね。

1.5TB/secのメモリ帯域幅

（前世代比67%増）

1.6Gbps HBM2×6(実際5)

8GBスタック利用

最大48GB(実際40GB)

40MBのレベルキャッシュ

（前世代比7倍）

Mellanox買収による恩恵として？

SmartNIC は

最大 200Gb/secのラインレート復号

AI 処理用に

ビデオフレームを

直接GPU メモリへ転送するGPUDirect

全てが刷新された

Ampare GPU

PCIe版もようやく出て

普通のワークステーションでも

搭載されるのを期待！

さて、いつ試せるかな？