NVIDIA H100 Tensor Core GPU Überblick

Die Komplexität von künstlicher Intelligenz (KI), High-Performance-Computing (HPC) und Datenanalyse nimmt exponentiell zu und erfordert von Wissenschaftlern und Ingenieuren den Einsatz modernster Computing-Plattformen. Die NVIDIA Hopper-GPU-Architektur liefert höchste Rechenleistung bei geringer Latenz und integriert eine Vielzahl von Funktionen für das Computing im Rechenzentrumsmaßstab.
​​​​​​​Der NVIDIA® H100 Tensor Core GPU, basierend auf der NVIDIA Hopper-GPU-Architektur, stellt den nächsten großen Sprung in der beschleunigten Rechenleistung für NVIDIAs Rechenzentrumsplattformen dar. Der H100 beschleunigt verschiedenste Workloads, von kleinen Unternehmens-Workloads über Exascale HPC bis hin zu KI-Modellen mit Billionen von Parametern. Der H100 ist der weltweit fortschrittlichste Chip, der jemals gebaut wurde. Er wird auf dem maßgeschneiderten 4N-Prozess von TSMC mit 80 Milliarden Transistoren und zahlreichen architektonischen Verbesserungen hergestellt.
Zur Produktauswahl

SPEZIELL FÜR DIE KONVERGENZ VON SIMULATION, DATENANALYSE UND KI.

Mit dem NVIDIA H100 Tensor-Core-Grafikprozessor profitieren Sie von beispielloser Leistung, Skalierbarkeit und Sicherheit für jeden Workload. Mit dem NVIDIA® NVLinkSwitch® Switch-System können bis zu 256 H100 verbunden werden, um Exascale-Workloads zu beschleunigen, während die dedizierte Transformer Engine Billionen-Parameter-Sprachmodelle unterstützt. H100 greift auf Innovationen in der NVIDIA Hopper™-Architektur zurück, um eine branchenführende Gesprächs-KI zu bieten und große Sprachmodelle bis zum 30-fachen im Vergleich zur Vorgeneration zu beschleunigen.

HGX H100 8-GPU

Der HGX H100 8-GPU ist der wichtigste Baustein der neuen GPU-Server-Generation Hopper. Er beherbergt acht H100 Tensor Core GPUs und vier NVSwitch der dritten Generation. Jede H100-GPU verfügt über mehrere NVLink-Ports der vierten Generation und ist mit allen vier NVSwitches verbunden. Jeder NVSwitch ist ein vollständig blockierungsfreier Switch, der alle acht H100-Tensor-Core-GPUs vollständig miteinander verbindet.
DGX H100 NVSwitch Connected

Diese vollständig verbundene Topologie von NVSwitch ermöglicht es jedem H100, gleichzeitig mit jedem anderen H100 zu kommunizieren. Diese Kommunikation läuft mit der bidirektionalen NVLink-Geschwindigkeit von 900 Gigabyte pro Sekunde (GB/s), was mehr als das 14-fache der Bandbreite des aktuellen PCIe Gen4 x16-Busses ist.

Der NVSwitch der dritten Generation bietet außerdem eine neue Hardware-Beschleunigung für kollektive Operationen mit Multicast und NVIDIA SHARP In-Network Reductions. In Kombination mit der schnelleren NVLink-Geschwindigkeit erhöht sich die effektive Bandbreite für gängige KI-Sammeloperationen wie All-Reduce im Vergleich zum HGX A100 um das Dreifache. Die NVSwitch-Beschleunigung von kollektiven Operationen reduziert auch die Belastung der GPU erheblich.

HGX A100 8-GPU
HGX H100 8-GPU
Verbesserungsquote
FP8
-
32.000 TFLOPS
6X (gegenüber A100 FP16)
FP16
4.992 TFLOPS
16.000 TFLOPS
3X
FP64
156 TFLOPS
480 TFLOPS
3X
Netzinterne Datenverarbeitung
0
3.6 TFLOPS
Unendlich
Schnittstelle zur Host-CPU
8x PCIe Gen4 x16
8x PCIe Gen5 x16
2X
Bisektionsbandbreite
2.4 TB/s
3.6 TB/s
1.5X
Tabelle 1. Vergleich zwischen HGX A100 8-GPU und der neuen HGX H100 8-GPU
*Anmerkung: FP-Leistung beinhaltet Sparsamkeit

HGX H100 8-GPU mit NVLink-Netzwerkunterstützung

Die aufstrebende Klasse der Exascale-HPC und Billionen-Parameter-KI-Modelle für Aufgaben wie präzise Konversations-KI benötigen selbst auf Supercomputern Monate zum Trainieren. Die Komprimierung dieses Vorgangs auf Geschäftsgeschwindigkeit und der Abschluss des Trainings innerhalb von Stunden erfordert eine nahtlose Hochgeschwindigkeitskommunikation zwischen allen GPUs in einem Server-Cluster.

Um diese großen Anwendungsfälle zu bewältigen, sind der neue NVLink und NVSwitch so konzipiert, dass der HGX H100 8-GPU mit dem neuen NVLink-Network eine viel größere NVLink-Domäne unterstützen kann. Eine weitere Version der HGX H100 8-GPU verfügt über diese neue NVLink-Network-Unterstützung.

DGX H100 NVSwitch Connectors
Abbildung 2. High-Level-Blockdiagramm der HGX H100 8-GPU mit NVLink-Netzwerkunterstützung
Systemknoten, die mit HGX H100 8-GPU mit NVLink-Network-Unterstützung gebaut wurden, können über die Octal Small Form Factor Pluggable (OSFP) LinkX-Kabel und den neuen externen NVLink-Switch vollständig mit anderen Systemen verbunden werden. Diese Verbindung ermöglicht bis zu maximal 256 GPU NVLink-Domänen. Abbildung 3 zeigt die Clustertopologie.
Connection between H100 and Switches
Abbildung 3. 256 H100 GPU-Pod
256 A100 GPU-Pod
256 H100 GPU-Pod
Verbesserungsquote
NVLINK-Bereich
8 GPU
256 GPU
32X
FP8
-
1.024 PFLOPS
6X (gegenüber A100 FP16)
FP16
160 PFLOPS
512 PFLOPS
3X
FP64
5 PFLOPS
15 PFLOPS
3X
Netzinterne Datenverarbeitung
0
192 TFLOPS
Unendlich
Bisektionsbandbreite
6.4 TB/s
70 TB/s
11X
Tabelle 2. Vergleich zwischen 256 A100 GPU-Pods und 256 H100 GPU-Pods
*Anmerkung: FP-Leistung beinhaltet Sparsamkeit

GEPLANTE ANWENDUNGSFÄLLE UND LEISTUNGSVORTEILE

Mit der drastischen Steigerung der HGX H100-Rechen- und Netzwerkfunktionen wird die Leistung
​​​​​​​von KI- und HPC-Anwendungen erheblich verbessert. Die heutigen Mainstream-KI- und HPC-Modelle können vollständig im aggregierten GPU-Speicher eines einzelnen Knotens untergebracht werden. BERT-Large, Mask R-CNN und HGX H100 sind beispielsweise die leistungseffizientesten Trainingslösungen. Für fortschrittlichere und größere KI- und HPC-Modelle sind mehrere Knoten mit aggregiertem GPU-Speicher erforderlich. Ein Deep-Learning-Empfehlungsmodell (DLRM) mit Terabytes an eingebetteten Tabellen, ein großes Mixed-of-Experts (MoE)-Modell zur Verarbeitung natürlicher Sprache und die HGX H100 mit NVLink-Network beschleunigen den wichtigsten Kommunikationsengpass und sind die beste Lösung für diese Art von Workload. Abbildung 4 aus dem Whitepaper zur NVIDIA H100-GPU-Architektur zeigt die zusätzliche Leistungssteigerung, die durch das NVLink-Network ermöglicht wird.

Comparison of DGX A100 H100 and H100 + NVLink Network
Abbildung 4. Leistungssteigerung der Anwendung beim Vergleich verschiedener Systemkonfigurationen
Alle Leistungsangaben sind vorläufig und basieren auf den aktuellen Erwartungen und können sich bei der Auslieferung der Produkte noch ändern. A100-Cluster: HDR IB-Netzwerk. H100-Cluster: NDR IB Netzwerk mit NVLink-Network wo angegeben.
# GPUs: Klimamodellierung 1K, LQCD 1K, Genomics 8, 3D-FFT 256, MT-NLG 32 (Stapelgrößen: 4 für A100, 60 für H100 bei 1 Sekunde, 8 für A100 und 64 für H100 bei 1,5 und 2 Sekunden), MRCNN 8 (Batch 32), GPT-3 16B 512 (Batch 256), DLRM 128 (Batch 64K), GPT-3 16K (Batch 512), MoE 8K (Batch 512, ein Experte pro GPU)

HGX H100 4-GPU

Neben der 8-GPU-Version bietet die HGX-Familie auch eine Version mit 4-GPU,
die direkt mit NVLink der vierten Generation verbunden ist.
DGX H100 NVLink for 4 GPU

Die Punkt-zu-Punkt-Peer-NVLink-Bandbreite von H100 zu H100 beträgt 300 GB/s bidirektional und ist damit etwa 5 Mal schneller als der heutige PCIe Gen4 x16-Bus.

Der Formfaktor der HGX H100 4-GPU ist für den dichten HPC-Einsatz optimiert:

  • Mehrere HGX H100 4-GPUs können in ein 1U hohes Flüssigkeitskühlsystem gepackt werden, um die GPU-Dichte pro Rack zu maximieren.
  • Die HGX H100 4-GPU verfügt über eine vollständig PCIe-switchlose Architektur, die direkt mit der CPU verbunden ist, was die Materialkosten des Systems senkt und Strom spart.
  • Bei CPU-intensiven Workloads kann HGX H100 4-GPU mit zwei CPU-Sockeln gekoppelt werden, um das CPU-GPU-Verhältnis für eine ausgewogenere Systemkonfiguration zu erhöhen.