NVIDIA H100 Tensor Core GPU Überblick
Der NVIDIA® H100 Tensor Core GPU, basierend auf der NVIDIA Hopper-GPU-Architektur, stellt den nächsten großen Sprung in der beschleunigten Rechenleistung für NVIDIAs Rechenzentrumsplattformen dar. Der H100 beschleunigt verschiedenste Workloads, von kleinen Unternehmens-Workloads über Exascale HPC bis hin zu KI-Modellen mit Billionen von Parametern. Der H100 ist der weltweit fortschrittlichste Chip, der jemals gebaut wurde. Er wird auf dem maßgeschneiderten 4N-Prozess von TSMC mit 80 Milliarden Transistoren und zahlreichen architektonischen Verbesserungen hergestellt.
SPEZIELL FÜR DIE KONVERGENZ VON SIMULATION, DATENANALYSE UND KI.
HGX H100 8-GPU
Diese vollständig verbundene Topologie von NVSwitch ermöglicht es jedem H100, gleichzeitig mit jedem anderen H100 zu kommunizieren. Diese Kommunikation läuft mit der bidirektionalen NVLink-Geschwindigkeit von 900 Gigabyte pro Sekunde (GB/s), was mehr als das 14-fache der Bandbreite des aktuellen PCIe Gen4 x16-Busses ist.
Der NVSwitch der dritten Generation bietet außerdem eine neue Hardware-Beschleunigung für kollektive Operationen mit Multicast und NVIDIA SHARP In-Network Reductions. In Kombination mit der schnelleren NVLink-Geschwindigkeit erhöht sich die effektive Bandbreite für gängige KI-Sammeloperationen wie All-Reduce im Vergleich zum HGX A100 um das Dreifache. Die NVSwitch-Beschleunigung von kollektiven Operationen reduziert auch die Belastung der GPU erheblich.
HGX A100 8-GPU | HGX H100 8-GPU | Verbesserungsquote | |
---|---|---|---|
FP8 | - | 32.000 TFLOPS | 6X (gegenüber A100 FP16) |
FP16 | 4.992 TFLOPS | 16.000 TFLOPS | 3X |
FP64 | 156 TFLOPS | 480 TFLOPS | 3X |
Netzinterne Datenverarbeitung | 0 | 3.6 TFLOPS | Unendlich |
Schnittstelle zur Host-CPU | 8x PCIe Gen4 x16 | 8x PCIe Gen5 x16 | 2X |
Bisektionsbandbreite | 2.4 TB/s | 3.6 TB/s | 1.5X |
HGX H100 8-GPU mit NVLink-Netzwerkunterstützung
Die aufstrebende Klasse der Exascale-HPC und Billionen-Parameter-KI-Modelle für Aufgaben wie präzise Konversations-KI benötigen selbst auf Supercomputern Monate zum Trainieren. Die Komprimierung dieses Vorgangs auf Geschäftsgeschwindigkeit und der Abschluss des Trainings innerhalb von Stunden erfordert eine nahtlose Hochgeschwindigkeitskommunikation zwischen allen GPUs in einem Server-Cluster.
Um diese großen Anwendungsfälle zu bewältigen, sind der neue NVLink und NVSwitch so konzipiert, dass der HGX H100 8-GPU mit dem neuen NVLink-Network eine viel größere NVLink-Domäne unterstützen kann. Eine weitere Version der HGX H100 8-GPU verfügt über diese neue NVLink-Network-Unterstützung.
256 A100 GPU-Pod | 256 H100 GPU-Pod | Verbesserungsquote | |
---|---|---|---|
NVLINK-Bereich | 8 GPU | 256 GPU | 32X |
FP8 | - | 1.024 PFLOPS | 6X (gegenüber A100 FP16) |
FP16 | 160 PFLOPS | 512 PFLOPS | 3X |
FP64 | 5 PFLOPS | 15 PFLOPS | 3X |
Netzinterne Datenverarbeitung | 0 | 192 TFLOPS | Unendlich |
Bisektionsbandbreite | 6.4 TB/s | 70 TB/s | 11X |
GEPLANTE ANWENDUNGSFÄLLE UND LEISTUNGSVORTEILE
Mit der drastischen Steigerung der HGX H100-Rechen- und Netzwerkfunktionen wird die Leistung
von KI- und HPC-Anwendungen erheblich verbessert. Die heutigen Mainstream-KI- und HPC-Modelle können vollständig im aggregierten GPU-Speicher eines einzelnen Knotens untergebracht werden. BERT-Large, Mask R-CNN und HGX H100 sind beispielsweise die leistungseffizientesten Trainingslösungen. Für fortschrittlichere und größere KI- und HPC-Modelle sind mehrere Knoten mit aggregiertem GPU-Speicher erforderlich. Ein Deep-Learning-Empfehlungsmodell (DLRM) mit Terabytes an eingebetteten Tabellen, ein großes Mixed-of-Experts (MoE)-Modell zur Verarbeitung natürlicher Sprache und die HGX H100 mit NVLink-Network beschleunigen den wichtigsten Kommunikationsengpass und sind die beste Lösung für diese Art von Workload. Abbildung 4 aus dem Whitepaper zur NVIDIA H100-GPU-Architektur zeigt die zusätzliche Leistungssteigerung, die durch das NVLink-Network ermöglicht wird.
HGX H100 4-GPU
die direkt mit NVLink der vierten Generation verbunden ist.
Die Punkt-zu-Punkt-Peer-NVLink-Bandbreite von H100 zu H100 beträgt 300 GB/s bidirektional und ist damit etwa 5 Mal schneller als der heutige PCIe Gen4 x16-Bus.
Der Formfaktor der HGX H100 4-GPU ist für den dichten HPC-Einsatz optimiert:
- Mehrere HGX H100 4-GPUs können in ein 1U hohes Flüssigkeitskühlsystem gepackt werden, um die GPU-Dichte pro Rack zu maximieren.
- Die HGX H100 4-GPU verfügt über eine vollständig PCIe-switchlose Architektur, die direkt mit der CPU verbunden ist, was die Materialkosten des Systems senkt und Strom spart.
- Bei CPU-intensiven Workloads kann HGX H100 4-GPU mit zwei CPU-Sockeln gekoppelt werden, um das CPU-GPU-Verhältnis für eine ausgewogenere Systemkonfiguration zu erhöhen.