Speziell für die Konvergenz von Simulationen,
Datenanalysen und KI entwickelt

Massive Datensätze, riesige Modelle beim Deep Learning und komplexe Simulationen erfordern mehrere Grafikprozessoren mit extrem schnellen Verbindungen und einem vollständig beschleunigten Softwarestack. Die NVIDIA HGX™-KI–Supercomputing-Plattform vereint die volle Leistung von NVIDIA-Grafikprozessoren, NVIDIA® NVLink®, NVIDIA InfiniBand-Netzwerken und einem vollständig optimierten NVIDIA KI- und HPC-Softwarestack aus dem NVIDIA NGC™-Katalog für höchste Anwendungsleistung. Dank der durchgängigen Leistung und Flexibilität ermöglicht es NVIDIA HGX Forschern und Wissenschaftlern, Simulationen, Datenanalysen und KI zu kombinieren, um wissenschaftlichen Fortschritt voranzutreiben.

UNERREICHTE END-TO-END-PLATTFORM FÜR BESCHLEUNIGTES COMPUTING

NVIDIA HGX stellt mit NVIDIA A100 Tensor Core-GPUs und Hochgeschwindigkeitsverbindungen die leistungsstärksten Server der Welt dar. Dank 16 A100-GPUs bietet HGX A100 bis zu 1,3 Terabyte (TB) Grafikspeicher und eine Speicherbandbreite von über 2 Terabyte pro Sekunde (Tb/s) und erzielt somit nie dagewesene Beschleunigung.

Im Vergleich zu Vorgängergenerationen bietet HGX mit Tensor Float 32 (TF32) bis zu 20-fache KI-Beschleunigung und HPC eine 2,5-fache Beschleunigung mit FP64. NVIDIA HGX leistet atemberaubende 10 PetaFLOPS und ist somit die leistungsstärkste beschleunigte und vertikal skalierbare Serverplattform für KI und HPC.

Die HGX wurde umfassend getestet und ist einfach bereitzustellen. Sie wird für garantierte Leistung mit Partnerservern integriert. Die HGX-Plattform ist sowohl als 4-GPU- als auch als 8-GPU-HGX-Hauptplatinen mit SXM-GPUs verfügbar. Sie ist ebenfalls als PCIe-GPUs für eine modulare Bereitstellungsoption erhältlich, die die höchste Rechenleistung auf Mainstream-Servern bietet.

HGX Application and Software Package Image

DEEP-LEARNING-LEISTUNG

Mit 144 Kernen und einer Speicherbandbreite von 1 TB/s bietet der NVIDIA Grace CPU Superchip eine noch nie dagewesene Leistung für CPU-basierte High Performance Computing-Anwendungen. HPC-Anwendungen sind rechenintensiv und erfordern die leistungsstärksten Kerne, die höchste Speicherbandbreite und die richtige Speicherkapazität pro Kern, um die Ergebnisse zu beschleunigen.

Grace CPU Superchip und Grace Hopper Superchip werden voraussichtlich in der ersten Hälfte des Jahres 2023 verfügbar sein. 

BIS ZU 3-MAL SCHNELLERES KI-TRAINING
​​​​​​​BEI DEN GRÖSSTEN MODELLE

DLRM-Training
HGX Data Model Performance Image
DLRM auf HugeCTR-Framework, Präzision = FP16 | NVIDIA A100 80 GB Batchgröße = 48 | NVIDIA A100 40 GB Batchgröße = 32 | NVIDIA V100 32 GB Batchgröße = 32.
Größe und Komplexität von Deep Learning-Modellen sind explosionsartig gestiegen und erfordern Systeme mit großen Mengen an Arbeitsspeicher, enormer Rechenleistung und schnellen Verbindungen für Skalierbarkeit. Mit der äußerst schnellen multilateralen GPU-Kommunikation durch den NVIDIA® NVSwitch™ bietet HGX A100 genug Leistung für selbst fortschrittlichste KI-Modelle. Durch A100 80 GB-GPUs wird der Grafikspeicher verdoppelt, wodurch eine einzige HGX A100 bis zu 1,3 TB Speicher bietet. Stetig wachsende Workloads bei den allergrößten Modellen wie Deep Learning-Empfehlungsmodellen (DLRM), die über massive Datentabellen verfügen, werden gegenüber der Leistung von HGX-Systemen mit A100 40 GB-GPUs um das bis zu 3-Fache beschleunigt.

LEISTUNG DES MASCHINELLEN LERNENS

2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

DLRM-Training
HGX Data Analytics Performance Image
Big Data Analytics-Benchmark | 30 Analytical Retail Queries, ETL, ML, NLP auf 10-TB-Datensatz | V100 32 GB, RAPIDS/Dask | A100 40 GB und A100 80 GB, RAPIDS/Dask/BlazingSQL

Modelle für maschinelles Lernen erfordern das Laden, Umwandeln und Verarbeiten sehr großer Datensätze, um Erkenntnisse zu erlangen. Mit über 1,3 TB vereinheitlichtem Speicher und der multilateralen GPU-Kommunikation über NVSwitch verfügt HGX 80 GB über die Leistung, Berechnungen riesiger Datensätze zu laden und durchzuführen, um schnell handlungsorientierte Erkenntnisse zu erlangen.

In einem großen Datenanalyse-Benchmark erzielte die A100 80 GB Erkenntnisse mit 2-fach höherem Durchsatz als die A100 40 GB, womit sie ideal für zunehmende Workloads mit stetig wachsenden Datensätzen ist.

HPC-LEISTUNG

HPC-Anwendungen müssen jede Sekunde enorme Mengen an Berechnungen durchführen. Durch die drastische Erhöhung der Rechendichte jedes Server-Knotens wird die Anzahl der erforderlichen Server erheblich reduziert. Dies führt zu großen Kosteneinsparungen und senkt den Platz- und Energiebedarf in Rechenzentren. Für HPC-Simulationen und die damit verbundene hochdimensionale Matrix-Multiplikation muss ein Prozessor Daten aus vielen Umgebungen für die Berechnung abrufen. Daher ist die Verbindung der Grafikprozessoren durch NVLink ideal. HPC-Anwendungen können auch TF32 in A100 nutzen und erreichen so in vier Jahren einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit

Eine HGX A100 mit A100 80 GB-GPUs bietet eine zweifache Durchsatzsteigerung gegenüber A100 40 GB-GPUs in Quantum Espresso, einer Materialsimulation, und führt so zu schnellerem Erkenntnisgewinn.

11-mal mehr Leistung bei HPC in vier Jahren

Führende HPC-Anwendungen
HGX Throughput Performance Comparison Image
Geometrisches Mittel der Anwendungsbeschleunigung vs. P100: Benchmark-Anwendung: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Schnelle Feinabstimmung], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64:10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Grafikprozessorknoten mit Dual-Sockel-CPUs mit 4x NVIDIA P100-, V100- oder A100-Grafikprozessoren.

Bis zu 1,8-mal schnellere Leistung
​​​​​​​für HPC-Anwendungen

Quantum Espresso​
HGX Speed Performance For Hpc Image
Quantum Espresso-Messung mit CNT10POR8-Datensatz, Präzision = FP64.

TECHNISCHE DATEN ZU HGX A100

NVIDIA HGX ist als einzelne Hauptplatine mit vier oder acht A100-GPUs mit jeweils 40 GB oder 80 GB GPU-Speicher erhältlich. Die Konfiguration mit 4 Grafikprozessoren ist vollständig mit NVIDIA NVLink® verbunden, und die Konfiguration mit 8 Grafikprozessoren ist über NVSwitch miteinander verbunden. Zwei NVIDIA HGX A100-Hauptplatinen können mit einer NVSwitch-Verbindung kombiniert werden, um einen leistungsstarken Einzelknoten mit 16 Grafikprozessoren zu erstellen.

HGX ist auch in einem PCIe-Formfaktor als einfach bereitzustellende Option verfügbar, die höchste Rechenleistung auf Mainstream-Servern mit jeweils 40 GB oder 80 GB GPU-Speicher bietet.

Diese leistungsstarke Kombination aus Hard- und Software legt den Grundstein für die ultimative KI-Supercomputing-Plattform.

A100 PCIe
4-GPU
8-GPU
16-GPU
GPUs
1x NVIDIA A100 PCIe
HGX A100 4-GPU
HGX A100 8-GPU
2x HGX A100 8-GPU
Formfaktor
PCIe
4x NVIDIA A100 SXM
8x NVIDIA A100 SXM
16x NVIDIA A100 SXM
HPC- und KI-Berechnungen
​​​​​​​(FP64/TF32*/FP16*/INT8*
19.5TF/312TF*/624TF*/1.2POPS*
78TF/1.25PF*/2.5PF*/5POPS*
156TF/2.5PF*/5PF*/10POPS*
312TF/5PF*/10PF*/20POPS*
Arbeitsspeicher
40 oder 80 GB pro GPU
Bis zu 320 GB
Bis zu 640 GB
Bis zu 1.280 GB
NVLink
Dritte Generation
Dritte Generation
Dritte Generation
Dritte Generation
NVSwitch
N/A
N/A
Zweite Generation
Zweite Generation
NVSwitch-Bandbreite für Verbindungen zwischen GPUs
N/A
N/A
600GB/s
600GB/s
Gesamte aggregierte Bandbreite
600GB/s
2,4 TB/s
4,8 TB/s
9,6 TB/s
* Mit geringer Dichte

EINBLICK IN DIE NVIDIA AMPERE-ARCHITEKTUR

Lesen Sie diese technische Abhandlung und erfahren Sie,
​​​​​​​was bei der NVIDIA Ampere-Architektur und ihrer Implementierung im NVIDIA A100-Grafikprozessor neu ist.