DAS Universelle System für die KI-Infrastruktur

NVIDIA-certified systems von Supermicro

Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist die treibende Kraft der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. A100 ist mit 80 GB Arbeitsspeicher erhältlich. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen. 

Ihr direkter Draht zu den Experten von sysGen!

NVIDIA & SUPERMICRO
​​​​​​​HOLEN DAS BESTE AUS IHREN SYSTEMEN HERAUS

Ein von NVIDIA zertifiziertes System, bestehend aus A100 und NVIDIA Mellanox SmartnNICs und Grafikprozessoren, wird für Leistung, Funktionalität, Skalierbarkeit und Sicherheit validiert, sodass Unternehmen Komplettlösungen für die Verwendung von KI aus dem NVIDIA NGC-Katalog problemlos implementieren können.

Holen Sie das Beste aus Ihren Systemen mit unseren Empfehlungen von NVIDIA und Supermicro heraus.
​​​​​​​​​​​​​​Hier ist für jedes Vorhaben und für jedes Budget das Richtige dabei!

ÜBERSCHREITEN SIE DIE GRENZEN DER KI

Als neueste Iteration der legendären NVIDIA DGX Systeme und Grundlage des NVIDIA DGX SuperPOD™ ist der DGX H100 das KI-Kraftpaket, das durch die bahnbrechende Leistung der NVIDIA H100 Tensor Core GPU beschleunigt wird.

Leistungsdaten der DGX H100

Transformations-KI-Training
Bis zu 9-mal schnelleres KI-Training bei den größten Modellen
Mixture of Experts (395 Milliarden Parameter)
Die projizierte Leistung kann Änderungen unterliegen. Training für Mixture of Experts (MoE) Transformer Switch-XXL-Variante mit 395B-Parametern auf 1T-Token-Datensatz | A100-Cluster: HDR-IB-Netzwerk | H100-Cluster: NVLINK Switch System, NDR IB

NVIDIA H100-Grafikprozessoren verfügen über Tensor-Recheneinheiten der vierten Generation und die Transformer Engine mit FP8-Präzision, die bis zu 9-mal schnelleres Training im Vergleich zur vorherigen Generation für MoE-Modelle (Mixture of Experts) bietet. Die Kombination aus NVlink der vierten Generation, die eine GPU-zu-GPU-Verbindung von 900 Gigabyte pro Sekunde (GB/s) bietet, NVLINK Switch System, das die Kommunikation durch jeden Grafikprozessor über Knoten hinweg beschleunigt, PCIe der 5. Generation und NVIDIA Magnum IO™-Software bietet effiziente Skalierbarkeit von kleinen Unternehmen bis hin zu riesigen, einheitlichen GPU-Clustern.

Die Bereitstellung von H100-Grafikprozessoren im Rechenzentrumsmaßstab bietet hervorragende Leistung sowie die nächste Generation von Exascale High-Performance-Computing (HPC) und Billionen-Parameter-KI für alle Forscher.

Echtzeit-Deep-Learning-Inferenz
Bis zu 30-mal höhere KI-Inferenzleistung bei den größten Modellen
Megatron Chatbot-Inferenz (530 Milliarden Parameter)
Projected performance subject to change. Inference on Megatron 530B parameter model chatbot for input sequence length=128, output sequence length=20 | A100-Cluster: HDR-IB-Netzwerk | H100-Cluster: NDR-IB-Netzwerk für 16 H100-Konfigurationen | 32 A100 vs. 16 H100 für 1 und 1,5 Sek. | 16 A100 vs. 8 H100 für 2 Sek.

KI löst eine Vielzahl von geschäftlichen Herausforderungen mit einer ebenso breiten Palette an neuronalen Netzen. Ein hervorragender KI-Inferenzbeschleuniger muss nicht nur höchste Leistung, sondern auch die Vielseitigkeit bieten, um diese Netzwerke zu beschleunigen.

H100 erweitert die marktführende Position von NVIDIA bei Inferenz durch mehrere Fortschritte, die die Inferenz um das bis zu 30-Fache beschleunigen und die niedrigste Latenz bieten. Tensor-Recheneinheiten der vierten Generation beschleunigen alle Präzisionen, einschließlich FP64, TF32, FP32, FP16 sowie INT8, und die Transformer Engine verwendet FP8 und FP16 zusammen, um die Speicherauslastung zu reduzieren, die Leistung zu steigern und gleichzeitig die Genauigkeit für große Sprachmodelle aufrechtzuerhalten.

Exascale High-Performance Computing
Bis zu 7-mal höhere Leistung für HPC-Anwendungen
Die projizierte Leistung kann Änderungen unterliegen. Durchsatz 3D FFT (4K^3) | A100-Cluster: HDR-IB-Netzwerk | H100-Cluster: NVLink-Switch-System, NDR-IB | Genomsequenzierung (Smith-Waterman) | 1 A100 | 1 H100

Die NVIDIA-Rechenzentrumsplattform bietet konsistent Leistungssteigerungen, die über das Mooresche Gesetz hinausgehen. Die neuen bahnbrechenden KI-Funktionen von H100 verstärken die Leistungsfähigkeit von HPC und KI weiter, um für Wissenschaftler und Forscher, die an der Lösung der wichtigsten Herausforderungen der Welt arbeiten, die Zeit bis zum Entdecken zu verkürzen.

H100 verdreifacht die Gleitkommaoperationen pro Sekunde (FLOPS) der Tensor Cores mit doppelter Genauigkeit und liefert 60 TeraFLOPS FP64-Computing für HPC. KI-gestützte HPC-Anwendungen können die TF32-Präzision von H100 nutzen, um einen PetaFLOP Durchsatz für Matrixmultiplikationsoperationen mit einfacher Genauigkeit zu erreichen, ohne Codeänderungen.

H100 verfügt außerdem über DPX-Anweisungen, die bei dynamischen Programmieralgorithmen wie Smith-Waterman für die DNA-Sequenzausrichtung 7-mal mehr Leistung als NVIDIA A100 Tensor Core-GPUs und eine 40-fache Beschleunigung gegenüber herkömmlichen Servern mit Dual-Socket-CPUs allein bieten.

Technische Daten H100 Tensor-Core-GPU
Formfaktor
H100 SXM
H100 PCIe
FP64
30 teraFLOPS
24 teraFLOPS
FP64-Tensor-Core
60 teraFLOPS
48 teraFLOPS
FP32
60 teraFLOPS
48 teraFLOPS
TF32-Tensor-Core
1.000 teraFLOPS*
800 teraFLOPS*
BFLOAT16-Tensor-Core
2.000 teraFLOPS*
1.600 teraFLOPS*
FP16-Tensor-Core
2.000 teraFLOPS*
1.600 teraFLOPS*
FP8-Tensor-Core
4.000 teraFLOPS*
3.200 teraFLOPS*
INT8-Tensor-Core
4.000 TOPS*
3.200 TOPS*
GPU-Speicher
80 GB
80 GB
GPU-Speicherbandbreite
3 TB/s
2 TB/s
Decoder
7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
Max. Thermal Design Power (TDP)
700 W
350 W
Mehr-Instanzen-Grafikprozessoren
Bis zu 7 MIGs mit je 10 GB
Formfaktor
SXM
PCIe
Zwei Steckplätze mit Luftkühlung
Konnektivität
NVLink: 900 GB/s PCIe Gen5: 128 GB/s
NVLINK: 600 GB/s PCIe Gen5: 128 GB/s
Serveroptionen
NVIDIA HGX™ H100-Partner und NVIDIA-Certified Systems™ mit 4 oder 8 GPUs, NVIDIA DGX™ H100 mit 8 GPUs
Partner und NVIDIA-Certified Systems mit 1–8 GPUs

* Mit geringer Dichte dargestellt. Die Spezifikationen sind ohne geringe Dichte um die Hälfte niedriger. Vorläufige Spezifikationen. Änderungen vorbehalten.

DAS WELTWEIT ERSTE KI-SYSTEM AUF BASIS VON NVIDIA A100

NVIDIA DGX™ A100 ist das universelle System für alle KI-Workloads und bietet beispiellose Rechendichte, Leistung und Flexibilität im weltweit ersten 5 petaFLOPS KI-System. NVIDIA DGX A100 verfügt über den weltweit fortschrittlichsten Beschleuniger, den NVIDIA A100 Tensor Core-Grafikprozessor, mit dem Unternehmen Schulungen, Inferenz und Analysen in einer einheitlichen, einfach zu implementierenden KI-Infrastruktur mit direktem Kontakt zu NVIDIA KI-Experten konsolidieren können.

Leistungsdaten der DGX A100

Deep Learning Training

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

DLRM-Training
DLRM auf HugeCTR-Framework, Präzision = FP16 | NVIDIA A100 80 GB Batchgröße = 48 | NVIDIA A100 40 GB Batchgröße = 32 | NVIDIA V100 32 GB Batchgröße = 32. 

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.

Die Tensor Cores NVIDIA A100 mit Tensor Float (TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafik-prozessoren möglich.

Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.

Bei den größten Modelle mit massiven Datentabellen wie Deep Learning-Empfehlungsmodellen (DLRM) erreicht die A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als die A100 40 GB.

Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungs-rekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.


ERFAHREN SIE MEHR ÜBER A100 FÜR DAS TRAINING
Inferenz für Deep Learning

INFERENZ FÜR DEEP LEARNING

Mit der A100 werden bahnbrechende Funktionen zur Optimierung von Inferenzworkloads eingeführt. Sie beschleunigt ein breites Spektrum von Präzisionen, von FP32 bis INT4. Durch die Mehr-Instanzen-Grafikprozessor-Technologie (MIG) können mehrere Netzwerke gleichzeitig auf einer einzelnen A100-GPU ausgeführt werden, um die Rechenressourcen optimal zu nutzen. Zusätzlich zu den anderen Inferenzleistungssteigerungen der A100 bietet die strukturelle geringe Dichte bis zu 2-mal mehr Leistung.

Für hochmoderne Konversations-KI-Modelle wie BERT bietet die A100 einen bis zu 249-mal schnelleren Inferenzdurchsatz gegenüber CPUs.

Bei den komplexesten Modellen mit beschränkten Batchgrößen, wie RNN-T für automatische Spracherkennung, verdoppelt die erhöhte Speicherkapazität der A100 80GB die Größe jeder MIG und liefert so einen 1,25-mal größeren Durchsatz als die A100 40 GB.

NVIDIA bewies marktführende Leistung bei der Inferenz in MLPerf. Die A100 baut diese Führung mit 20-mal mehr Leistung weiter aus.


ERFAHREN SIE MEHR ÜBER A100 FÜR INFERENZ
​​​​​​​Bis zu 249-mal höhere Leistung bei KI-Inferenz gegenüber CPUs
​​​​​​​

BERT-LARGE-Inferenz
BERT-Large-Inferenz | Nur CPU: Dual Xeon Gold 6240 bei 2,60 GHz, Präzision = FP32, Batchgröße = 128 | V100: NVIDIA TensorRT™ (TRT) 7,2, Präzision = INT8, Batchgröße = 256 | A100 40 GB und 80GB, Batchgröße = 256, Präzision = INT8 mit geringer Dichte.
Bis zu 1,25-mal höhere Leistung bei KI-Inferenz
gegenüber A100 40 GB
RNN-T-Inferenz: Single Stream
MLPerf 0.7 RNN-T gemessen mit (1/7) MIG-Instanzen. Framework: TensorRT 7.2, Datensatz = librispeech, Präzision = FP16. ​
High Perfomance Computing

HIGH-PERFORMANCE COMPUTING

Um die nächste Generation der Entdeckungen zu erschließen, betrachten Wissenschaftler Simulationen, um die Welt um uns besser zu verstehen.

NVIDIA A100 führt Tensor Cores mit doppelter Präzision ein und stellt somit den größten Leistungssprung für HPC seit der Einführung von GPUs dar. In Kombination mit 80 GB des schnellsten Grafikspeichers können Forscher eine vormals 10-stündige, Simulation auf A100 mit doppelter Präzision auf weniger als vier Stunden verkürzen. HPC-Anwendungen können zudem TF32 nutzen und erreichen so einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit.

Für jene HPC-Anwendungen mit den größten Datensätzen bietet der zusätzliche Speicherplatz der A100 80 GB eine bis zu 2-fache Steigerung des Durchsatzes in Quantum Espresso, einer Materialsimulation. Der enorme Arbeitsspeicher und die unübertroffene Speicherbandbreite machen die A100 80 GB zur idealen Plattform für Workloads der nächsten Generation.


ERFAHREN SIE MEHR ÜBER A100 FÜR HPC
11-mal mehr Leistung bei HPC in vier Jahren
Führende HPC-Anwendungen
Geometrisches Mittel der Anwendungsbeschleunigung vs. P100: Benchmark-Anwendung: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Schnelle Feinabstimmung], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64:10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Grafikprozessorknoten mit Dual-Sockel-CPUs mit 4x NVIDIA P100-, V100- oder A100-Grafikprozessoren.
Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen
Quantum Espresso
Quantum Espresso-Messung mit CNT10POR8-Datensatz, Präzision = FP64.
Leistungsstarke Datenanalyse

LEISTUNGSSTARKE DATENANALYSE

Bis zu 83-mal schneller als auf CPU, 2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

Big Data Analytics-Benchmark | 30 Analytical Retail Queries, ETL, ML, NLP auf 10-TB-Datensatz | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 32 GB, RAPIDS/Dask | A100 40 GB und A100 80 GB, RAPIDS/Dask/BlazingSQL

Datenwissenschaftler müssen dazu in der Lage sein, umfangreiche Datensätze zu analysieren, zu visualisieren und Erkenntnisse aus ihnen zu gewinnen. Skalierungslösungen werden jedoch oft davon ausgebremst, dass Datensätze auf mehrere Server verteilt sind.

Beschleunigte Server mit A100 liefern die nötige Rechenleistung – zusammen mit gewaltigem Arbeitsspeicher, einer Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s) sowie Skalierbarkeit über NVIDIA® NVLink® und NVSwitch™ – um diese gewaltigen Workloads zu bewältigen. In Kombination mit InfiniBand, NVIDIA Magnum IO™ und der RAPIDS™-Suite an Open-Source-Bibliotheken, einschließlich des RAPIDS Accelerator für Apache Spark für GPU-beschleunigte Datenanalysen, beschleunigt die Rechenzentrumsplattform von NVIDIA diese enormen Workloads mit unübertroffener Leistung und Effizienz.

In einem großen Datenanalyse-Benchmark erzielte die A100 80 GB mit 83-mal höherem Durchsatz Erkenntnisse als CPUs und 2-fach höhere Leistung als die A100 40 GB, womit sie ideal für zunehmende Workloads mit stetig wachsenden Datensätzen ist.


WEITERE INFORMATIONEN ZU DATENANALYSEN
Unternehmensfähige Auslastung

UNTERNEHMENSFÄHIGE AUSLASTUNG

7-mal höherer Inferenz-Durchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

BERT-Large-Inferenz

BERT Schnelle Inferenz | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor-Core-GPU: TRT 7.1, Genauigkeit = INT8, Losgröße = 256 | V100: TRT 7.1, Genauigkeit = FP16, Losgröße = 256 | A100 mit 1 oder 7 MIG-Instanzen von 1 G, 5 GB: Losgröße = 94, Genauigkeit = INT8 mit geringer Dichte.

A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich GPU-Beschleunigung nutzen können. Bei der A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies bei der A100 80 GB auf 10 GB verdoppelt.

MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing Ressourcen erhält.
​​​​​​​

MEHR INFORMATIONEN ZU MIG

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

DLRM-Training
DLRM auf HugeCTR-Framework, Präzision = FP16 | NVIDIA A100 80 GB Batchgröße = 48 | NVIDIA A100 40 GB Batchgröße = 32 | NVIDIA V100 32 GB Batchgröße = 32. 

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.

Die Tensor Cores NVIDIA A100 mit Tensor Float (TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafik-prozessoren möglich.

Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.

Bei den größten Modelle mit massiven Datentabellen wie Deep Learning-Empfehlungsmodellen (DLRM) erreicht die A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als die A100 40 GB.

Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungs-rekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.


ERFAHREN SIE MEHR ÜBER A100 FÜR DAS TRAINING
Prozessor: Dual AMD EPYC™ 7002/7003 Series Processors
Prozessor: Dual Socket P+ (LGA-4189) 3rd Gen Intel® Xeon® Scalable Processors
Prozessor: Dual AMD EPYC™ 7002/7003 Series Processors
Prozessor: Dual Socket P+ (LGA-4189) 3rd Gen Intel® Xeon® Scalable Processors

GPUs FÜR RECHENZENTREN

TECHNISCHE DATEN

NVIDIA A100 für NVLink
NVIDIA A100 für PCIe
Peak FP64
9.7 TF
9.7 TF
Peak FP64 Tensor Core
19.5 TF
19.5 TF
Peak FP32
19.5 TF
19.5 TF
Tensor Float 32 (TF32)
156 TF | 312 TF*
156 TF | 312 TF*
Peak BFLOAT16 Tensor Core
312 TF | 624 TF*
312 TF | 624 TF*
Peak FP16 Tensor Core
312 TF | 624 TF*
312 TF | 624 TF*
Peak INT8 Tensor Core
624 TOPS | 1.248 TOPS *
624 TOPS | 1.248 TOPS *
Peak INT4 Tensor Core
1.248 TOPS | 2.496 TOPS *
1.248 TOPS | 2.496 TOPS *
Grafikprozessorspeicher
40GB / 80GB
40GB
GPU-Speicherbandbreite
1.555 GB/s / 2.039 GB/s
1.555 GB/s
Verbindungen
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
Mehr-Instanzen-Grafikprozessor
Verschiedene Instanzgrößen mit bis zu 7 MIGs bei 10 GB
Verschiedene Instanzgrößen mit bis zu 7 MIGs bei 5 GB
Formfaktor
4/8 SXM auf NVIDIA HGX™ A100
PCIe
Max. TDP-Kraft
400 W / 400 W
250W
* Mit geringer Dichte
** SXM-Grafikprozessoren über HGX A100-Serverboards; PCIe-Grafikprozessoren über NVLink-Brücke für bis zu 2 Grafikprozessoren

NVIDIA RTX Workstation GPU's

EINBLICKE IN DIE NVIDIA AMPERE-ARCHITEKTUR

Erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung
im NVIDIA A100-Grafikprozessor neu ist.